作者:陈俊芬; 张明; 赵佳成 期刊:《计算机科学》 2020年第03期
机器学习的无监督聚类算法已被广泛应用于各种目标识别任务。基于密度峰值的快速搜索聚类算法(DPC)能快速有效地确定聚类中心点和类个数,但在处理复杂分布形状的数据和高维图像数据时仍存在聚类中心点不容易确定、类数偏少等问题。为了提高其处理复杂高维数据的鲁棒性,文中提出了一种基于学习特征表示的密度峰值快速搜索聚类算法(AE-MDPC)。该算法采用无监督的自动编码器(AutoEncoder)学出数据的最优特征表示,结合能刻画数据全局一...
作者:许青林; 罗炜平; 陈烈锋 期刊:《软件导刊》 2020年第01期
相比较于其它聚类算法,密度峰值聚类算法可将任意形状的数据与较少的参数和高效的聚类速度结合起来。针对当某个类中出现多个密度峰值时,聚类结果缺乏准确性的问题,提出一种改进的密度峰值聚类算法(CFSFDP)。该算法从决策点数值变化的角度,考虑3个点(当前数据点、当前点的前一数据点与当前点的后一数据点)连线形成夹角的变化情况实现算法自主选取聚簇中心;同时为减少人为因素对聚类结果有效性造成的影响,算法通过比较类簇之间的密...
作者:何选森; 何帆 期刊:《数据采集与处理》 2019年第05期
针对欠定盲源分离问题,提出了增强信号稀疏性的方法,并把具有噪声的基于密度空间聚类与寻找密度峰值聚类相结合用于估计混合矩阵。首先,把时域观测信号变换成时频域的稀疏信号,通过单源点检测突出信号的线性聚类特性,并采用镜像映射将线性聚类转变成致密聚类以便于进行密度基的聚类分析;然后,利用密度空间聚类搜寻密集数据堆中高密度的点和与之相应的邻域,以自动形成聚类簇的数量和初步聚类中心;最后,把获得的聚类数量作为密度峰值...
作者:封云飞; 陈红梅 期刊:《计算机科学》 2019年第10期
现代网络科学的不断发展,为人们的生活提供了极大的便利。对复杂网络的研究是推动现代网络科学发展的重要动力,而社区是研究复杂网络的重要结构。已有的社区发现方法大多是高度复杂的,这不利于有效挖掘复杂网络。为了研究更高效的社区发现算法,文中将近年来被提出的密度峰值聚类算法应用于社区发现中,对密度峰值算法进行改进,提出了一种高效的社区发现算法。将密度峰值算法应用于社区发现存在一些问题,由于复杂网络数据结构具有特...
作者:王军; 吴文超; 程勇 期刊:《计算机工程与设计》 2019年第11期
针对不平衡数据分类问题,提出一种基于密度峰值的Adaboost算法。将训练数据划分为多数类和少数类,统计各自的数量;在多数类样本中,对由密度峰值算法快速聚类生成的各个簇按照采样率 进行随机欠采样,将所采样的多数类与原少数类合成新样本,降低数据的不平衡性;将合成样本带入以决策树为基分类器的自适应增强模型,通过改变样本权值分布提高该算法模型对于不平衡数据的分类性能。实验结果表明,该算法在评价指标ROC曲线下的面积(AUC)、...
作者:卢晶; 段勇; 刘海波 期刊:《电子学报》 2018年第03期
密度峰值聚类算法由于在发现任意形状簇且不需指定聚类个数等方面具有一定的优势而被广泛关注.但是该算法需要计算数据集中所有点的密度和点对之间的距离,因此不适合处理大规模高维数据集.为此,本文提出了一种基于z值的分布式密度峰值聚类算法,DP-z.本方法利用空间z填充曲线将高维数据集映射到一维空间上,根据数据点的z值信息对数据集分组.为了能够得到正确的结果,需要对分组间数据进行交互,然后并行计算每个点密度和斥群值.DP-z算...
作者:叶永恩; 王欣; 黄浩 期刊:《新型工业化》 2017年第10期
针对风电系统故障种类多,故障信号数据维数大,诊断正确率低的问题,提出一种利用密度峰值优化初始质心K-means分类算法进行诊断;K-means算法的初始聚类质心是随机选取的,聚类质心选取质量严重影响聚类结果的稳定性,当聚类较大维数的数据时效果很不理想。而CFSFDP(clusteringbyfastsearchandfindofdensitypeaks)算法对维数较大的数据有良好的聚类能力,但是对于同类多峰的数据,分类效果稳定性变差,总体效果不够理想。为此,综合两种算...
作者:赵晓永; 赵熙岑 期刊:《北京信息科技大学学报·自然科学版》 2019年第02期
发现异常的企业关联交易是审计的重要任务之一。但目前企业之间的关联交易构成了复杂的交易图,传统审计方法在如此繁杂的数据中发现异常的难度越来越大。对企业关联交易图的离群点挖掘进行了研究,分析了关联交易图数据的特点,根据这些特点对rPCA、CMGOS和One-class SVM三种离群点挖掘算法进行了对比,并提出了一种采用密度峰值聚类DPC来改进的CMGOS算法。实验表明,One-class SVM算法作为一种数据新颖性检测方法,不适于异常企业关联...
作者:何仝; 徐蔚鸿; 马红华; 曾水玲 期刊:《计算技术与自动化》 2019年第02期
基于密度峰值的聚类算法(DPC)是最近提出的一种高效密度聚类算法。该算法可以对非球形分布的数据聚类,有待调节参数少、聚类速度快等优点,但在计算每个数据对象的密度值和高密度最邻近距离时,需要进行距离度量,其时间复杂度为。在大数据时代,尤其是处理海量高维数据时,该算法的效率会受到很大的影响。为了提高该算法的效率和扩展性,利用Spark在内存计算以及迭代计算上的优势,提出一种高效的基于E2LSH分区的聚类算法ELSDPC(an effic...
作者:江平平; 曾庆鹏 期刊:《计算机应用与软件》 2019年第08期
针对密度峰值聚类(Density Peak Clustering,DPC)算法具有时空复杂度高而降低了对大规模数据集聚类的有效性,以及依靠决策图人工选取聚类中心等缺点,提出基于网格的密度峰值聚类(G-DPC)算法。采用基于网格的方式进行网格划分,用网格代表点替换网格单元整体;对各代表点聚类,通过改进的自适应方法选出核心网格代表点作为聚类中心;将剩余点归类,剔除噪声点。仿真实验验证了该算法对大规模数据集和高维数据集聚类的有效性。
作者:薛丽霞; 孙伟; 汪荣贵; 杨娟; 胡敏 期刊:《计算机应用研究》 2019年第07期
针对经典谱聚类算法无法自适应确定聚类数目,以及在处理大数据量的聚类问题时效率不高的问题,提出了一种基于密度峰值优化的谱聚类算法。该方法首先计算数据对象的局部密度,以及每个数据对象与其他数据对象的最小距离,并依据一定的规则自适应产生初始聚类中心,确定聚类数目;然后使用Nystrom抽样来降低特征分解的计算复杂度,以达到提高谱聚类算法的效率。实验结果表明,该方法能够准确地得到聚类数目,并且有效提高了聚类的准确率和效...
作者:周世波; 徐维祥 期刊:《控制与决策》 2018年第11期
聚类是数据挖掘领域的一个重要研究方向,针对复杂数据集中存在的簇间密度不均匀、聚类形态多样、聚类中心的识别等问题,引入样本点k近邻信息计算样本点的相对密度,借鉴快速搜索和发现密度峰值聚类(CFSFDP)算法的簇中心点识别方法,提出一种基于相对密度和决策图的聚类算法,实现对任意分布形态数据集聚类中心快速、准确地识别和有效聚类.在7类典型测试数据集上的实验结果表明,所提出的聚类算法具有较好的适用性,与经典的DBSCAN算法...
作者:周世波; 徐维祥 期刊:《仪器仪表学报》 2018年第07期
密度峰值快速搜索与聚类算法(CFSFDP)是2014年发表在《科学》上的一种新颖的聚类算法,该算法通过计算样本点的局部密度和到局部密度比它大的样本点的距离,采用决策图的形式确定聚类中心,能快速发现任意形状数据集的密度峰值点,并高效进行非中心样本点分配。但是当数据集中簇间密度差别较大或者某个簇中存在多密度峰值时,聚类结果较差。针对该问题,采用相对密度作为度量样本点密度的尺度搜索密度峰值,优化CFSFDP算法。人造数据集...
作者:王鹏飞; 杨余旺; 柯亚琪 期刊:《计算机工程与科学》 2018年第08期
密度峰值快速搜索聚类CFSFDP算法选择聚类中心时需要通过人工在决策图中选择,且最后进行簇核心与簇光晕划分时会将簇的一些边缘部分划入簇光晕中,导致划分结果不够合理。针对以上问题,提出一种聚类中心自动选择及簇核心与簇光晕分割优化的聚类算法。利用异常检测的思想,寻找簇中心权值的异常点,将异常点作为各簇的聚类中心;引入簇内局部密度,实现对簇核心与簇光晕更合理的分割。通过实验对比,本文提出的算法自动化效果优于CFSFDP算...
作者:杜沛; 程晓荣 期刊:《计算机工程与应用》 2019年第10期
快速搜索与发现密度峰值聚类算法(Fast Search and Discovery Density Peak Clustering Algorithm,CFSFDP)的聚类效果十分依赖截断距离dc的主观选取,而最佳dc值的确定并不容易,并且当处理分布复杂、密度变化大的数据集时,算法生成的决策图中类簇中心点与非类簇中心点的区分不够明显,使类簇中心的选取变得困难。针对这些问题,对其算法进行了优化,并提出了基于K近邻的比较密度峰值聚类算法(Comparative Density Peak Clustering algo...
作者:董晓君; 程春玲 期刊:《计算机科学》 2018年第11期
快速搜索和发现密度峰值的聚类算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)是一种新的基于密度的聚类算法,它通过发现密度峰值来有效地识别类簇中心,具有聚类速度快、实现简单等优点。针对CFSFDP算法的准确性依赖于数据集的密度估计和截断距离(dc)的人为选择问题,提出一种基于核密度估计的K-CFSFDP算法。该算法利用无参的核密度估计分析数据点的分布特征并自适应地选取dc,从而搜索和发现数据点的密度峰值,...
作者:闫小勇; 李青 期刊:《小型微型计算机系统》 2018年第12期
针对二进制协议会话流特征缺失和频繁模式难以提取的问题,通过采用特征降维和改进的密度峰值聚类算法,实现了无监督条件下以数据帧为颗粒度的二进制协议数据聚类.提出基于频繁项的特征降维算法,利用协议数据中存在的频繁项构造特征矢量表示原有数据帧,达到降维的目的;提出基于距离指数加权的密度峰值聚类算法自动选取聚类中心,有效提高了聚类中心和其它数据帧的区分度.通过在AIS、ARP、DNS、ICMP和SMB五种协议构成的三个数据集上进...
作者:滕建; 乐红兵 期刊:《信息系统工程》 2018年第11期
现有的密度峰值聚类算法存在时间复杂度过高和空间复杂度过高的问题,基于此,论文提出.通过网络划分的方法,将各个数据点映射到相应的网格来解决这个问题,并且在计算网格密度时为了解决网格划分对密度分布的割裂引入了邻域网格密度贡献的概念,克服了传统网格划分所产生的不平滑现象.此方法降低了聚类计算时的时间复杂度和空间复杂度,使得算法适用与大规模数据聚类.通过在数据集上进行实验显示该算法在保证准确性的前提下能有效减少...
作者:何瀚志; 朱红; 王伟 期刊:《计算机工程与设计》 2019年第03期
针对密度峰值算法(density peaks cluster,DPC)依靠先验知识给定截断距离dc且人工选择聚类中心点具有主观随意性等缺陷,提出一种基于遗传算法求取分割图像最大熵值,获得最优分割阈值的方法。得到满意的分割效果,实现了DPC算法的自适应分割并应用到医学图像上。仿真实验采用多张哈佛全脑图中的经典疾病图像,与K-means、AP(仿射传播)聚类算法及DPC算法作比较,比较结果表明,DPC的改进算法能自动获取截断距离,确定聚类中心,获得更好的...
作者:王洋; 张桂珠 期刊:《计算机工程与应用》 2018年第08期
密度峰值聚类算法(Density Peaks Clustering,DPC),是一种基于密度的聚类算法,该算法具有不需要指定聚类参数,能够发现非球状簇等优点。针对密度峰值算法凭借经验计算截断距离dc无法有效应对各个场景并且密度峰值算法人工选取聚类中心的方式难以准确获取实际聚类中心的缺陷,提出了一种基于基尼指数的自适应截断距离和自动获取聚类中心的方法,可以有效解决传统的DPC算法无法处理复杂数据集的缺点。该算法首先通过基尼指数自适应截断...