首页 期刊 计算机研究与发展 密度峰值聚类算法综述 【正文】

密度峰值聚类算法综述

作者:陈叶旺; 申莲莲; 钟才明; 王田; 陈谊; 杜吉祥 华侨大学计算机科学与技术学院; 福建厦门361021; 食品安全大数据技术北京市重点实验室(北京工商大学); 北京100048; 江苏省计算机信息处理技术重点实验室(苏州大学); 江苏苏州215006; 福建省大数据智能与安全重点实验室(华侨大学); 福建厦门361021; 宁波大学信息学院; 浙江宁波315211
聚类算法   密度峰值   大数据   数据挖掘   密度聚类  

摘要:密度峰值聚类(density peak,DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理:首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅