【免费】基于密度峰值优化的Canopy-Kmeans并行算法-发表之家

基于密度峰值优化的Canopy-Kmeans并行算法

作者：李琪; 张欣; 张平康; 张航贵州大学大数据与信息工程学院; 贵州贵阳550025

密度峰值 spark 聚类

摘要：随着数据规模的爆炸式增长,利用K-means等聚类算法挖掘大数据的潜在价值,已成为一个当前较为重要的研究方向。将Canopy算法与K-means算法结合,可解决K个中心点的选取问题。而针对Canopy-Kmeans算法中初始中心点选取随机、算法受噪声点影响等问题,提出了一种利用密度峰值改进的M-Canopy-Kmeans算法,并采用Spark框架实现算法的并行化。实验结果表明,改进后的算法避免了Canopy中心点选取的盲目性,且有效排除了样本中的噪声点,准确性、抗噪性都有明显提高,且在Spark并行框架中具有良好的加速比和扩展性。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询免费咨询杂志订阅

热门期刊服务

科技与经济统计与经济计算机教育计算机与信息技术数值计算与计算机应用计算机工程与设计计算机技术与发展计算机辅助设计与制造电气技术与经济交通与计算机机械科学与技术审计与经济研究

基于大概念的语文教学基于智慧课堂的教与学基于核心素养的培养基于核心素养的教学方式基于模型的优化设计

通信技术

影响因子：0.59

期刊级别：部级期刊

发行周期：月刊

服务介绍

基于密度峰值优化的Canopy-Kmeans并行算法

通信技术

期刊咨询

订阅杂志

期刊推荐