首页 期刊 计算机研究与发展 一种大规模分类数据聚类算法及其并行实现 【正文】

一种大规模分类数据聚类算法及其并行实现

作者:丁祥武; 郭涛; 王梅; 金冉 东华大学计算机科学与技术学院; 上海201620; 浙江万里学院计算机与信息学院; 浙江宁波315100
分类数据   clope   并行聚类   mapreduce  

摘要:CLOPE 算法在大规模、稀疏、高维的分类数据集的聚类上取得了很好的聚类效果.然而该算法受输入数据的顺序影响,难以获得稳定且全局最优的聚类结果.因此提出一种基于等分划分再排列思想的 p-CLOPE 算法对这一缺陷进行改进.在 p-CLOPE 算法的每一轮迭代过程中,对输入数据集等分为p 部分再排列生成不同顺序的 p !份数据集,对这些数据集分别聚类并选取最优的聚类结果作为下一轮迭代的输入.为了降低上述过程的时间复杂度,提出了一种中间结果复用策略,较大程度地提高了聚类速度.最后,在 Hadoop 平台上实现了一个包含 p -CLOPE 相关算法的开源聚类工具.实验表明:p-CLOPE 算法比 CLOPE 算法取得了更优的聚类结果.对蘑菇数据集,当 CLOPE 算法取得最优聚类结果时,p-CLOPE 比 CLOPE 取得了高35.7%的收益值;在处理大量数据时,并行 p-CLOPE 比串行p-CLOPE 极大地缩短了聚类时间,并在计算资源充足时,取得了接近 p !倍的加速比.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅