首页 期刊 科技广场 基于Hadoop的二分K均值改进算法 【正文】

基于Hadoop的二分K均值改进算法

作者:王嘉旸; 万青云; 闫天伟 江西农业大学软件学院; 江西南昌330045; 南昌大学信息工程学院; 江西南昌330031
二分k均值   优化   并行   hadoop   加速比  

摘要:传统的二分K均值算法在二分过程中采用随机选择的方式选择聚类质心,为了选择到理想的质心,需要重复选择多次,这种方式的时间代价比较大。为此,本文提出采用极大距离点作为质心的方式,有效的降低了时间复杂度,同时运用点抽样的方法避免离群点带来的影响。同时,考虑到随着时代的发展,我们面临的数据量会越来越大,本文提出了一种基于Hadoop分布式平台的并行二分K均值算法,实验表明,该并行算法能够获得较为理想的加速比。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅