摘要:传统的二分K均值算法在二分过程中采用随机选择的方式选择聚类质心,为了选择到理想的质心,需要重复选择多次,这种方式的时间代价比较大。为此,本文提出采用极大距离点作为质心的方式,有效的降低了时间复杂度,同时运用点抽样的方法避免离群点带来的影响。同时,考虑到随着时代的发展,我们面临的数据量会越来越大,本文提出了一种基于Hadoop分布式平台的并行二分K均值算法,实验表明,该并行算法能够获得较为理想的加速比。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
热门期刊服务
相关文章
影响因子:0.27
期刊级别:省级期刊
发行周期:月刊
期刊在线咨询,1-3天快速下单!
查看更多>
超1000杂志,价格优惠,正版保障!
一站式期刊推荐服务,客服一对一跟踪服务!