首页 期刊 太赫兹科学与电子信息学报 一种改进的加速K均值聚类算法 【正文】

一种改进的加速K均值聚类算法

作者:马俊宏; 武丽芬 晋中学院计算机科学与技术学院; 山西晋中030619
聚类   距离计算   质心下界   hamerly算法   拓展算法  

摘要:针对当前聚类算法应用于大规模多类别数据集中时,计算量较大,且算法性能严重依赖于K值的不足,提出一种改进的加速K均值聚类算法。算法主要由两种策略组成:一是基于质心下界(PLB)的跳跃过程,新引入称为质心的固定点来计算对象和矩心间距离的下界,避免了常见聚类算法在收敛早期过程中的距离计算过程;二是基于不变矩心对(ICP)的跳跃过程,如果矩心更新步骤完成后被分配及未被分配矩心的位置保持不变,则维持对象分配策略不变且无需计算与未被分配矩心之间的距离。此外,还给出了将本文算法与Hamerly算法相结合的拓展算法以进一步提升聚类加速效果。对大规模高维图像数据集进行了仿真实验,结果表明,与Hamerly算法相比,本文算法在获得相同聚类效果的同时,极大地压缩了距离计算量。当K值较大时,本文算法的平均压缩率更高,平均耗时更少。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅