首页 期刊 计算机工程 基于KD树划分的云计算DBSCAN优化算法 【正文】

基于KD树划分的云计算DBSCAN优化算法

作者:陈广胜; 程逸群; 景维鹏 东北林业大学信息与计算机工程学院; 哈尔滨150040; 黑龙江省林业生态大数据存储与高性能(云)计算工程研究中心; 哈尔滨150040
聚类   dbscan算法   spark平台   数据划分   数据融合  

摘要:在并行RDD-DBSCAN算法的数据划分和区域查询过程中会对数据集进行重复访问,降低了算法效率。为此,提出基于数据划分和融合策略的并行DBSCAN算法(DBSCAN-PSM)。利用KD树进行数据划分,实现数据分区与区域查询步骤的合并,从而减少数据集的访问次数以及降低I/O过程对算法效率的影响。采用判定数据点自身属性的方式,对标注为边缘点的数据进行融合,避免全局标记的额外时间开销。实验结果表明,DBSCAN-PSM算法相比RDD-DBSCAN算法可节省18%左右的运行时间,适用于处理海量数据聚类问题。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅