首页 期刊 数据采集与处理 基于MapReduce框架的分布式软K段主曲线算法 【正文】

基于MapReduce框架的分布式软K段主曲线算法

作者:胡作梁; 张红云 同济大学计算机科学与技术系; 上海201804; 同济大学嵌入式系统与服务计算教育部重点实验室; 上海201804
分布式并行化   主曲线   数据粒化   mapreduce  

摘要:传统的主曲线算法在小规模数据集上能获得良好的效果,但单节点的计算和存储能力都不能满足海量数据主曲线的提取要求,而算法分布式并行化是目前解决该类问题最有效的途径之一。本文提出基于MapReduce框架的分布式软K段主曲线算法(Distributed soft k-segments principal curve,Dis-SKPC)。首先,基于分布式K—Means算法,采用递归粒化方法对数据集进行粒化,以确定粒的大小并保证粒中数据的关联性。然后调用软K段主曲线算法计算每个粒数据的局部主成分线段,并提出用噪声方差来消除在高密集、高曲率的数据区域可能产生的过拟合线段。最后借助哈密顿路径和贪婪算法连接这些局部主成分线段,形成一条通过数据云中间的最佳曲线。实验结果表明,本文所提出的DisSKPC算法具有良好的可行性和扩展性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅