首页 期刊 计算机研究与发展 基于MapReduce的相似自连接新方法:过滤和内切圆算法 【正文】

基于MapReduce的相似自连接新方法:过滤和内切圆算法

作者:鲍广慧; 张兆功; 李建中; 玄萍 黑龙江大学计算机科学与技术学院; 哈尔滨150080; 哈尔滨工业大学计算机科学与技术学院; 哈尔滨150001
海量数据集   过滤   相似自连接   数据划分   hadoop平台  

摘要:相似自连接是一个在很多应用领域中很重要的问题.对于海量数据集,MapReduce可以提供一个有效的分布式计算框架,相似自连接操作也同样可以应用在MapReduce框架下.但已有研究工作仍然存在不足,如对于聚集数据区域采用加细划分方法,目的是负载平衡,但不易实现.现有的算法不能有效地完成海量数据集的相似自连接操作.为此提出了2个新颖的基于MapReduce的相似自连接算法,其思想是采用坐标过滤技术,形成有效候选集,以及针对聚集区域采用六边形划分的内切圆算法.过虑技术是在等宽网格划分基础上,利用同一维坐标间的距离差与相似性约束阈值e进行比较,可以明显地减少候选集的数量,也证明了六边形划分是所有正多边形全覆盖中最优的划分方法.实验结果表明:

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅