首页 期刊 计算机研究与发展 基于划分的集合相似连接 【正文】

基于划分的集合相似连接

作者:荣垂田 徐天任 杜小勇 教育部数据工程与知识工程重点实验室(中国人民大学) 北京100872 中国人民大学信息学院 北京100872 民族教育信息化教育部重点实验室(云南师范大学) 昆明650500
相似连接   集合相似连接   集合划分   前缀过滤   划分块过滤  

摘要:集合相似连接(setsimilarityjoin)是指在给定的数据集中,按照基于集合间覆盖关系的相似度计算方法来衡量数据之间的相似度、并找出所有相似度不小于给定阈值的数据对的操作.集合相似连接作为一种新的基本操作在很多领域中有重要应用.随着社会网络、移动应用以及在线服务的发展,使得数据收集的效率和规模得到了很大的提高,同时给相似连接操作带来新的挑战.根据集合相似的必要条件,提出了相似集合之间的差异度.利用差异度和鸽巢原理,提出了一种新颖的基于数据划分的集合相似连接计算方法,该方法对集合进行自适应的均衡划分,并利用基于划分块的过滤方法来提高过滤的效率.为了进一步提高过滤的效果和相似连接的效率,利用划分块的位置信息提出了增强的过滤方法.针对提出的方法,在不同的环境下进行了实验,实验结果表明,该方法与已有的方法相比可以有效地提高相似连接的效率.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅