首页 期刊 信息通信 基于Simhash算法的大规模文档去重技术研究 【正文】

基于Simhash算法的大规模文档去重技术研究

作者:余意 张玉柱 胡自健 重庆邮电大学通信与信息工程学院 重庆400065
相似文本检测   simhash   指纹计算  

摘要:随着互联网的发展,重复的网络信息越来越多,所以,大规模的文档去重技术研究逐渐成为热点。文中对基于Simhash算法的大规模文档去重技术进行了研究,并且以Simhash算法为文档去重的核心算法作基础对该算法获取文档特征的过程进行改进,将单词词义和词长作为衡量单词权重的考量因素。通过理论分析以及相应的实验数据表明,文章提出的改进方法实现了在大规模文档数据基础上对相似文档的快速检测。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅