【免费】海量网络文本去重系统的设计与实现-发表之家

海量网络文本去重系统的设计与实现

作者：汤建明; 寇小强华北计算机系统工程研究所; 北京100083

文本去重 simhash 相似度

摘要：如今网络和信息技术飞速发展，每天都有数以亿万计的文本数据产生。然而，不可避免地有很多文本内容是重复的。这样导致用户在利用搜索引擎搜索或者在网站上浏览内容时会看到很多相似的东西。这不仅给用户带来了不好的体验，对内容提供商来说，也需要花费更多的资源对重复冗余的内容进行存储。因此，对文本做一些相似度判断的基本处理，去除重复的文本有很重要的意义和价值。提出设计和实现一种基于simhash的文本去重系统。该系统可以对每天新产生的文本内容进行相似度计算，对于相似的内容只生成一份唯一标识并进行入库处理，有效排除了相似度太高的重复文本。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询免费咨询杂志订阅

热门期刊服务

上海质量上海计量测试中国新能源金融与保险

计算机应用与软件

影响因子：0.61

期刊级别：北大期刊

发行周期：月刊

服务介绍

海量网络文本去重系统的设计与实现

计算机应用与软件

期刊咨询

订阅杂志

期刊推荐