首页 期刊 现代图书情报技术 基于语义指纹的中文文本快速去重 【正文】

基于语义指纹的中文文本快速去重

作者:李纲 毛进 陈璟浩 武汉大学信息资源研究中心 武汉430072
语义指纹   simhash   文本去重  

摘要:针对中文文本,抽取出文本内容特征,结合Simhash算法生成中文文本的语义指纹,通过语义指纹的海明距离判断文本间相似程度。整合Single—Pass快速聚类算法对语义指纹快速聚类,所得的语义指纹聚类即为文本去重的最终结果,从而实现面向中文文本的快速去重流程。实验过程中,通过与Shingle算法对比,可以体现该方法在算法精确度、鲁棒性等方面的优势,同时该方法的运行速度优势也能较好地支持大数据量文本的去重操作。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社