首页 期刊 计算机与数字工程 基于全文检索的文本相似度算法应用研究 【正文】

基于全文检索的文本相似度算法应用研究

作者:王格 吴钊 李向 湖北文理学院数学与计算机科学学院 襄阳441053 中国地质大学(武汉)计算机学院 武汉430074
文本相似度   余弦vsm   simhash  

摘要:在大量的文本数据中,针对不能快速有效地提取或查找有用信息及知识这个问题,以文本相似度计算为基础的文本数据挖掘成为数据挖掘研究领域里的一个重要的课题。论文主要研究两种不同的方法 VSM余弦算法和Simhash来实现文本相似度的计算,首先采用传统的VSM余弦算法和Simhash算法,按照余弦公式通过内积最终计算出文本间的相似度大小n(0〈n〈1),最后为了实现余弦算法并提高系统效率,使用了大量容器如Map、Set和Vector以及内积算法等。实验结果表明,余弦算法VSM由于其局限性不适合进行文本的相似度计算,而Simhash算法则具有高准确度以及可行性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅