【免费】基于全文检索的文本相似度算法应用研究-发表之家

基于全文检索的文本相似度算法应用研究

作者：王格吴钊李向湖北文理学院数学与计算机科学学院襄阳441053 中国地质大学(武汉)计算机学院武汉430074

文本相似度余弦vsm simhash

摘要：在大量的文本数据中,针对不能快速有效地提取或查找有用信息及知识这个问题,以文本相似度计算为基础的文本数据挖掘成为数据挖掘研究领域里的一个重要的课题。论文主要研究两种不同的方法 VSM余弦算法和Simhash来实现文本相似度的计算,首先采用传统的VSM余弦算法和Simhash算法,按照余弦公式通过内积最终计算出文本间的相似度大小n（0〈n〈1）,最后为了实现余弦算法并提高系统效率,使用了大量容器如Map、Set和Vector以及内积算法等。实验结果表明,余弦算法VSM由于其局限性不适合进行文本的相似度计算,而Simhash算法则具有高准确度以及可行性。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询免费咨询杂志订阅

热门期刊服务

科技与经济统计与经济计算机教育计算机与信息技术数值计算与计算机应用计算机工程与设计计算机技术与发展计算机辅助设计与制造电气技术与经济机械科学与技术审计与经济研究制造技术与机床

基于大概念的语文教学基于智慧课堂的教与学基于核心素养的培养基于核心素养的教学方式基于模型的优化设计

计算机与数字工程

影响因子：0.35

期刊级别：统计源期刊

发行周期：月刊

服务介绍

基于全文检索的文本相似度算法应用研究

计算机与数字工程

期刊咨询

订阅杂志

期刊推荐