【免费】结合统计和词间关系的文本关键词计算方法-发表之家

结合统计和词间关系的文本关键词计算方法

作者：石雁李朝锋江南大学物联网工程学院江苏无锡214122

文本特征相似计算互信息 simhash 特征提取

摘要：在中文文本相似去重中的关键词计算和提取阶段，文本分词后，存在高维、稀疏和缺乏语义词项，而这些大多没有实际意义的词会给计算带来噪音，不利于文本去重。为此，需要提取文本特征，使该特征能够表示文本的主要内容。针对此问题，提出了一种结合词频、词项间互信息关联度及其语义相似度的改进的关键词提取方法。该方法综合考虑候选词的统计特征、词项间的相关度和相似度，并将此方法应用于SimHash文本相似计算模型中。实验结果表明，基于该模型的特征提取在相似文本去重计算上有着较高的准确率、召回率和F1值，优于传统方法。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询免费咨询杂志订阅

热门期刊服务

现代中西医结合浙江中西医结合中西医结合肝病中西医结合研究中西医结合深圳中西医结合中国中西医结合世界中西医结合中西医结合学报中国中西医结合脾胃中国中西医结合消化中国中西医结合肾病

结合自身工作

计算机技术与发展

影响因子：0.62

期刊级别：统计源期刊

发行周期：月刊

服务介绍

结合统计和词间关系的文本关键词计算方法

计算机技术与发展

期刊咨询

订阅杂志

期刊推荐