摘要:在中文文本相似去重中的关键词计算和提取阶段,文本分词后,存在高维、稀疏和缺乏语义词项,而这些大多没有实际意义的词会给计算带来噪音,不利于文本去重。为此,需要提取文本特征,使该特征能够表示文本的主要内容。针对此问题,提出了一种结合词频、词项间互信息关联度及其语义相似度的改进的关键词提取方法。该方法综合考虑候选词的统计特征、词项间的相关度和相似度,并将此方法应用于SimHash文本相似计算模型中。实验结果表明,基于该模型的特征提取在相似文本去重计算上有着较高的准确率、召回率和F1值,优于传统方法。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
热门期刊服务
现代中西医结合 浙江中西医结合 中西医结合肝病 中西医结合研究 中西医结合 深圳中西医结合 中国中西医结合 世界中西医结合 中西医结合学报 中国中西医结合脾胃 中国中西医结合消化 中国中西医结合肾病相关文章
结合自身工作