摘要:为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文粒度和句子粒度上,通过与指纹算法Simhash以及Simhash算法结合余弦相似度算法实验比较发现,本方法在准确率和速度上都有明显的优势,因此能够满足海量文本快速相似度检测的要求。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
热门期刊服务
相关文章
影响因子:0.45
期刊级别:部级期刊
发行周期:双月刊
期刊在线咨询,1-3天快速下单!
查看更多>
超1000杂志,价格优惠,正版保障!
一站式期刊推荐服务,客服一对一跟踪服务!