首页 期刊 电子设计工程 舆情去重算法的研究与比较 【正文】

舆情去重算法的研究与比较

作者:张庆梅 中国科学技术大学软件学院; 江苏苏州215123
舆情数据   去重算法   特征选择   相似度计算   大数据服务  

摘要:近年来,舆情信息在大数据服务中广泛被加工使用,但转载、复制等操作使得采集的舆情信息重复量庞大,给后期的加工带来困难。在这种情况下,针对舆情数据开展去重研究的却相对较少。文中针对舆情去重不可避免但缺乏理论指导的问题,通过研究Sim Hash、Min Hash、Jaccard等经典去重算法,结合TF、TF-IDF、特征码等不同特征选择和3 000舆情样本进行实验,最终发现Min Hash+特征码运行时间最短;Jaccard的漏判数最少,召回率可达90%以上;Min Hash算法的误判数最少,去重精度可达100%,并且Min Hash通过阈值的调整能够获得Jaccard同样的召回率。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅