首页 期刊 计算机系统应用 针对舆情数据的去重算法 【正文】

针对舆情数据的去重算法

作者:张庆梅 中国科学技术大学软件学院; 苏州215123
舆情数据   去重算法   相似度计算   大数据服务  

摘要:针对在数据服务中舆情去重不可避免且缺乏理论指导的问题,通过研究Sim Hash、Min Hash、Jaccard、Cosine Similarty经典去重算法,以及常见的分词和特征选择算法,以寻求表现优异的算法搭配,并对传统Jaccard和Sim Hash进行了改进分别产生新算法:基于短文章的Jaccard和基于Cosine Distance的Sim Hash.针对比较对象众多实验效率低下的问题,提出了先纵向比较筛选出优势算法,然后横向比较获得最佳搭配,最后综合比较的策略,并结合3000舆情样本实验证明:改进的Sim Hash比传统的Sim Hash具有更高的精度和召回率;改进的Jaccard较传统Jaccard,召回率提高了17%,效率提高了50%;Min Hash+结巴全模式分词和Jaccard+IKAnalyzer智能分词在保持精度高于96%的条件下,都具有75%以上的高召回率,且稳定性很好.其中Min Hash去重效果略低于Jaccard,但特征比较时间较短,综合表现最好.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅