【免费】一种基于词聚类信息熵的新闻提取方法-发表之家

一种基于词聚类信息熵的新闻提取方法

作者：牛伟农; 吴林; 于水源中国传媒大学智能融媒体教育部重点实验室; 北京100024

新闻提取新话题词向量聚类信息熵

摘要：互联网的飞速发展为大众带来便利的同时也产生了大量冗余信息,利用自然语言处理技术对新话题文章进行提取,控制新话题中虚假新闻传播,可为舆情控制提供有效支持。提出一种基于词聚类信息熵的新闻提取方法,并对“一带一路”相关新闻语料进行实验。实验通过网络爬虫的方式获取相关报道,利用Pkuseg工具分词进行一系列预处理后训练生成Word2vec词向量,然后利用词频统计筛选出历史高频词进行K-means聚类,将聚类后的词簇作为随机变量计算当前文章的信息熵。若文章的信息熵高于设定阈值,则为新话题文章,需要重点关注。结果表明,该方法在阈值设置为0.65时,新闻提取结果的准确率可达到84%。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询免费咨询杂志订阅

热门期刊服务

中兽医医药中华转移性肿瘤中华医学遗传学中医中国仪器仪表中国疫苗和免疫中国翻译四川中医湖南中医中医研究河北中医云南中医

软件导刊

影响因子：0.97

期刊级别：省级期刊

发行周期：月刊

服务介绍

一种基于词聚类信息熵的新闻提取方法

软件导刊

期刊咨询

订阅杂志

期刊推荐