【免费】基于互信息和邻接熵的新词发现算法-发表之家

基于互信息和邻接熵的新词发现算法

作者：刘伟童; 刘培玉; 刘文锋; 李娜娜山东师范大学信息科学与工程学院; 济南250358; 山东省分布式计算机软件新技术重点实验室; 济南250358; 菏泽学院计算机学院; 山东菏泽274015

新词发现互信息邻接熵微博语料

摘要：如何快速高效地识别新词是自然语言处理中一项非常重要的任务。针对当前新词发现存在的问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来逐字扩展,得到候选新词;并通过计算邻接熵、删除候选新词的首尾停用词和过滤旧词语等方法来过滤候选新词,最终得到新词集。解决了因切词错误导致部分新词无法识别以及通过n-gram方法导致大量重复词串和垃圾词串识别为新词的问题。最后通过实验验证了该算法的有效性。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询免费咨询杂志订阅

热门期刊服务

科技与经济统计与经济计算机教育计算机与信息技术数值计算与计算机应用计算机工程与设计计算机技术与发展计算机辅助设计与制造电气技术与经济交通与计算机机械科学与技术审计与经济研究

基于大概念的语文教学基于智慧课堂的教与学基于核心素养的培养基于核心素养的教学方式基于模型的优化设计

计算机应用研究

影响因子：0.93

期刊级别：北大期刊

发行周期：月刊

服务介绍

基于互信息和邻接熵的新词发现算法

计算机应用研究

期刊咨询

订阅杂志

期刊推荐