首页 期刊 数据分析与知识发现 无词典中文高频词快速抽取算法 【正文】

无词典中文高频词快速抽取算法

作者:江华; 苏晓光 海军工程大学装备经济管理系; 武汉430033
中文信息处理   高频词抽取   pat数组   中文分词   关键词分析  

摘要:在PAT数组的基础上,引入LCP数组记录文本后缀串的相同前缀长度,通过扫描LCP数组快速抽取文本高频词。该算法不依赖于分词词典,通过探测重复出现串来提取高频词,并能够抽取任意重复字符串,对新词、组合词抽取特别有效。实验结果表明,该算法抽取的高频词可以达到较高的可接受率,在与ICTCLAS系统关键词抽取的比较中也有较高的相同率,且在发现组合词方面更具优势。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅