摘要:在PAT数组的基础上,引入LCP数组记录文本后缀串的相同前缀长度,通过扫描LCP数组快速抽取文本高频词。该算法不依赖于分词词典,通过探测重复出现串来提取高频词,并能够抽取任意重复字符串,对新词、组合词抽取特别有效。实验结果表明,该算法抽取的高频词可以达到较高的可接受率,在与ICTCLAS系统关键词抽取的比较中也有较高的相同率,且在发现组合词方面更具优势。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
热门期刊服务
影响因子:1.2
期刊级别:CSSCI南大期刊
发行周期:月刊
期刊在线咨询,1-3天快速下单!
查看更多>
超1000杂志,价格优惠,正版保障!
一站式期刊推荐服务,客服一对一跟踪服务!