首页 期刊 信息技术与网络安全 基于Lucene的中文分词器的设计与实现 【正文】

基于Lucene的中文分词器的设计与实现

作者:彭焕峰 南京工程学院计算机工程学院; 江苏南京211167
lucene   哈希   整词二分   最大匹配  

摘要:针对Lucene自带中文分词器分词效果差的缺点,在分析现有分词词典机制的基础上,设计了基于全哈希整词二分算法的分词器,并集成到Lucene中,算法通过对整词进行哈希,减少词条匹配次数,提高分词效率。该分词器词典文件维护方便,可以根据不同应用的要求进行定制,从而提高了检索效率。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅