摘要:Lucene开放源代码的特性让很多人使用它来构建具体的全文检索应用,然而对于中文检索来说,Lucene自带的中文分词器对中文的分词处理并不理想,其分词的正确率和分词速度以及对歧义词处理等方面不能满足大多数应用的需求,因此有必要为Lucene引入第三方分词器来弥补自带分词功能的缺陷。文章对采用mmseg算法的2种分词器mmseg4j和Jcseg在分词指标、索引创建的时间消耗方面进行测试比较,评估分析测试结果,结合应用场景为Lucene选择一个合适的分词器来加强中文分词功能。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社