首页 期刊 内蒙古科技大学学报 基于垂直搜索引擎的Lucene蒙文分词技术研究 【正文】

基于垂直搜索引擎的Lucene蒙文分词技术研究

作者:卢凤 内蒙古科技大学工程训练中心; 内蒙古包头014010
机器翻译   分词   lucene   垂直搜索引擎  

摘要:机器翻译中的分词部分对于语料预处理过程有着至关重要的作用.而在蒙文分词中传统方法对于特征提取、构型特点的计算分析能力有限,基于Lucene的蒙文分词技术结合垂直搜索引擎技术,面向专业领域构建个性化专业词典,采用逐字二分的分词词典机制,并在此基础上采用正向最大匹配分词算法来改进Lucene的蒙文分词模块.文章提出了根据领域知识、领域概念、领域术语,在分词预处理前降低搜索噪音、信息过载、信息冗余等现象,从而改进了词典机制.文章的另一个工作是在现有Lucene蒙文分词技术上结合垂直搜索引擎技术提高Lucene在蒙文应用程序开发上的应用广泛度.基于开放的蒙汉语料的实验结果表明,改进的Lucene分词技术能有效地改善对齐效果,相比原始的分词模型,译文质量有了显著的提高.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅