杂志简介:《中文信息学报》杂志经新闻出版总署批准,自1986年创刊,国内刊号为11-2325/N,是一本综合性较强的科学期刊。该刊是一份月刊,致力于发表科学领域的高质量原创研究成果、综述及快报。主要栏目:综述、语言资源建设、机器翻译、信息抽取与文本挖掘、情感分析与社会计算、自然语言理解与生成
作者:张孝飞; 陈肇雄; 黄河燕; 胡春玲 刊期:2005年第04期
基于精确匹配的EBMT,由于翻译覆盖率过低,导致其难以大规模实际应用.本文提出一种实例模式泛化匹配算法,试图改善EBMT的翻译覆盖率:以输入的待翻译句子为目标导向,对候选翻译实例有针对性地进行实时泛化,使得算法既能满足实时文档翻译对速度的要求,又能充分利用系统使用过程中用户新添加和修改的翻译知识,从而总体上提高了系统的翻译覆盖率和翻...
作者:陈浩; 何婷婷; 姬东鸿 刊期:2005年第04期
无导词义消歧避免了人工词义标注的巨大工作量,可以适应大规模的多义词消歧工作,具有广阔的应用前景.这篇文章提出了一种无导词义消歧的方法,该方法采用二阶context构造上下文向量,使用k-means算法进行聚类,最后通过计算相似度来进行词义的排歧.实验是在抽取术语的基础上进行的,在多个汉语高频多义词的两组测试中取得了平均准确率82.67%和80.87%...
作者:干俊伟; 黄德根 刊期:2005年第04期
本文运用规则和统计相结合的方法构造了一个汉语介词短语识别算法.首先,根据介词和介词短语右边界组成的搭配模板自动提取可信搭配关系,并用这些搭配关系对介词短语进行识别.之后,用基于词性的三元边界统计模型和规则相结合的方法识别其它未处理的介词短语.通过对含有7323个介词短语的语料作交叉测试,精确率达到87.48%,召回率达到87.27%.
作者:李国臣; 罗云飞 刊期:2005年第04期
指代是自然语言中常见的语言现象,指代消解是文本信息处理中的一个重要任务.随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性.本文针对中文人称代词的指代特点,提出了一种基于语料库的,运用决策树机器学习算法并结合优先选择策略,进行指代消解的方法.该方法充分考虑了与指代相关的若干属性,及相互之间的影响.实验表明,对中文人...
刊期:2005年第04期
为促进国内信息检索与内容安全技术的研究和应用,加强研究人员之间、学术界和业界同行之间的交流与合作,中国中文信息学会信息检索与内容安全专业委员会(筹)决定于2005年10月27日~28日在北京市召开第二届全国信息检索与内容安全学术会议。本次会议由中国中文信息学会信息检索与内容安全专业委员会(筹)主办,中国科学院计算机技术研究所承办。...
刊期:2005年第04期
语音人机通讯技术的研究一直是国内外关注的热点。全国人机语音通讯学术会议是这一领域广大专家、学者和科研工作者交流最新研究成果,促进了该领域研究和开发工作的不断进步的重要舞台。十多年来,已经成功举办过七次全国人机语音通讯学术会议,在主办单位的积极支持和承办单位的认真工作,细心筹划下,会议开得一次比一次好,参加的人数一次比...
作者:王建会; 王雷; 胡运发 刊期:2005年第04期
本文扩展和改进了现有的词语间依存关系定量识别算法,充分考虑词项概率分布的影响;明确区分词项之间的搭配关系、并列关系和从属关系,针对它们不同的特点,提出不同的识别算法;提出字串匹配模型;充分考虑两个词项之间相互位置的离散分布和距离的影响、以及它们的概率分布特性,提出词项间的依存强度模型,并据此构建词语间依存关系树;提出更新策略,...
作者:袁毓林 刊期:2005年第04期
本文以文献[2]的语料为主要对象,讨论语句的逻辑结构和篇章结构怎样约束信息模板的类型,并约束对当前句中缺失的或以代词等形式表达的信息项目的求解.首先说明什么是基于论元结构的逻辑结构和篇章结构知识,然后分析否定算子、时体成分怎样改变事件的类型及其跟有关事件模板的匹配关系.接着,讨论动词的论元结构的内嵌和名词化等句法操作,怎样造成...
作者:黄永文; 何中市 刊期:2005年第04期
数据平滑主要是用来解决统计语言模型在实际应用中数据稀疏问题.现有平滑技术虽然已有效地对数据稀疏问题进行了处理,但对已出现事件频率分布的合理性并没有作出有效的分析.本文则针对二元模型,提出了一种基于互信息的平滑技术,其基本思想是根据模型中每个二元对的互信息的高低对其概率进行折扣或补偿,并用极小化困惑度原则体现了模型的合理性....
作者:陈晓云; 胡运发 刊期:2005年第04期
近年来,基于关联规则的文本分类方法受到普遍关注.虽然在一般情况下这种方法可获得较好的分类效果.但当样本特征词分布明显不均时,分类规则在各类别的分布也出现不均,从而导致分类准确率下降.本文设计和实现的基于规则权重调整的关联规则文本分类算法可有效地解决这一问题.该算法根据误分类训练样本的数量定义规则强度.对强规则通过乘以小于1的...
作者:万中英; 王明文; 廖海波 刊期:2005年第04期
随着Web信息迅猛发展,网络用户对网页自动分类器的需求日益增长.为了提高分类精度,本文提出了一种新的基于投影寻踪(ProiectionPursuit,简称PP)的中文网页分类算法.我们首先利用遗传算法找到一个最好的投影方向,然后将已被表示成为n维向量的网页投影到一维空间.最后采用KNN分类算法对其进行分类.此方法能解决"维数灾难"问题.实验结果表明,我们提...
作者:原福永; 褚蓓蓓 刊期:2005年第04期
在基于向量空间模型的信息检索系统中,TF-IDF算法被广泛的应用在基于关键字的信息检索中.然而,对于网页独特的超链接结构,需要有一种技术在表示网页内容的同时将与它相邻链接的网页内容考虑进去.本文分析了向量空间模型的实质,并找出了其精度低的原因,在传统模型基础上提出了一种基于网页超链接结构的向量空间模型改进算法.实验分析表明改进后的...
作者:刘栓; 孟庆春 刊期:2005年第04期
将基于遗传的BP神经网络算法用于智能交通中的车牌图像匹配,结合了遗传算法和BP算法的优点.先采用遗传学习算法进行全局寻优、再利用BP算法进行精确训练、优化BP(Back Propagation)神经网络权重学习和训练的神经网络图像匹配算法.实验结果表明:本文设计算法较好地达到了匹配要求,能够对目标图像与样本图像进行正确匹配,匹配概率达到了92%,而传统...
作者:孙权森; 金忠; 王平安; 夏德深 刊期:2005年第04期
基于特征融合的思想,从有利于模式分类的角度,推广了典型相关分析的理论,建立了广义的典型相关分析用于图像识别的理论框架.在该框架下,首先利用广义的典型相关判据准则函数,求取两组特征矢量的广义投影矢量集,构成一对变换矩阵;然后根据所提出的新的特征融合策略,对两种手写体汉字特征进行融合,所抽取的模式的相关特征矩阵,在普通分类器下取得...
作者:肖述才; 欧智坚; 王作英 刊期:2005年第04期
本文介绍了稳健语音识别中的一种说话人聚类算法,包括它在语音识别中的作用和具体的用法,聚类中常用的特征、距离测度,聚类的具体实现步骤等.我们从两个方面对该算法的性能进行了测试,一是直接计算句子聚类的正确率,二是对说话人自适应效果的改进的作用,即比较使用此算法后系统性能的改进进行评价.实验表明:在使用GLR距离作为距离测度的时候,该...