中文信息学报

中文信息学报杂志 北大期刊 CSCD期刊 统计源期刊

Journal of Chinese Information Processing

杂志简介:《中文信息学报》杂志经新闻出版总署批准,自1986年创刊,国内刊号为11-2325/N,是一本综合性较强的科学期刊。该刊是一份月刊,致力于发表科学领域的高质量原创研究成果、综述及快报。主要栏目:综述、语言资源建设、机器翻译、信息抽取与文本挖掘、情感分析与社会计算、自然语言理解与生成

主管单位:中国科学技术协会
主办单位:中国中文信息学会;中国科学院软件研究所
国际刊号:1003-0077
国内刊号:11-2325/N
全年订价:¥ 600.00
创刊时间:1986
所属类别:科学类
发行周期:月刊
发行地区:北京
出版语言:中文
预计审稿时间:1-3个月
综合影响因子:1.62
复合影响因子:0.84
总发文量:1895
总被引量:17085
H指数:55
引用半衰期:4.2826
立即指数:0.0496
期刊他引率:0.7957
平均引文率:13.8099
  • 基于物性结构的无向型名词语义构词研究——以汉语同义类语素双音节合成词为例

    作者:刘璐; 亢世勇 刊期:2017年第04期

    该文首先介绍了鲁东大学进行的语义构词研究,说明了"无向型名词"的所指;进一步运用物性结构理论,分析语素义转指的六种类型,并提出结合转喻、隐喻、转隐喻理论共同解释"无向型名词"词义构成的研究方法;根据两个语素义如何通过转喻或隐喻转化为词义,将无向型词语分为八类。根据物性结构理论,具体分析无向型词语的语素义体现了哪种物性角色,语...

  • 基于半监督CRF的跨领域中文分词

    作者:邓丽萍; 罗智勇 刊期:2017年第04期

    中文分词是中文信息处理领域的一项关键基础技术。随着中文信息处理应用的发展,专业领域中文分词需求日益增大。然而,现有可用于训练的标注语料多为通用领域(或新闻领域)语料,跨领域移植成为基于统计的中文分词系统的难点。在跨领域分词任务中,由于待分词文本与训练文本构词规则和特征分布差异较大,使得全监督统计学习方法难以获得较好的效果...

  • 文献中的词语分布、词型等级和风格计算

    作者:马创新; 陈小荷 刊期:2017年第04期

    文献的语言风格是作者在语言运用方面的思维定势的体现,对于文献之间语言风格的差异,以前的研究大多采用定性分析的方式加以比较和概括,而在文献检索和文本分类领域需要得到量化的语言风格相似度。该文首先分析文献中词语分布的普遍规律,以先秦八部经典文献为观察语料,发现这些文献中的词语既呈离散分布,又呈集中分布;然后通过计算文献之间词型...

  • 基于深度神经网络的中文命名实体识别

    作者:张海楠; 伍大勇; 刘悦; 程学旗 刊期:2017年第04期

    由于中文词语缺乏明确的边界和大小写特征,单字在不同词语下的意思也不尽相同,较于英文,中文命名实体识别显得更加困难。该文利用词向量的特点,提出了一种用于深度学习框架的字词联合方法,将字特征和词特征统一地结合起来,它弥补了词特征分词错误蔓延和字典稀疏的不足,也改善了字特征因固定窗口大小导致的上下文缺失。在词特征中加入词性信息后,...

  • 基于Transfer和Triangulation融合的中介语统计机器翻译方法

    作者:王强; 杜权; 肖桐; 朱靖波 刊期:2017年第04期

    为了解决在构建统计机器翻译系统过程中所面临的双语平行数据缺乏的问题,该文提出了一种新的基于中介语的翻译方法,称为Transfer-Triangulation方法。该方法可以在基于中介语的翻译过程中,结合传统的Transfer方法和Triangulation方法的优点,利用解码中介语短语的方法改进短语表。该文方法是在使用英语作为中介语的德-汉翻译任务中进行评价的。实...

  • 基于动态词对齐的交互式机器翻译

    作者:马斌; 蔡东风; 季铎; 叶娜; 吴闯 刊期:2017年第04期

    在传统的机器翻译(machine translation,MT)与计算机辅助翻译(computer aided translation,CAT)中,译员与翻译引擎之间的交互受到很大限制,于是产生了交互式机器翻译(interactive machine translation,IMT)技术。但传统的模型只考虑当前源语与部分翻译的目标语的信息,没有将用户交互后的对齐信息加入到之后的预测模型中。该文基于词预测交...

  • 改进机器翻译中的句子切分模型

    作者:薛征山; 张大鲲; 王丽娜; 郝杰 刊期:2017年第04期

    随着统计机器翻译系统训练语料的不断增加,长句子的数量越来越多,如何有效地利用长句子中的信息改进翻译质量是统计机器翻译系统面临的主要问题之一。该文基于Xu的句子切分模型,提出了一种在训练阶段切分长句子的方法,该方法利用自动获取的边界词概率和切分后子句对的长度比例来指导切分过程,从而得到更符合语义信息的句子切分结果。在NIST测试...

  • 一种基于词素媒介的汉蒙统计机器翻译方法

    作者:杨振新; 李淼; 陈雷; 卫林钰; 陈晟; 孙凯 刊期:2017年第04期

    汉蒙语形态差异性及平行语料库规模小制约了汉蒙统计机器翻译性能的提升。该文将蒙古语形态信息引入汉蒙统计机器翻译中,通过将蒙古语切分成词素的形式,构造汉语词和蒙古语词素,以及蒙古语词素和蒙古语的映射关系,弥补汉蒙形态结构上的非对称性,并将词素作为中间语言,通过训练汉语—蒙古语词素以及蒙古语词素-蒙古语统计机器翻译系统,构建出新的...

  • 基于最大熵模型的越南语交叉歧义消解

    作者:熊明明; 刘艳超; 郭剑毅; 余正涛; 周兰江; 陈秀琴 刊期:2017年第04期

    越南语中存在大量的交叉歧义片段。为了解决交叉歧义给分词、词性标注、实体识别和机器翻译等带来的影响,该文选取统计特征、上下文特征和歧义字段内部特征,尝试性地构建最大熵模型,对越南语的交叉歧义进行消解。该文通过三种方法整理出包含174 646词条的越南语词典,然后通过正向和逆向最大匹配方法从25 981条人工标注好的越南语分词句子中抽取5...

  • 基于统计和浅层语言分析的维吾尔文语义串快速抽取

    作者:吐尔地·托合提; 维尼拉·木沙江; 艾斯卡尔·艾木都拉 刊期:2017年第04期

    该文提出了一种基于统计和浅层语言分析的维吾尔文语义串快速抽取方法,采用一种多层动态索引结构为大规模文本建词索引,结合维吾尔文词间关联规则采用一种改进的n元递增算法进行词串扩展并发现文本中的可信频繁模式,最终依次判断频繁模式串结构完整性从而得到语义串。通过在不同规模的语料上实验发现,该方法可行有效,能够应用到维吾尔文文本挖掘...

  • 基于深度学习的维吾尔语人称代词指代消解

    作者:李冬白; 田生伟; 禹龙; 吐尔根·依布拉音; 冯冠军 刊期:2017年第04期

    指代消解是自然语言处理技术的核心问题,该文结合维吾尔语语义特征,提出基于深度学习的维吾尔语人称代词指代消解方法。通过堆叠多层无监督RBM网络和一层有监督BP网络,构建DBN深度神经网络学习模型,RBM网络保证特征向量映射达到最优,BP网络对RBM网络的输出向量进行分类,实现维吾尔语人称代词指代消解。经过维吾尔语指代消解语料库测试,F值达到83...

  • 藏语音节标注研究

    作者:龙从军; 刘汇丹; 吴健 刊期:2017年第04期

    藏语的"音节"在词汇语法研究和文本信息处理研究中都十分重要,尤其在解决未登录词切分问题和标注中能够发挥积极的作用。然而在现有的研究中,对音节的重视还不够。该文提出在文本标注时,可以先进行音节的性质标注,然后通过音节构词的规律预测复合词的词性,尤其是未登录词的词性。该文作者对藏语音节的定义进行了界定,提出音节的性质分类及标注...

  • 一种改进的哈萨克文编码字符处理方法

    作者:董军; 蒋同海; 艾孜麦提·艾尼瓦尔; 程力; 徐春 刊期:2017年第04期

    该文介绍了哈萨克文专用字母■、■、■、■的特殊书写习惯,以及哈萨克文编码字符处理现状。指出当前广泛使用的字母替换法不符合国际和国家相关标准,并且会导致哈萨克文排序错误,增加文字转换、语音合成等功能的实现难度。为解决上述不足,对字母替换法进行了三个改进,包括用专用字母与符号"■"结合表示它们自己;专用字母各种书写形式带符号■...

  • 基于语义串抽取及主题相似度度量的维吾尔文文本分类

    作者:吐尔地·托合提; 维尼拉·木沙江; 艾斯卡尔·艾木都拉 刊期:2017年第04期

    该文研究一种改进的n元递增算法来抽取维吾尔文本中表达关键信息的语义串,并用带权语义串集来刻画文本主题,提出了一种类似于Jaccard相似度的文本和类主题相似度度量方法,并实现了相应的维吾尔文分类算法。实验结果表明,该文提出的文本模型简单有效,分类算法计算量不高,而且还能达到或超过经典分类器的分类综合性能。

  • 基于群体智慧的语料标注方法研究

    作者:柯永红; 俞士汶; 穗志方; 宋继华 刊期:2017年第04期

    自然语言处理系统的性能和鲁棒性在很大程度上取决于建模过程中是否有足够的深度标注语料。传统的人工标注方法难以满足大规模、高质量的深度语料标注需求,该文提出了基于群体智慧的语料标注方法,设计了标注模型,并就用户能力评测、语料筛选、任务管理、协作标注、行为分析、质量控制、决策加总、考核激励等具体环节进行分析,提出了解决方案。项...