中文信息学报

中文信息学报杂志 北大期刊 CSCD期刊 统计源期刊

Journal of Chinese Information Processing

杂志简介:《中文信息学报》杂志经新闻出版总署批准,自1986年创刊,国内刊号为11-2325/N,是一本综合性较强的科学期刊。该刊是一份月刊,致力于发表科学领域的高质量原创研究成果、综述及快报。主要栏目:综述、语言资源建设、机器翻译、信息抽取与文本挖掘、情感分析与社会计算、自然语言理解与生成

主管单位:中国科学技术协会
主办单位:中国中文信息学会;中国科学院软件研究所
国际刊号:1003-0077
国内刊号:11-2325/N
全年订价:¥ 600.00
创刊时间:1986
所属类别:科学类
发行周期:月刊
发行地区:北京
出版语言:中文
预计审稿时间:1-3个月
综合影响因子:1.62
复合影响因子:0.84
总发文量:1895
总被引量:17085
H指数:55
引用半衰期:4.2826
立即指数:0.0496
期刊他引率:0.7957
平均引文率:13.8099
  • 篇章关系分析研究综述

    作者:严为绒; 徐扬; 朱珊珊; 洪宇; 姚建民; 朱巧明 刊期:2016年第04期

    篇章关系研究,旨在推断同一篇章内相邻或跨度在一定范围内的文本片段之间的语义连接关系。语义连接关系对篇章内容理解和结构分析都具有重要作用,成为目前篇章分析领域的重点研究内容。该文针对三个中英文篇章关系研究领域的语料库:基于修辞结构理论的篇章树库(Rhetorical Structure Theory Discourse Treebank,RSTDT)、宾州篇章树库(Penn D...

  • 汉语“比”字句关键要素的常规序列模式探索

    作者:朴敏浚; 李强; 袁毓林 刊期:2016年第04期

    表达"差比"义的"比"字句,是比较句的主要句型,也是比较句关键要素抽取研究中不可回避的主要课题。该句型的关键要素(SUB、BI、OBJ、ITM、DIM、RES、EXT)在语义上互相交织,在表层句法上可以实现为多种多样的序列模式。该文面向中文"比"字句关键要素抽取这个目标,对于表示"差比"义的460多个"比"字句文本进行了七种关键要素的标注。在...

  • 基于马尔科夫逻辑网的中文专利最大名词短语识别

    作者:蔡东风; 赵奇猛; 饶齐; 王裴岩 刊期:2016年第04期

    缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔符的识别上,利用句子自身特征、领域迁移特征以及双语对齐特征来识别最大名词短语的边界。结果说明,双语信息较...

  • 基于知网与词林的词语语义相似度计算

    作者:朱新华; 马润聪; 孙柳; 陈宏朝 刊期:2016年第04期

    该文提出了一种综合知网与同义词词林的词语语义相似度计算方法。知网部分根据义原层次结构的特征,采用了顶部平缓而底部陡峭的曲线单调递减的边权重策略,改进了现有的义原相似度算法;词林部分采用以词语距离为主要因素、分支节点数和分支间隔为微调节参数的方法,改进了现有的词林词语相似度算法。然后再根据词语的分布情况,采用综合考虑知网与...

  • 专利中基于语义角色的术语相似度计算方法

    作者:姜利雪; 季铎; 蔡东风 刊期:2016年第04期

    术语是由一个到多个单词按照某种语义角色组合而成的,传统的基于统计的相似度计算方法,将术语看作一个基本单元来进行计算,忽略了术语内部的语义角色,且对于上下文信息不丰富的术语,无法利用统计的方法取得理想的效果;基于语义资源的相似度计算方法,所涵盖的词语有限,因此不包含在语义资源中的术语便无法计算相似度。针对这些问题,该文针对专利...

  • 一种基于主动学习的框架元素标注

    作者:屠寒非; 李茹; 王智强; 周铁峰 刊期:2016年第04期

    框架元素标注是中文FrameNet众多任务中亟待解决的一个问题,目前仍主要采用有监督的机器学习方法,即依赖大规模人工标注的例句作为训练语料。但例句标注又是一件费时费力的工作,所以为了降低人工标注的代价,该文将主动学习应用到框架元素标注中,优先选择训练模型预测最不准的例句交由人工标注。该文以条件随机场为标注模型,并提出了进行样本选择...

  • 基于复杂网络理论的汉语复句关系词搭配网的统计特征研究

    作者:胡泉; 谢芳; 李源; 刘延申 刊期:2016年第04期

    汉语复句关系词是汉语复句在语表形式上的标记,是复句中标识关系的重要构件,在现代汉语复句研究领域起着关键作用。汉语复句关系词的搭配是指在汉语语篇中两个或两个以上的复句关系词形成的句法共现形式,它不仅影响着分句的语义,而且影响着复句层次关系的划分。该文利用复杂网络的理论,基于已获取的470个复句关系词构建了一个"现代汉语复句关系...

  • 基于WordNet的中泰文跨语言文本相似度计算

    作者:石杰; 周兰江; 线岩团; 余正涛 刊期:2016年第04期

    文本相似度在信息检索、文本挖掘、抄袭检测等领域有着广泛的应用。目前,大多数研究都只是针对同一种语言的文本相似度计算,关于跨语言文本相似度计算的研究则很少,不同语言之间的差异使得跨语言文本相似度计算很困难,针对这种情况,该文提出一种基于WordNet的中泰文跨语言文本相似度的计算方法。首先对中泰文本进行预处理和特征选择,然后利用语...

  • 一种基于复杂网络的短文本语义相似度计算

    作者:詹志建; 杨小平 刊期:2016年第04期

    将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立复杂网络模型,计算短文本词语的复杂网络特征值,再借助外部工具计算短文本词语之间的语义相似度,然后结合短文本...

  • 基于PDTB体系的隐式篇章关系识别

    作者:李生; 孔芳; 周国栋 刊期:2016年第04期

    识别隐式篇章关系是篇章分析领域中非常有挑战的一个任务。该文基于PDTB语料提出一个隐式篇章分析识别方法,使用传统的特征如动词,极性和句法推导规则等,系统分析了它们对隐式篇章分析的影响。我们利用全部标注数据构建多个分类器并使用加法规则融合分类结果,此外还通过前向特征选择算法确定各分类任务最优的特征集。实验结果表明该方法能显著提...

  • 基于中心理论和话语结构的交互式问答文本指代消解

    作者:李映; 孔芳 刊期:2016年第04期

    与传统新闻文本相比,交互式问答中蕴含着更为丰富的语言现象。在传统的针对新闻文本的指代消解方案的基础上,融入了交互式问答特有的特征集,给出了一个适于交互式问答文本的指代消解方案。具体而言,基于浅层语义角色分析的结果进行话语结构的识别,根据识别出的话语结构进行话语中心及中心跳转的识别。将获取到的话语中心及跳转信息组织成交互式...

  • 藏文字形结构分布研究

    作者:才智杰; 才让卓玛 刊期:2016年第04期

    字是语言文字的基本组成单位,字形结构统计研究是自然语言处理的基础,为字属性分析、输入法设计、排序、语音合成和字符信息熵研究等提供理论依据。该文通过分析藏文字形结构的特征,对藏文字的字形结构分成独体字和合体字,合体字按其构件的结构位和所含构件数进行分类。设计了藏文字形结构统计系统模型和算法,从约含8 500万藏文字的450M语料中对...

  • 首届语言与智能技术高峰论坛在京隆重召开

    刊期:2016年第04期

    8月28日,首届语言与智能技术高峰论坛(Language&Intelligence Summit)在北京隆重召开。本次会议由中国中文信息学会和中国计算机学会联合主办。本次大会吸引了来自全国学术界、产业界从事语言与智能相关研究的500余人参加,共同探讨语言与智能领域的新发展和新技术。

  • 基于拓扑特征的纳西东巴文象形文字输入方法研究

    作者:王海燕; 王红军; 徐小力 刊期:2016年第04期

    纳西东巴文字是一种比甲骨文还要原始的图画象形文字,该文针对大量纳西经典古籍资料需要录入、整理、分析的需要,设计一种普通用户即可使用的基于拓扑特征的输入方法。首先针对纳西东巴象形文字的1 561个基本字形的五个拓扑特征-块数、孔数、端点数、三叉点数和四叉点数进行了统计和分析,然后基于Java程序结合TTF字库文件进行了测试,证明了该方...

  • 基于层叠条件随机场的高棉语分词及词性标注方法

    作者:潘华山; 严馨; 周枫; 余正涛; 郭剑毅 刊期:2016年第04期

    针对高棉语分词及词性标注问题,提出一种基于层叠条件随机场模型的自动分词及词性标注方法。该方法由三层条件随机场模型构成:第一层是分词模型,该模型以字符簇为粒度,结合上下文信息与高棉语的构词特点构建特征模板,实现对高棉语句子的自动分词;第二层是分词结果修正模型,该模型以词语为粒度,结合上下文信息与高棉语中命名实体的构成特点构建...