中文信息学报

中文信息学报杂志 北大期刊 CSCD期刊 统计源期刊

Journal of Chinese Information Processing

杂志简介:《中文信息学报》杂志经新闻出版总署批准,自1986年创刊,国内刊号为11-2325/N,是一本综合性较强的科学期刊。该刊是一份月刊,致力于发表科学领域的高质量原创研究成果、综述及快报。主要栏目:综述、语言资源建设、机器翻译、信息抽取与文本挖掘、情感分析与社会计算、自然语言理解与生成

主管单位:中国科学技术协会
主办单位:中国中文信息学会;中国科学院软件研究所
国际刊号:1003-0077
国内刊号:11-2325/N
全年订价:¥ 600.00
创刊时间:1986
所属类别:科学类
发行周期:月刊
发行地区:北京
出版语言:中文
预计审稿时间:1-3个月
综合影响因子:1.62
复合影响因子:0.84
总发文量:1895
总被引量:17085
H指数:55
引用半衰期:4.2826
立即指数:0.0496
期刊他引率:0.7957
平均引文率:13.8099
  • 神经网络机器翻译研究热点与前沿趋势分析

    作者:林倩; 刘庆; 苏劲松; 林欢; 杨静; 罗斌 刊期:2019年第11期

    机器翻译是指利用计算机将一种语言文本转换成具有相同语义的另一种语言文本的过程。它是人工智能领域的一项重要研究课题。近年来,随着深度学习研究和应用的快速发展,神经网络机器翻译成为机器翻译领域的重要发展方向。该文首先简要介绍近一年神经网络机器翻译在学术界和产业界的影响,然后对当前的神经网络机器翻译的研究进展进行分类综述,最后...

  • 基于社交媒体的事件脉络挖掘研究进展

    作者:张晨昕; 饶元; 樊笑冰; 王硕 刊期:2019年第11期

    随着Web 2.0的兴起以及移动互联网与智能终端的蓬勃发展,以微博为代表的社交媒体迅速发展壮大。基于社交媒体的事件脉络挖掘技术在突发事件检测、事件走势分析、舆情预测等诸多方面发挥着重要作用,受到学术界的广泛关注。该文在最新研究成果与文献的基础上,以事件脉络挖掘的实现为出发点,概括总结了核心步骤中存在的关键技术,并归纳提出了目前事...

  • 基于词频逆文档频统计的词汇时间分布层次

    作者:饶高琦; 李宇明 刊期:2019年第11期

    汉语演变过程中,词语使用受时间影响的程度差异很大。这体现为词汇时间分布的不同。该文基于70年跨度历时语料库,使用TF-IDF方法对词汇的时间分布进行了统计,并尝试对词汇系统的时间分布层次进行划分。通过对历时文本分类性能、词类分布、词长分布、覆盖率和词语生命力五方面的考察和分析,建立了由基干层、过渡层、时间敏感层(时敏层)和逸散层构...

  • 融合词结构特征的多任务老挝语词性标注方法

    作者:王兴金; 周兰江; 张建安; 周枫 刊期:2019年第11期

    目前,老挝语词性标注研究处于初期,可用标注语料有限,且老挝语吸收了多种外来词,导致标注语料库存在大量稀疏词。多任务学习是有效识别稀疏词的一种方法,该文研究了老挝词的结构特征,并构建了结合词性标注损失和主辅音辅助损失的多任务老挝语词性标注模型。老挝词有很多词缀可以表达词性信息,因此模型还采用了字符级别的词向量来获取这些词缀信...

  • 基于上下文词向量和主题模型的实体消歧方法

    作者:王瑞; 李弼程; 杜文倩 刊期:2019年第11期

    传统词向量训练模型仅考虑词共现而未考虑词序,语义表达能力弱。此外,现有实体消歧方法没有考虑实体的局部特征。综合实体的全局特征和局部特征,该文提出一种基于上下文词向量和主题模型的实体消歧方法。首先,在传统词向量模型上增加上下文方向向量,用于表征语序,并利用该模型与主题模型训练主题词向量;其次,分别计算实体上下文相似度、基于实体...

  • 基于BERT的古文断句研究与应用

    作者:俞敬松; 魏一; 张永伟 刊期:2019年第11期

    古汉语与现代汉语在句法、用词等方面存在巨大的差异。古文句与句之间通常缺少分隔和标点符号,现代读者难以理解。人工断句有助于缓解上述困境,但需要丰富的专业知识,耗时耗力。计算机自动断句有助于加速对古文的准确理解,从而促进古籍研究以及中华文化的弘扬。除自动断句,该文还尝试了自动标点任务。该方案自行预训练古汉语BERT(Bidirectional ...

  • 汉藏双语旅游领域知识图谱系统构建

    作者:冯小兰; 赵小兵 刊期:2019年第11期

    旅游业是藏族地区主要的经济来源之一。然而,目前互联网上缺乏藏文旅游信息智能化服务系统,且藏文景点介绍文本也十分匮乏;相反,汉文旅游网站信息量大,但各旅游网站包含的景点不尽相同,景点介绍文本篇幅较长,且各旅游网站对同一个景点描述侧重点不同。为便于不同语言使用者能快速准确地了解景点相关的知识,该文首先在汉文旅游领域分别采用基于BL...

  • 中国中文信息学会2019学术年会暨理事会在昆明成功召开

    刊期:2019年第11期

    2019年10月18-20日,中国中文信息学会2019学术年会暨理事会在云南省昆明市顺利召开。学会理事长方滨兴院士、学会名誉理事长哈尔滨工业大学李生教授等主要领导出席会议。学会副秘书长北京语言大学杨尔弘教授主持会议。缅怀董振东先生10月18日下午,中国中文信息学会第八届理事会第四次全体会议召开。正式会议开始前对已逝世的学会首届"终身成就奖...

  • TransRD:一种不对等特征的知识图谱嵌入表示模型

    作者:朱艳丽; 杨小平; 王良; 张志宇 刊期:2019年第11期

    知识图谱嵌入是一种将实体和关系映射到低维向量空间的技术。目前已有的嵌入表示方法在对具有不对等特征的知识图谱中的实体和关系建模时存在两大缺陷:一是假定头尾实体来自同一语义空间,忽略二者在链接结构和数量上的不对等;二是每个关系单独配置一个投影矩阵,忽略关系之间的内在联系,导致知识共享困难,泛化能力差。该文提出一种新的嵌入表示方...

  • 基于生成对抗模型的异质信息网络语义表征方法研究

    作者:赵瑜; 谭海宁; 刘志方; 武超 刊期:2019年第11期

    近些年,网络表示学习问题吸引了大量研究者的关注,而异构信息网络由于其丰富的结构语义信息及其广阔的应用领域,更是成为了网络表示学习领域的重中之重。目前面向异构信息网络的表示学习模型主要可以分为基于生成式模型的表示学习方法和基于判别式模型的表示学习方法,但是很少有工作同时结合两种模型进行表示学习的优化。该文提出了结合生成式模...

  • 融合字词模型的中文命名实体识别研究

    作者:殷章志; 李欣子; 黄德根; 李玖一 刊期:2019年第11期

    命名实体识别(NER)是自然语言处理中一项非常重要的基础任务。传统的机器学习方法在处理该任务时,主要依赖于人们的专业领域知识和人工提取的特征。为了在不需要人工特征的条件下获得较好的结果,该文提出了一种融合字词BiLSTM模型的命名实体识别方法。首先分别用BiLSTM-CRF训练得到基于字的模型Char-NER和基于词的模型Word-NER,然后将两个模型得...

  • 融入多特征的汉越新闻观点句抽取方法

    作者:林思琦; 余正涛; 郭军军; 高盛祥 刊期:2019年第11期

    该文提出一种融入多特征的汉越双语新闻观点句抽取方法。首先针对汉语和越南语标记资源不平衡的问题,构建了汉越双语词嵌入模型,用丰富的中文标记资源来弥补越南语标记资源的缺失。并且该文认为句子的主题特征、位置特征和情感特征对观点句分类具有重要作用,因此将这些特征分别融入词向量和注意力机制中,实现句子语义信息和情感、主题、位置特征...

  • EntropyRank:基于主题熵的关键短语提取算法

    作者:尹红; 陈雁; 李平 刊期:2019年第11期

    关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题熵的关键短语提取算法。该算法利用隐含狄利克雷分布训练文档和词的主题分布,并结合两个主题分布来表示特定文档...

  • 基于多任务学习的古诗和对联自动生成

    作者:卫万成; 黄文明; 王晶; 邓珍荣 刊期:2019年第11期

    实现古诗和对联的自动生成是极具挑战性的任务。该文提出了一种新颖的多任务学习模型用于古诗和对联的自动生成。模型采用编码-解码结构并融入注意力机制,编码部分由两个BiLSTM组成,一个BiLSTM用于关键词输入,另一个BiLSTM用于古诗和对联输入;解码部分由两个LSTM组成,一个LSTM用于古诗的解码输出,另一个LSTM用于对联的解码输出。在中国的传统文...

  • 面向知识库问答的实体链接方法

    作者:赵畅; 李慧颖 刊期:2019年第11期

    面向知识库问答的实体链接是指将自然语言问句中实体指称链接到知识库中实体的方法。目前主要面临两个问题:第一是自然语言问句短,实体指称上下文不充分;第二是结构化知识库中实体的文本描述信息少。因此,该文提出了分别利用候选实体的类别、关系和邻近实体作为候选实体表示的方法,弥补知识库实体描述信息不足的问题。同时,通过语料训练得到问句...