中文信息学报

中文信息学报杂志 北大期刊 CSCD期刊 统计源期刊

Journal of Chinese Information Processing

杂志简介:《中文信息学报》杂志经新闻出版总署批准,自1986年创刊,国内刊号为11-2325/N,是一本综合性较强的科学期刊。该刊是一份月刊,致力于发表科学领域的高质量原创研究成果、综述及快报。主要栏目:综述、语言资源建设、机器翻译、信息抽取与文本挖掘、情感分析与社会计算、自然语言理解与生成

主管单位:中国科学技术协会
主办单位:中国中文信息学会;中国科学院软件研究所
国际刊号:1003-0077
国内刊号:11-2325/N
全年订价:¥ 600.00
创刊时间:1986
所属类别:科学类
发行周期:月刊
发行地区:北京
出版语言:中文
预计审稿时间:1-3个月
综合影响因子:1.62
复合影响因子:0.84
总发文量:1895
总被引量:17085
H指数:55
引用半衰期:4.2826
立即指数:0.0496
期刊他引率:0.7957
平均引文率:13.8099
  • 基于规则的中文阅读理解问题回答技术研究

    作者:李济洪 杨杏丽 王瑞波 张娜 李国臣 刊期:2009年第04期

    该文针对中文阅读理解问答中的时间、人物、地点、数值、实体、描述六类问题,制定了各类问题回答的启发式规则集。对规则集中每条规则赋予一个相应权值,利用正交表对各规则所对应的权值进行了调优选取,给出了各候选答案句基于相应规则的得分计算方法。该文方法在山西大学自主开发的中文阅读理解语料库CRCC v1.1上进行了实验,在整个语料库上...

  • 汉语零形回指研究综述

    作者:黄娴 张克亮 刊期:2009年第04期

    回指研究一直是语言学研究的一个热点,回指解析则是文本信息处理中亟待解决的问题之一。传统语言学从句法、语用、篇章、认知角度出发对汉语零形回指进行了广泛的研究。在自然语言处理领域,针对汉语零形回指也有一些颇有影响的研究,如基于向心理论的零形回指解析算法,基于HNC理论的零形回指处理方法,以及基于DRT理论和语义分析等方法提出的...

  • 基于SVMTool的中文词性标注

    作者:王丽杰 车万翔 刘挺 刊期:2009年第04期

    SVMTool是建立在支持向量机(SVM)原理上的序列标注工具,具有简单、灵活、高效的特点,可以融入大量的语言特征。该文将SVMTool应用于中文词性标注任务,将基于隐马尔科夫模型的基线系统准确率提升了2.07%。针对未登录词准确率不高的问题,该文加入了中文字、词的特征,包括构成汉字的部首特征和词重叠特征,并从理论上分析了这两个特征的可...

  • SMS-2008标注中文短信息库

    作者:马旭 徐蔚然 郭军 胡日勒 刊期:2009年第04期

    随着短信息应用的普及,用户、运营商及政府管理部门均迫切需要智能短信处理工具。语料库是研究算法,开发系统,测试性能等必不可少的基础资源。但受到技术、版权保护、隐私权利等种种原因,目前还没有公开的标准短信息语料库。SMS-2008标注短信息库是本项目组在国内外率先建立的多用途中文短信息语料库,它包括原始语料库、预处理语料库、隐私...

  • 多文档文摘中基于时间信息的句子排序策略研究

    作者:徐永东 王亚东 刘杨 王伟 权光日 刊期:2009年第04期

    文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序效果。对此该文从文本时间信息处理入手,首先提出了中文文本时间信息抽取、语义计算以及时序推理算法,并...

  • 话语标记的语体特征研究及应用

    作者:孟晓亮 侯敏 刊期:2009年第04期

    话语标记作为一种常见的话语现象,已成为话语分析研究的重要课题。由于研究角度不同,人们对于话语标记的认识和分类至今仍存在较大差异。该文从语体的角度提出假设,认为话语标记具有一定的语体特征。为准确描写话语标记的语体特征,提出了“语体度”的概念。通过对采样话语标记在不同语体的语料中分布情况进行定量分析,证实了相当一部分话语...

  • 中文搜索引擎查询与反馈词语特征研究

    作者:赖茂生 屈鹏 刊期:2009年第04期

    查询式是网络用户搜索时表达其信息需求的主要方式,系统提示的相关词则是用户改善查询的有效工具,该文以这二者为研究对象,从用户的使用行为入手对这二者的特征进行刻画和分析。首先使用日志挖掘的方法,对查询式进行总体的定量描述;进而通过定性分类将查询式中的高频词分为主体词和辅助词两大类,并比照问卷调查的研究结果,发现网络用户在...

  • 一种基于随机森林的多视角文本分类方法

    作者:田宝明 戴新宇 陈家骏 刊期:2009年第04期

    基于词的向量空间模型是文本分类中的传统的表示文本的方法。这种表示方法的一个缺点是忽略了词之间的关系。最近一些使用潜在主题文本表示的方法,如隐含狄利克雷分配LDA(Latent Diriehlet Allocation)引起了人们的注意,这种表示方法可以处理词之间的关系。但是,只使用基于潜在主题的文本表示可能造成词信息的损失。我们使用改进的随机森林...

  • 用宋词实现高嵌入率文本信息隐藏

    作者:余振山 黄刘生 陈志立 李凌君 杨威 赵欣欣 刊期:2009年第04期

    文本信息隐藏是将秘密信息隐藏到文本中的一种技术。与加密后的密文通常是无意义的一串编码不同,文本隐藏生成的隐写文本看起来与普通文本无异,不容易引人怀疑。但是因为文本本身的冗余度低,与图像、视频等载体相比,文本隐藏算法较少且容量偏低。该文提出了一个新的利用宋词的文本隐藏算法,并设计实现了由编码器、解码器、词典和词牌模板组...

  • WNCT:一种WordNet概念自动翻译方法

    作者:王石 曹存根 刊期:2009年第04期

    WordNet是在自然语言处理领域有重要作用的英语词汇知识库,该文提出了一种将WordNet中词汇概念自动翻译为中文的方法。首先,利用电子词典和术语翻译工具将英语词汇在义项的粒度上翻译为中文;其次,将特定概念中词汇的正确义项选择看作分类问题,归纳出基于翻译唯一性、概念内和概念间翻译交集、中文短语结构规则,以及基于PMI的翻译相关性共1...

  • 基于Level Set方法的西夏字轮廓提取

    作者:柳长青 刊期:2009年第04期

    随着国内外对西夏研究的不断深入,收藏于世界各地的大批西夏古籍文献通过影印方式陆续出版。如何将这些西夏古籍文献进行数字化、文本化则有着极其重要的意义。首先利用平滑和细化算法对西夏影印文献进行了预处理,然后利用Levelset方法对影印文献中的西夏字进行了轮廓提取。Level Set演化函数在空间方向上采用了四阶紧致差分逼近式离散,计算...

  • 因子分析在基于GMM的自动语种识别中的应用

    作者:付强 宋彦 戴礼荣 刊期:2009年第04期

    在自动语种识别中,测试语音中说话人和信道的差异,会对系统性能产生很大的影响。针对于此,该文通过引入因子分析技术,根据语种识别的特点,建立了描述该差异(说话人差异和信道差异)的子空间的数学模型,并分别从特征域和模型域两个方面尝试消除该差异的影响。在最新的NISTLRE2007的测试任务中,相对于GMM—UBM基线系统,该文方法有效地提...

  • 汉语韵律短语的时长与音高研究

    作者:倪崇嘉 刘文举 徐波 刊期:2009年第04期

    语句和篇章的韵律结构和信息结构的分析及模型化是提高语音合成的自然度、降低自然语言识别错误率的关键。该文在带有韵律标注ASCCD语料库的基础上对韵律短语的时长和音高特性进行了研究,得到并验证了如下一些结论:(1)韵律短语边界对音节时长有明显的延长作用,不同声调对音节的时长延长作用不同,并且不同的重音级别对音节时长的延长作用也...

  • 基于自适应频率规整的鲁棒说话人辨认研究

    作者:李燕萍 唐振民 张燕 丁辉 刊期:2009年第04期

    该文提出了一种基于自适应频率规整的鉴别性特征提取算法。该方法通过对语音频谱的各个频带的鉴别性分析及其量化结果对各个频域进行自适应的频率规整,进行非均匀子带滤波设计提取鉴别性特征;同时在噪声环境下,在特征提取前端进行了预增强处理,解决了测试语音与训练语音失配的问题,保证了特征的正确提取。实验证明,该特征原理简单,稳定性...

  • 错音检测及其在语音教学中的应用综述

    作者:万济萍 肖云鹏 叶卫平 刊期:2009年第04期

    在学习语音的过程中,找出学习者发音的错误并加以改进是非常重要的。错音检测技术就是自动诊断语流中错误发音的技术,也是计算机辅助发音训练研究的主要内容之一。该文总结了错音检测技术的研究和应用现状,分别介绍了基于语音识别、基于错音网络和基于声学语音学的错音检测技术。在此基础上又介绍了错音检测技术在计算机辅助发音训练系统中的...