中文信息学报

中文信息学报杂志 北大期刊 CSCD期刊 统计源期刊

Journal of Chinese Information Processing

杂志简介:《中文信息学报》杂志经新闻出版总署批准,自1986年创刊,国内刊号为11-2325/N,是一本综合性较强的科学期刊。该刊是一份月刊,致力于发表科学领域的高质量原创研究成果、综述及快报。主要栏目:综述、语言资源建设、机器翻译、信息抽取与文本挖掘、情感分析与社会计算、自然语言理解与生成

主管单位:中国科学技术协会
主办单位:中国中文信息学会;中国科学院软件研究所
国际刊号:1003-0077
国内刊号:11-2325/N
全年订价:¥ 600.00
创刊时间:1986
所属类别:科学类
发行周期:月刊
发行地区:北京
出版语言:中文
预计审稿时间:1-3个月
综合影响因子:1.62
复合影响因子:0.84
总发文量:1895
总被引量:17085
H指数:55
引用半衰期:4.2826
立即指数:0.0496
期刊他引率:0.7957
平均引文率:13.8099
  • 维吾尔语广播新闻敏感词检索系统的研究

    作者:木合塔尔·沙地克 李晓 布合力齐姑丽·瓦斯力 刊期:2011年第04期

    维吾尔语广播新闻敏感词检索系统是以HMM为基础。在MATLAB平台上设计实现的。该系统的特点包括:1.由于维吾尔语敏感词数量不多,该系统语音语料库很小。2.由于广播新闻中的发音较为标准规范,在识别中避免了说话人发音上的不规范,这有利于语音识别系统性能的提高。3.由于选择词素为识别基元,易于识别基元端点检测。

  • 西双版纳傣文新闻网站与数字报刊技术研究

    作者:殷建民 刀福祥 唐金宝 玉康龙 刊期:2011年第04期

    该文介绍了西双版纳傣文新闻网站与数字报刊系统的研究内容与关键技术,涉及西双版纳新老傣文编码/显现字符集、输入法和嵌入式字库的研究以及版面数字化技术、网站技术、新闻信息多渠道采集技术、多媒体共享稿库技术和中文新闻信息标准的应用。

  • 基于朴素贝叶斯分类器的朝鲜语文本分类的研究

    作者:周国强 崔荣一 刊期:2011年第04期

    该文基于朴素贝叶斯分类器对朝鲜语文本分类进行了研究。首先,利用基于类别选择的特征选择方法对朝鲜语文本进行特征选择,并使用类TF-IDF估算方法计算权重;其次,构造朴素贝叶斯分类器;最后,利用分类器实现对朝鲜语文本的分类。实验表明,该方法在朝鲜语文本分类中具有较好的效果,为朝汉结合文本分类提供了一定的依据。

  • 基于栏目的藏文网页文本自动分类方法

    作者:胥桂仙 向春丞 翁彧 赵小兵 杨国胜 刊期:2011年第04期

    该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。

  • 基于双语约束的蒙古语无监督依存分析

    作者:刘凯 乌日力嘎 斯钦图 姜文斌 刘群 刊期:2011年第04期

    句法分析在自然语言处理的实际应用中扮演着重要的角色。当前各少数民族语言包括蒙古语的句法分析研究还处在相对滞后的阶段。同时给其他相关研究带来了相应的困难。该文提出了一种基于双语约束的蒙语的无监督依存分析方法。能够在无需蒙语依存树库及蒙语句法的情况下,对蒙语进行无监督的依存句法分析。并且获得了较好的效果,在人工标注的测试集...

  • 蒙古语有向图形态分析器的判别式词干词缀切分

    作者:姜文斌 吴金星 乌日力嘎 那顺乌日图 刘群 刊期:2011年第04期

    蒙古语形态分析中,我们之前的有向图模型取得了较高的性能。这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选。为每个词尽可能地枚举出所有合法的切分标注候选,是有向图模型有效工作的前提。该文提出了一种基于判别式分类的词干词缀切分策略,与之前基于词干表和词缀表的枚举方案相比...

  • 蒙古文停用词和英文停用词比较研究

    作者:巩政 关高娃 刊期:2011年第04期

    该文采用联合熵算法(Union Entropy,UE)初步确定了蒙古文停用词,接着从初步确定的蒙古文停用词中去掉蒙古文实体名词及同形异义词,再通过对英文停用词和蒙古文停用词的词性比较,确定了蒙古文停用词表。最后用蒙古文停用词表和英文停用词表进行了文档信息检索的对比实验。实验结果表明,用该文所述方法确定的蒙古文停用词表进行蒙古文文档检索,...

  • 最大熵和规则相结合的藏文句子边界识别方法

    作者:李响 才藏太 姜文斌 吕雅娟 刘群 刊期:2011年第04期

    句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利用藏语句子边界规则减少了最大熵模型因训练语料稀疏或低劣而导致对句子边界的误判。实验表明,该文提出的方法具...

  • 藏文语义本体中的上下位关系模式匹配算法

    作者:邱莉榕 翁彧 赵小兵 刊期:2011年第04期

    语义本体是共享概念模型显示的形式化规范说明,其目标是将杂乱无章的信息源转变为有序易用的知识源。目前语义本体还主要依赖于手工创建模式。上下位关系是一种基本的语义关系,常用于语义本体中概念的自动获取和验证。该文首先描述了藏文语义本体的创建方法,进而给出了藏文中的上下位关系模式以及模式匹配算法。上下位关系的模式可以辅助进行概...

  • 一种改进的维吾尔语句子相似度计算方法

    作者:卡哈尔江·阿比的热西提 吐尔根·依布拉音 姚天昉 艾山·吾买尔 艾山·毛力尼亚孜 刊期:2011年第04期

    在基于实例的维吾尔语汉语机器翻译系统中维吾尔语相似度计算起重要作用。维吾尔语的黏着性特性要求对单词进行词干提取。本文提出的方法结合简单的句子结构相似度计算方法,通过对单词词干提取进行句子相似度计算。小规模实验结果比较接近人工评价的句子相似度。

  • 央金藏文分词系统

    作者:史晓东 卢亚军 刊期:2011年第04期

    藏文分词是藏文信息处理的一个基本步骤,该文描述了我们将一个基于HMM的汉语分词系统Segtag移植到藏文的过程,取得了91%的准确率。又在错误分析的基础上,进行了训练词性的取舍、人名识别等处理,进一步提高了准确率。

  • 基于词典的汉藏句子对齐研究与实现

    作者:于新 吴健 洪锦玲 刊期:2011年第04期

    双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比...

  • 基于WAMP的藏汉英互译在线词典的设计与实现

    作者:周毛先 头旦才让 才让加 刊期:2011年第04期

    根据目前在线藏汉英词典使用的实际需求,青海师范大学藏文信息处理省部共建教育部重点实验室设计实现了一种基于WAMP平台的藏汉英互译在线词典,并给出了词典数据库和查询页面的具体设计方法和关键代码。经测试,该在线词典根据用户的需要,输入单字和词就可以在藏汉英三语间交互查询并快速检索到对应的译词。词典采用B/S结构,它的实现有助于藏汉英...

  • 藏语语料库TEI标记规范探讨

    作者:扎西加 高定国 刊期:2011年第04期

    在语言信息处理过程中,大规模真实文本处理已成为一个研究热点。藏语语料库的标记在汉藏英机器翻译、信息检索、文本数据挖掘、词典编纂的研究工作中占很重要的地位。为了便于数据交换和共享,该文基于TEI编码的藏语语料,对藏语语料库中文本的属性信息和结构信息标记做了系统而全面的探讨。

  • 多民族语言本体知识库构建技术

    作者:赵小兵 邱莉榕 赵铁军 刊期:2011年第04期

    语义本体是共享概念模型的显示的形式化规范说明,其目标是将杂乱无章的信息源转变为有序易用的知识源。语义本体知识库的构建是文本自动处理的一个重要环节,跨语言信息检索、信息抽取、自动翻译等领域中都有广泛的应用。该文旨在描述统一标准、统一接口的多民族语言本体知识库的创建思路,以及包含的若干问题,例如:多民族语言中共有概念的一般表...