《中文信息学报》杂志2004年第02期期刊目录-发表之家

基于SVM的中文组块分析

作者：李珩; 朱靖波; 姚天顺刊期：2004年第02期

基于SVM(support vector machine)理论的分类算法，由于其完善的理论基础和良好的实验结果，目前已逐渐引起国内外研究者的关注。和其他分类算法相比，基于结构风险最小化原则的SVM在小样本模式识别中表现较好的泛化能力。文本组块分析作为句法分析的预处理阶段，通过将文本划分成一组互不重叠的片断，来达到降低句法分析的难度。本文将中文组块...
少数民族文字信息处理基础软件研发学术研讨会

刊期：2004年第02期
Web信息检索结果融合中的按位加权插入合并算法

作者：张敏; 金奕江; 马少平刊期：2004年第02期

在Internet中,由于海量数据的多样性,在分布式数据集合上进行有效的检索就成为Web信息检索的一种必要方式.由此,引出多个检索结果的融合问题.对不同检索结果的相似度评分可能完全不可比的情况,本文给出一种新的解决方案:按位加权插入合并算法.在18GB的大规模web标准测试集上的实验证明,该算法始终能够提高综合检索性能,且分布数据集检索结果越好...
OpenE：一种基于n-gram共现的自动机器翻译评测方法

作者：孙连恒; 杨莹; 姚天顺刊期：2004年第02期

在机器翻译研究领域中,评测工作发挥着重要的作用,它不仅仅是简单地对各个系统输出结果进行比较,它还对关键技术的发展起到了促进作用.译文质量的评测工作长期以来一直以人工的方式进行.随着机器翻译研究发展的需要,自动的译文评测研究已经成为机器翻译研究中的一个重要课题.本文讨论了基于n-gram共现的自动机器翻译评测框架,介绍了BLEU、NIST、...
一种改善的基于语言模型的中文检索系统研究

作者：张俊林; 曲为民; 孙乐; 孙玉芳刊期：2004年第02期

最近几年提出的语言模型检索系统将语音识别领域的语言模型技术引入信息检索领域并改善了检索系统的性能,但是其隐含的词汇间相互独立的假设并不符合实际情况.尽管统计翻译模型考虑了词汇间的同义词因素,但是由于它没有考虑词汇上下文信息,所以对于解决多义词词义的区分并无帮助.我们提出了触发语言模型检索方法来改善这一状况,通过训练语料得到...
汉语语料词性标注自动校对方法的研究

作者：钱揖丽; 郑家恒刊期：2004年第02期

兼类词的词类排歧是汉语语料词性标注中的难点问题,它严重影响语料的词性标注质量.针对这一难点问题,本文提出了一种兼类词词性标注的自动校对方法.它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息,自动生成兼类词词性校对规则,并应用获取的规则实现对机器初始标注语料的自动校对,从而提高语料中兼类词的词性标注质量.分别对50万汉...
基于对话语音的与文本无关的说话人确认系统的研究

作者：陈雁翔; 戴蓓倩; 周曦; 李辉刊期：2004年第02期

本文建立了一个基于对话语音的与文本无关的说话人确认系统,它和传统的与文本无关的说话人确认系统的关键不同在于,训练及测试语音不再只包含一个人而都是对话语音,因此需要分割出属于不同说话人的语音段,以建立说话人模型和实现最终判决.文中详细介绍了高斯混合模型-背景模型(GMM-UBM)这种说话人确认系统的框架,重点讨论了基于GLR(Generalized ...
语音合成中的韵律关联模型

作者：吴志勇; 蔡莲红刊期：2004年第02期

基于大规模语音数据库的文语转换系统(Text-to-Speech, TTS)中,如何选取合适的语音基元是提高合成语音自然度的重要因素.本文研究了连续语流中的韵律关联现象,提出了包含韵律关联参数的汉语韵律特征参数集,基于数据挖掘中的关联规则模型(Association Rules Model)建立韵律关联模型,并将该模型应用于基元选取.实验表明,该方法有效地利用了语音基...
基于不对称性的相似汉字识别方法

作者：孙羽菲; 陈艳; 张玉志刊期：2004年第02期

相似字识别的正确与否对整个识别系统的准确性和可用性都有着极大的影响.在实际应用中,我们发现相似汉字之间的误识存在不对称性,并对这种不对称现象的成因进行了细致的探讨和分析.基于这种不对称性,本文提出了一种分类的部分空间方法来解决相似字的识别问题.相似字按其结构特点被分成若干基本类别,不同类别在相应的部分空间提取不同的特征进行...
快速中文字符串模糊匹配算法

作者：陈开渠; 赵洁; 彭志威刊期：2004年第02期

本文解决了中文字符串模糊匹配的两个主要问题:空间问题和时间问题.目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法.由于汉字众多,应用位向量方法时,需要大量空间.对于某些内存很少的小型计算机,比如嵌入式系统,这将会是一个问题.本文改进了位向量方法,使其在应用于中文字符串时,空间需求降低到约5%.本文还利用汉字非常多的特点,提出...
在ICU中实现少数民族文字的处理

作者：董治江; 吴健; 钟义信刊期：2004年第02期

基于ISO/ IEC 10646和UNICODE国际标准,用传统的字体技术(如TrueType)来实现少数民族文字处理所面临的一个'瓶颈'问题是:'变形显现字符'不存在确定的码位.这也是多年来民文系统重复开发、互不兼容的根本原因.本文基于ICU的文字处理体系结构,阐述了完全支持Unicode标准的少数民族文字(本文主要指蒙古文字、维文、藏文等)的实现方法.文中首先介绍...
多文种环境下汉字内码识别算法的研究

作者：李培峰; 朱巧明; 钱培德刊期：2004年第02期

汉字内码向ISO/ IEC 10646过渡是实现计算机用文字编码统一的必然趋势,但目前在一段时间内仍将存在多种汉字内码并存的情况,所以实现汉字内码的自动识别是保证汉字多内码并存的关键.本文主要探讨了如何在多内码并存的多文种环境中实现汉字内码自动识别的问题,并提供了多种汉字内码识别算法,包括基于内码分布、标点符号特征、字频特征和语义特征...
信息技术名词定名的系统分析方法与评价指标体系

作者：王有志; 赵敏; 陈俊峰刊期：2004年第02期

在多年学习、使用、翻译与参与评审几种规范IT名词集的基础上,本文将系统分析方法用于对此类名词集的定名与评价.其基本方法,一是从名词集中拆分出基础要素--名词元;二是提出八项量化指标:印误率,英语拼写不一致与不规范率,非必要的一多与多一对应率,英汉名词不对等率,与交叉学科名词有异率,与国标定名不符率,收词欠完备与冗余率及总体值得修榷...

中文专业毕业论文中文专业论文中文本科论文中文科技论文中文翻译论文

中文信息学报杂志北大期刊 CSCD期刊 统计源期刊

Journal of Chinese Information Processing

基于SVM的中文组块分析

少数民族文字信息处理基础软件研发学术研讨会

Web信息检索结果融合中的按位加权插入合并算法

OpenE：一种基于n-gram共现的自动机器翻译评测方法

一种改善的基于语言模型的中文检索系统研究

汉语语料词性标注自动校对方法的研究

基于对话语音的与文本无关的说话人确认系统的研究

语音合成中的韵律关联模型

基于不对称性的相似汉字识别方法

快速中文字符串模糊匹配算法

在ICU中实现少数民族文字的处理

多文种环境下汉字内码识别算法的研究

信息技术名词定名的系统分析方法与评价指标体系

中国科技信息

佳木斯大学学报

中国报业

黑龙江科技信息

现代经济信息

中华医学信息导报

齐齐哈尔医学院学报

南方医科大学学报

机电信息

新媒体研究

测绘与空间地理信息

经济技术协作信息

中文信息学报杂志 北大期刊 CSCD期刊 统计源期刊

Journal of Chinese Information Processing

基于SVM的中文组块分析

少数民族文字信息处理基础软件研发学术研讨会

Web信息检索结果融合中的按位加权插入合并算法

OpenE：一种基于n-gram共现的自动机器翻译评测方法

一种改善的基于语言模型的中文检索系统研究

汉语语料词性标注自动校对方法的研究

基于对话语音的与文本无关的说话人确认系统的研究

语音合成中的韵律关联模型

基于不对称性的相似汉字识别方法

快速中文字符串模糊匹配算法

在ICU中实现少数民族文字的处理

多文种环境下汉字内码识别算法的研究

信息技术名词定名的系统分析方法与评价指标体系

中国科技信息

佳木斯大学学报

中国报业

黑龙江科技信息

现代经济信息

中华医学信息导报

齐齐哈尔医学院学报

南方医科大学学报

机电信息

新媒体研究

测绘与空间地理信息

经济技术协作信息

中文信息学报杂志北大期刊 CSCD期刊统计源期刊