作者:黄德朋; 李正华; 龚晨; 张民 期刊:《北京大学学报·自然科学版》 2020年第01期
为了扩大人工标注数据的规模,从而提高模型性能,尝试充分利用已有的异构人工标注数据训练模型参数。将Li等2015年提出的耦合序列标注方法扩展到基于BiLSTM的深度学习框架,直接在两个异构训练数据上训练参数,测试阶段则同时预测两个标签序列。在词性标注、分词词性联合标注两个任务上进行大量实验,结果表明,与多任务学习方法和传统耦合模型相比,神经耦合模型在利用词法异构数据方面更优越,在异构数据转化和融合两个场景上都取得更高...
作者:赵乐; 麦范金; 张兴旺 期刊:《小型微型计算机系统》 2019年第11期
情感分类是自然语言处理领域的一个核心问题,其目的是判断评论文本的情感极性,并挖掘其蕴含的情感价值信息.为了提取评论文本中潜在的情感信息,提高分类精度,本文提出了多特征融合的Voting-SRM情感分类方法.结合词性特征,语法特征等,提取名词,动词,形容词,副词等特征,然后运用软投票机制,结合随机梯度下降算法、随机森林、神经网络等算法,对已获取评论文本进行极性二分类.本文通过对比实验,验证了该方法的有效性.
作者:尹洪波 期刊:《复旦外国语言文学论丛》 2010年第01期
语言学理论对汉外词典编纂具有重要的指导意义。生成语法的词库理论告诉我们词性标注的重要,配价理论为我们给词典配置用法模式提供有力的理论支撑,二语学习理论启示我们为词典配置负面语据的必要,语块理论使我们重新思考词目收录问题。辞书学界的专家学者,尤其是汉外词典编纂者应该与时俱进,研究相关语言学理论,及时利用汉语本体研究、中文信息处理等领域比较成熟的研究成果,积极吸取国外二语学习词典方面的先进经验,从而编写出更...
本文介绍了一种机器翻译框架,能够完成汉-英文本的自动翻译任务。对于输入句子,分别进行分词、词性标注和句法分析处理。在翻译转换之前,集成了词义消歧的结果以提高自动译文输出质量。
本文简要介绍了中文信息处理的主流技术,着重介绍了中文信息处理中的N元模型、语音识别、词性标注和句法分析技术。
本文对自然语言检索中的词法分析处理进行了探讨.首先讨论了基于词法分析的自然语言检索处理的类型,如加权统计法、N元法、统计学习方法,然后讨论了词法分析的方法和过程,重点对语词切分、词性标注的方法,并分析了相关的过程,特别是对基于概率统计的方法进行了介绍.最后对词法分析中存在的问题进行了探讨.
针对传统辞典义项划分中人为判断的主观性,以及义项排列、词性标注中存在的问题,探索基于语料库基础之上的辞典编纂标准。通过对语料的定量对比分析,讨论按使用频率划分、排列义项的可行性。另外,在词性的确定和标注中,引入搭配和语法分析以为支撑。以一组近义词义项的定量对比分析为例,试图建立科学的辞典义项划分标准模式。
汉语兼类词一直是一个老大难的问题,兼类词的词性标注更是语文辞书编纂的难点。文章以语料库为研究工具,对现代汉语高频使用的“感动”的词性进行了查阅和探讨,发现目前大中型汉语词典对“感动”的词性处理有失允当,因此,在利用语料库占有充分语言材料的基础上,对“感动”的词性进行了深入探讨。
作者:杨旭; 付敏 期刊:《海外华文教育》 2018年第05期
文章结合国内外学界在词类和词类标注研究方面的最新成果,考察了《发展汉语》(第二版)综合教材的词类标注,发现存在漏标、错标和多标三类错误;此外还存在与词类标注相关的释义与词类之间形类不一致的问题。这些问题的产生多是由于不正确地参考语文词典造成的。我们既要认识到对外汉语教材和语文词典从根本上隶属于不同的层面,也要认识到两者存在双向互动,尤其是对外汉语教材中存在类似于词典的功能块——生词总表,所以要在...
作者:于清; 陈亚波; 徐健; 常乐; 侯云霞 期刊:《新疆师范大学学报·哲学社会科学版》 2018年第01期
现有分词工具应用于医学文本,出错率高,并且现有分词工具所参照的词性标注规范集,用于医学文本标注,也明显表现不足。文章基于医疗卫生文本研究依存句法,旨在发现医疗卫生文本词特征和句法特征,构建一定规模依存句法树库,为提高医疗卫生领域汉维机器翻译质量提供优质数据资源。重点研究了语义依存,不仅全面掌握词性标注特征,提出建议;而且着重发现医疗卫生文本数据独特的词间关系,标注并保存,获得医疗卫生领域语义依存树库。同时,...
作者:帕丽旦·木合塔尔; 热依曼·吐尔逊; 买买提阿依甫; 排孜拉·奴来海买提 期刊:《现代电子技术》 2019年第18期
在自然语言处理中词性标注和词干提取是最重要的任务.文中研究与实现基于Android的维吾尔文词性标注和词干提取APP,为维吾尔语自然语言处理工作开发出了快捷和方便的标注平台,目的是通过APP对大规模语料进行词性标注和词干提取,实现了广大学员通过一部Android系统的手机随时随地参与语料标注任务,从而完成了大规模语料的标注工作,将其应用到文本分析、机器翻译、语音合成、语音翻译等研究领域.该系统的实现为低资源少数民族智能化...
作者:兰义湧; 龙从军; 赵小兵 期刊:《中央民族大学学报·哲学社会科学版》 2018年第01期
本文首先分析了藏文人名的特点以及藏文人名识别的难点,在此基础上,利用条件随机场模型,分别提出了采用基于亚音节标注的藏文人名识别方法和分词与词性标注一体化的藏文人名识别方法.
作者:张春荣; 赵琦 期刊:《计算机应用研究》 2018年第05期
在词性标注研究中,未登录的专业领域合成词给词性标注增加了很大的困难。提出了一种领域自适应的合成词词性标注方法,融合支持向量机(SVM)模型和基于转换学习(TBL)的方法来进行自动词性标注。对专业领域合成词的形态特征进行了详尽的分析,对有关的语法特点和语言现象进行了总结。有效利用这些合成词构词单元的语言学信息,把词类和词内结构信息引入SVM特征选择模板和TBL转换规则模板中,并采用核心属性渗透方法标注专业领域合成词的...
汉语词典的词性标注问题一直为大家所关注。根据我们掌握的情况,用于对外汉语教学的词典多数标注了词性,如《现代汉语常用词用法词典》(李忆民主编)、《汉语8000词词典》(刘镰力主编)、《HSK词语用法详解》(黄南松、孙德金主编)等。
李行健主编的《现代汉语规范词典》的出版,使汉语辞书大家庭中增加了一个新成员,并以它自身的特色,成为汉语辞书大家庭中的一个新生力量,使汉语辞书领域多了一个竞争对手。这无论从哪个角度看,都是可喜可贺的。《现代汉语规范词典》是在李行健教授主持和带领下、
作者:金国哲; 崔荣一 期刊:《中文信息学报》 2018年第10期
朝鲜语词性标注是朝鲜语信息处理的基础,其结果直接影响后续朝鲜语自然语言处理的效果。首先为了解决朝鲜语词性标注中遇到的形态素实际写法与原形不一致的问题,该文提出了一种在seq2seq模型的基础上融合朝鲜语字母信息的朝鲜语形态素原形恢复方法;其次,在恢复形态素原形的基础上,利用LSTM-CRF模型完成朝鲜语分写及词性标注。实验结果表明,该文提出的方法词性标注F1值为94.75%,优于其他方法。
作者:夏天赐; 孙媛 期刊:《中文信息学报》 2018年第12期
从无结构文本中抽取实体与实体之间的关系是自然语言处理领域的重要研究内容,同时也为构建知识图谱、问答系统等应用提供重要支撑。基于联合模型的实体关系抽取任务将实体识别和关系抽取同时进行,克服了传统实体关系抽取任务中先识别句子中的实体,然后再进行实体关系判断这两次任务中的错误累加。该文针对藏文语料匮乏、实体识别准确率不高等问题,提出了基于联合模型抽取藏文实体关系的方法。基于藏文实体关系抽取任务,提出以下方...
作者:骆聪; 王帅 期刊:《计算机技术与发展》 2018年第08期
为了方便互联网用户高效地从海量网页中获取自己所需的信息,准确的网页分类技术越来越受到人们的重视。网页分类技术一般采用信息增益、互信息等进行特征选取,并使用kNN(k-nearest neighbor)、朴素贝叶斯(naive Bayes)和支持向量机(support vector machines)等进行分类。不同于传统的网页分类算法,结合深度学习的知识采用更深层次的方法进行特征提取。通过考虑网页HTML标签权重提取网页的内容,然后利用词性标注技术在剔...
作者:陈列蕾; 方晖 期刊:《南京大学学报·自然科学》 2018年第03期
客观准确的关键词能够帮助电子数据库对科研文献进行分类,也能帮助研究人员缩小文献检索的范围.提出基于TFIDF(Term Frequency-Inverse Document Frequency)与Scopus数据库检索的方法自动提取英文科研文献的关键词,将Scopus数据库包含的所有文档作为语料库,并利用Scopus API实现库内自动检索.相对于传统的人工建立并标记语料库,该方法更方便,可用数据更丰富.该方法利用摘要冗余信息量少的特点,结合全文信息的统计特征从摘要中提...
作者:帕丽旦·木合塔尔; 吾守尔·斯拉木; 买买提阿依甫 期刊:《计算机仿真》 2019年第01期
维吾尔语词性标注是词法分析中的重要任务之一,其标注结果的准确性直接影响到自然语言处理的后续工作。维吾尔语词性标注的难点是如何正确判断兼类词和未登录词的词性。提出了基于BiLSTM-CNN-CRF的混合模型进行维吾尔语词性标注。上述模型采用三层结构,先用CNN网络框架训练出维吾尔文单词的字符级形态特征向量,其次用skip-gram方法对大规模语料进行训练生成具有语义信息的低维度稠密实数词向量,然后将字符级特征向量和词向量拼接的...