作者:刘胜杰; 许亮 期刊:《现代计算机》 2020年第01期
文本的表示是自然语言处理领域重要的工作,如何更好地表示文本语义是自然语言处理领域实际应用的重要基石。通过训练得到的词嵌入向量表示,可以认为其即代表单词本身及其含义。单词在不同语境下的含义不一样,不同的语境下涉及到一词多义问题,如何准确表示词嵌入向量以适应不同的语境也是目前研究的热点。目前词嵌入技术还处于初级阶段,还有很多问题值得深入研究。
作者:尤洪峰; 田生伟; 禹龙; 吕亚龙 期刊:《电子学报》 2020年第01期
遥感影像检测分割技术通常需提取影像特征并通过深度学习算法挖掘影像的深层特征来实现.然而传统特征(如颜色特征、纹理特征、空间关系特征等)不能充分描述影像语义信息,而单一结构或串联算法无法充分挖掘影像的深层特征和上下文语义信息.针对上述问题,本文通过词嵌入将空间关系特征映射成实数密集向量,与颜色、纹理特征的结合.其次,本文构建基于注意力机制下图卷积网络和独立循环神经网络的遥感影像检测分割并联算法(Attention Gr...
作者:冶忠林; 赵海兴; 张科; 朱宇 期刊:《中文信息学报》 2019年第10期
分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足:(1)罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息;(2)中心词语的反义词出现于上下文时,会使意义完全相反的词却赋予更近的空间向量表示;(3)互为同义词的词语均未出现于对方的上下文中,致使该类同义词学习得到的表示在向量空间中距离较远。基于以上三点...
作者:张学敬; 吕学强; 期刊:《计算机工程与应用》 2019年第23期
书面语篇包含有独白语篇和对话语篇两种类型,而独白语篇和对话语篇具有不同的描述功能和用词特点,这对基于这些语篇的不同分析任务计算建模提出了新的挑战。基于现有两种语篇标注库,采用统计分析方法,对两类语篇的不同层次功能结构差异性进行了定量分析。基于三种不同类型语料文本中自动训练得到的不同词嵌入向量,以字向量的角度初步分析了两类语篇在用词方面的不同分布特点。在此基础上针对两类语篇的4个典型分析任务,研究了不同...
作者:谢春丽; 蔺疆旭; 刘小洋; 张文斌; 黄军伟 期刊:《应用数学和力学》 2019年第11期
源代码相似性是指不同代码段功能上的相似程度,是软件工程领域一项重要的研究问题.现有的方法主要从文本、结构两方面,利用代码的统计学特征计算相似性,其最大缺点就是无法表达代码的语义特征.为解决此类问题,提出了一种融合统计信息的卷积神经网络(statistics information for code embedding-convolutional neural networks,SICE-CNN)源代码相似性检测方法.该方法首先通过词嵌入对源代码进行信息表示,获取代码的词嵌入向量信息;...
作者:叶颖雅; 黎树俊; 冯浩男; 李明轩; 陈珂 期刊:《广东石油化工学院学报》 2019年第06期
针对传统文本特征表示维度大且不能考虑上下文语义信息、循环神经网络梯度消失或梯度爆炸等问题,提出了一种结合LSTM和CNN的深度学习模型,文本数据经过清洗、词嵌入以及标准化后,将其输入至该模型中进行学习。考虑到词与词之间的相关性,使用了word2vec词向量工具,将LSTM和CNN通过恰当的方式结合,经实验验证,该模型的准确率和稳定性得到了有效提高。
作者:孙晓丽; 郭艳; 李宁; 宋晓祥 期刊:《通信技术》 2019年第09期
随着信息安全受到人们越来越多的关注,信息的加解密问题成为当今研究的热点。通过将密码破译问题转化为机器翻译问题,设计了一种基于深度学习的密码破译方法。首先,将明文密文对看作为翻译对,使其更合适地用于本文所用的翻译模型。其次,采用词嵌入编码方式对输入数据进行编码,在确定数据输入形式的同时,保留序列之间的相关信息。最后,使用3种典型的多表置换密码验证模型的性能。仿真结果表明,无论哪一种加密算法,所提模型都具有良...
作者:李琳; 李辉 期刊:《数据分析与知识发现》 2018年第05期
【目的】将文本建模为一个概念向量空间,提出一种该模型下的文本相似度计算方法。【方法】对文本进行依存句法分析,提取关键概念词,利用词嵌入方法构造表示文本的向量空间;提出一种向量空间之间的相似度定量刻画文本间的相似程度;采用标准测试集对短文本的相似度进行评测,并利用该相似度实现一种面向长文本的文本分类算法。【结果】实验结果表明定义在概念向量空间上的相似度可以有效评估文本间的语义相似性,在长文本的文档分类数...
作者:吕品; 于文兵; 汪鑫; 计春雷; 周曦民 期刊:《电子学报》 2019年第10期
恶意评论检测是预防社会媒体平台给用户带来负面影响的一项重要工作,是自然语言处理的重要领域之一.为解决单分类器实现恶意评论检测时模型精度不稳定、boosting集成模型精度较低的问题,提出一种异构分类器堆叠泛化的方法.该方法用深度循环神经网络将多标签的恶意评论分类问题转变为二类分类,防止了模型精度不稳定;用堆叠泛化集成时单个分类器GRU(Gated Recurrent Unit)和NB-SVM(Naive Bayes-Support Vector Machine)在模型结构和...
作者:刘刚; 曹雨虹; 裴莹莹; 李玉 期刊:《信息通信》 2019年第04期
专利文献是记录专利的主要依据,而专利摘要则是专利文献的进一步浓缩。实验基于中文专利摘要部分,借助Python第三方库jieba进行分词、词性标注、gensim进行词向量映射,探讨对中文专利摘要部分进行分词、词性标注的问题,进而探讨词嵌入中基于词袋模型和分布式模型的差异。针对现有的分布式表示方法中词向量连续稠密等问题,提出了在相关语料库的基础上将词语聚类之后再结合CBOW和Skip-Gram模型训练语料词语得到权重矩阵,并将此权重矩...
作者:何涛; 王桂芳; 杨美妮; 郭楷模 期刊:《现代情报》 2018年第11期
[目的/意义]使用科技文献数据库进行文献检索时,检索式中的关键词如果不够全面,将导致检索结果查全率较低;检索式中的关键词如果一词多义,则可能向检索结果中引入无关文献,导致查准率较低。[方法/过程]针对这两类问题,本文提出使用词嵌入这一新颖的文本数据化表现形式,一方面通过语义分析对检索关键词进行扩充从而提高查全率;另一方面通过发现语义异常点来提高查准率。[结果/结论]本文将该方法应用于人工智能领域中深度学习方向上...
作者:张佳晖; 张宇 期刊:《浙江理工大学学报·自然科学版》 2019年第01期
协同过滤是目前最为成功的推荐技术之一,但它只利用了评分数据,忽视了大量可以利用的用户评论。针对该问题提出了一种基于概率图的深度神经网络推荐模型,即共享表示模型(Shared representation model,SRM),并在SRM的基础上提出一种基于多任务学习思想的改进模型,即隐因子共同学习模型(Joint learning model with latent factor,LF-JLM)。LF-JLM结合了基于矩阵分解的隐因子推荐算法和doc2vec语言模型,它在doc2vec和隐因子模型的映射...
作者:罗钰敏; 刘丹; 尹凯; 赵宏森 期刊:《计算机工程与设计》 2019年第07期
针对已有文本相似度计算方法应用在实体对齐上准确率低的问题,提出一种加权平均Word2Vec的实体对齐方法。利用Word2Vec训练文本,得到词向量模型;使用LTP(language technology platform)工具抽取文本中的命名实体并对其进行分词、去停用词处理,由Word2Vec得到处理后的词向量;根据分词后出现相同词的情况进行加权归一,得到各实体的特征向量;利用特征向量计算余弦相似度得到对齐结果。实验结果表明,与已有的文本相似度方法及未改进的W...
作者:叶天顺 期刊:《计算机应用与软件》 2018年第09期
提出一种改进社交化的词嵌入算法。在训练语言模型时,考虑用户在社交媒体上的朋友之间的关系。为了融入社交关系,使用一个正则项来加强两个朋友之间的相似性。应用最新的大规模Yelp数据集来训练语言模型,并设计两个实验来验证该模型生成的社交词嵌入向量要优于其他模型。
作者:花树雯; 张云华 期刊:《计算机系统应用》 2019年第03期
使用传统的主题模型方法对医疗服务平台中的评论等短文本语料进行主题模型的情感分析时,会出现上下文依赖性差的问题。提出基于词嵌入的WLDA算法,使用Skip-Gram模型训练出的词w*替换传统的LDA模型中吉布斯采样算法里的词w[,同时引入参数λ,控制吉布斯采样时词的重采样的概率.实验结果证明,与同类的主题模型相比,该主题模型的主题一致性高.
作者:游绩榕; 沙灜; 梁棋; 王斌 期刊:《计算机应用研究》 2019年第06期
在社交网络上,用户常创造一些变体词来替代部分实体名词,将这些变体词还原为原目标词是自然语言处理中的一项重要工作。针对现有变体词还原方法准确率不够高的问题,提出了基于有效上下文信息的变体词还原方法。该方法利用点互信息抽取出变体词和候选目标词的有效上下文信息,并将其融合进自编码器模型中,获得变体词和候选目标词更准确的编码,并依据此计算相似度进行候选目标词排序,更准确地实现了变体词还原任务。实验表明,该方法较...
作者:冶忠林; 赵海兴; 张科; 朱宇 期刊:《中文信息学报》 2019年第04期
词语作为语言模型中的基本语义单元,在整个语义空间中与其上下文词语具有很强的关联性。同样,在语言模型中,通过上下文词可判断出当前词的含义。词表示学习是通过一类浅层的神经网络模型将词语和上下文词之间的关联关系映射到低维度的向量空间中。然而,现有的词表示学习方法往往仅考虑了词语与上下文词之间的结构关联,词语本身所蕴含的内在语义信息却被忽略。因此,该文提出了DEWE词表示学习算法,该算法可在词表示学习的过程中不仅...
作者:罗森林; 毛焱颖; 潘丽敏; 陈倩柔; 魏超 期刊:《北京理工大学学报》 2018年第11期
针对文本情感分类中情感语义特征利用不足、特征降维效果欠佳等影响分类效果的问题,提出了一种通过扩展语义相似的情感词以及引入词语间统计特征的高精度网络评论情感分类方法.该方法利用神经网络Skip-gram模型生成词嵌入,通过词嵌入相似性度量将语义相似的词语扩展为情感特征;再利用词语间的统计特征进行特征降维;通过多个弱分器加权构建Adaboost分类模型实现网络评论情感分类.基于酒店评论和手机评论公开测试集进行实验,结果表明...
作者:刘欣阳; 曲彦文; 周琪云 期刊:《计算机工程与应用》 2019年第13期
在信用评估问题中,用户信息中既包含类别数据,也包含数值数据。传统的基于人工智能的信用评估模型通常对类别数据进行one-hot变换后,再与数值数据进行拼接作为判别器的输入。与之不同,借鉴了自然语言处理中的词嵌入技术来提取类别数据的词向量;将输入的词向量集合类比为“句子”,并基于自注意力机制从“句子”中提取出用户特征;最后采用多层感知机来预测用户违约的概率。新模型可以使用反向传播算法实现端到端的训练。在三个不同的...
作者:孙悦; 李晶; 吴铁峰; 张磊 期刊:《计算机技术与发展》 2018年第11期
随着社交网络以及电子商务的飞速发展,越来越多的用户习惯于在互联网上针对商品发表评论,造成各大电子商务网站上产品的短评语总量飞速上涨。面对海量内容相似、格式随意的评语,研究人员以及数据使用者仅凭人力在众多短评语中提取对自己有价值的信息比较困难,因此短文本评语的情感分类得到了广泛的关注。针对人工提取困难的问题,提出一种改进的卷积神经网络模型。该模型通过词嵌入和多通道卷积神经网络结合的方式实现了短文本评论...