作者:孙燕; 孙茂松; 赵海兴; 冶忠林 期刊:《计算机工程与科学》 2020年第02期
表示学习是机器学习中通过浅层的神经网络将具有关联关系的信息映射到低维度向量空间中。词表示学习的目标是将词语与其上下文词语的关系映射到低维度的表示向量空间中,而网络表示学习的目标是将网络节点及上下文节点之间的关系映射到低维度的表示向量空间中。词向量是词表示学习的结果,而节点表示向量是网络表示学习的结果。DeepWalk通过随机游走策略获取网络节点上的游走序列作为word2vec模型中的句子,之后通过滑动窗口获取节点...
作者:李舟军; 范宇; 吴贤杰 期刊:《计算机科学》 2020年第03期
近年来,随着深度学习的快速发展,面向自然语言处理领域的预训练技术获得了长足的进步。早期的自然语言处理领域长期使用Word2Vec等词向量方法对文本进行编码,这些词向量方法也可看作静态的预训练技术。然而,这种上下文无关的文本表示给其后的自然语言处理任务带来的提升非常有限,并且无法解决一词多义问题。ELMo提出了一种上下文相关的文本表示方法,可有效处理多义词问题。其后,GPT和BERT等预训练语言模型相继被提出,其中BERT模型...
作者:谭章禄; 陈孝慈 期刊:《中国安全生产科学技术》 2020年第02期
为探寻安全隐患的内在特征,加深安全管理人员对安全隐患的理解,提升安全管理效率。以潞安集团司马煤业有限公司2009—2015年安全隐患记录为数据源,利用Word2Vec模型构建安全隐患词向量模型,从模型中获取各类安全隐患主要相关词,利用桑基图解释安全隐患在不同隐患地点、生产作业单位的特征分布,并进一步揭示相关安全隐患的细节特征。结果表明:词向量模型能有效发掘安全隐患特征,桑基图能突出呈现安全隐患的关键信息流动。上述措施有...
使用传统的神经网络的短文本分类算法对其进行情感分类易出现定位误差等问题。为了解决对短文本情感分类时存在的定位误差,本文通过将词向量模型(Word2vec)、双向长短时记忆网络模型(BiLSTM)以及卷积神经网络(CNN)按照一定的框架进行组合,提出了Word2vec-CNN-BiLSTM的短文本情感分类模型。Word2vec-CNN-BiLSTM模型采用对预处理后的文本进行向量化表示来提取文章特征向量,并在神经网络层进行双向语义捕捉实现文本的情感分类。实验结...
作者:段雨佳; 鞠婷 期刊:《电子科技》 2020年第01期
针对代码审查过程中的代码审查意见对于开发者可能无价值的问题,文中提出了一种基于深度学习长短期记忆网络的代码审查意见有效性评估方法。该方法通过提取代码审查意见中与审查意见有效性相关的特征,并根据这些特征构建评估模型,从而评估审查意见对于开发人员是否有价值。为了验证方法的有效性,文中选取了GitHub上开源Eclipse项目中的审查信息作为实验数据,并将所提方法与其它机器学习方法对比。实验结果表明,该方法可以有效评估...
作者:魏华; 李华飙 期刊:《科研信息化技术与应用》 2015年第06期
对文本的情感分析充分利用文本的语义信息,在文本检索领域、网上调查及舆情监测领域是非常有价值的,是目前智能信息处理领域研究的重点和热点。本文针对网民关于话题评论简单,数目众多的特点,应用大连理工大学情感词本体库,利用HowNet和word2vec扩展情感词典,利用短语模式计算文章的情感值,最终判断文章的情感倾向。利用这一技术可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。
作者:杨频; 潘岳镭; 贾鹏; 刘亮 期刊:《信息安全研究》 2020年第02期
目前基于机器学习的恶意软件检测方法其主要思路是通过静态分析和动态分析的方法提取特征,再选择机器学习分类器进行分类模型的训练.该方法的准确性取决于人工选择的特征质量,在选择的过程中会丢失有价值的特征信息,影响分类效果.针对这个问题,提出了一种基于汇编指令词向量特征的恶意软件检测模型.首先利用反汇编工具提取恶意软件的汇编指令,制定规则替换部分指令,减少复杂度.然后,通过自然语言处理中的词向量模型学习指令的相似...
作者:段立; 徐鸿宇; 王懿; 赵莉; 刘冲; 郭娇 期刊:《电力大数据》 2019年第12期
为了解决95598客服投诉工单的整理、归档等问题,其中包括:在人工进行归档的过程中出现的疏忽造成的归档随意问题,即归档准确性问题;人工对投诉工单进行差错点归纳的耗时问题,即效率问题;人工对客服投诉分析深度不足,无法精准快速定位用户诉求热点的问题,即深度问题。本文针对以上三个问题给出解决方案,采用word2vec和XGBoost相结合的方式达到对95598客服投诉工单精准归纳。在文本词向量化的过程中采用word2vec方法,得到单词的文本...
作者:翟剑锋 期刊:《电子技术与软件工程》 2019年第24期
本文利用基于BERT预训练语言模型来构建用户画像,对词向量进行语义加权得到用户特征,并进行实验分析。
作者:孙洪迪 期刊:《北京工业职业技术学院学报》 2019年第04期
随着计算机软硬件技术和人工智能技术的飞速发展,计算机人工智能技术在我国各领域的应用也越来越广泛,自然语言处理领域的人工智能技术也得到了前所未有的发展。在对Word2Vec开源库进行深入研究后,就其词汇语义相似度算法提出优化解决方案,提高了词汇语义相似度计算效率及准确率,并给出了优化后的实际测试结果。
作者:潘俊; 吴宗大 期刊:《情报学报》 2019年第11期
词汇语义表示是自然语言理解的基础。传统的基于语义词典的编码表示构建成本高昂,而独热表示又存在高维稀疏等缺点。词汇的分布式表示将词汇映射为低维稠密的实值向量,能有效捕捉词汇间的语义关联,是当前主流的表示技术。本文从数据特征、学习目标和优化算法三个方面,对现有的词汇表示学习方法进行了全面深入的分析,重点介绍了这些方法的理论基础、关键技术、评价指标及应用领域。此外,本文还总结了该方向面临的主要挑战以及最新研...
作者:张潇鲲; 刘琰; 陈静 期刊:《智能系统学报》 2019年第05期
针对信息网络(text-based information network)现有研究多基于网络自身信息建模,受限于任务语料规模,只使用任务相关文本进行建模容易产生语义漂移或语义残缺的问题,本文将外部语料引入建模过程中,利用外部语料得到的词向量对建模过程进行优化,提出基于外部词向量的网络表示模型NE-EWV(network embeddingbased on external word vectors),从语义特征空间以及结构特征空间两个角度学习特征融合的网络表示。通过实验,在现实网络数据...
作者:杨政; 易绵竹 期刊:《计算机系统应用》 2019年第10期
为更具体表义社会新词的情感含义及其倾向性,该文提出了一种基于词向量的新词情感倾向性分析方法.在信息时代不断发展变化中,由于语言应用场景不断发展变化以及扩展语义表达的丰富性,网络上不断出现很多表达情感的新词,但是这些新词的表达虽有丰富的含义但缺乏准确的定义,因此对其情感倾向性分析具有一定困难.该文在分析了新词发现方法和词向量训练工具Word2Vec的基础上,研究了基于Word2Vec的情感词新词倾向性分析方法的可行性和架...
作者:郭思成; 李纲; 周华阳 期刊:《情报理论与实践》 2019年第09期
[目的/意义]随着大数据环境下医疗信息化的飞速发展,医学数据类型和规模也不断增加。面对医学信息在该过程中出现的冗余、异构等现象,通过词表间映射进行知识组织系统的互操作可以实现语义消歧和概念逻辑上的统一。[方法/过程]以《中国中医药学主题词表》TC类、《中国图书馆分类法》R类向《中文医学主题词表》语义映射为例,依靠深度学习工具Word2Vec为技术手段,实现了实验对象词条的向量形式转化。在此基础上根据词向量相似度结果...
作者:仲思超; 朱磊; 蔡冰 期刊:《江苏通信》 2019年第05期
本文以大量WEB日志数据中的安全威胁事件检测为业务要求,对传统的基于规则匹配的Web入侵检测方式规则库维护成本高、较多人力成本且难以应对变种攻击的问题进行了研究。针对传统技术的不足,本文采用了机器学习和大数据平台相结合的方式,不需要人工设计复杂的特征,使用word2vec生成URL词向量,提取URL信息的语义特征作为特征向量,构建SVM、随机森林和LSTM检测模型发现WEB安全威胁事件。经过实验比较,我们的方法在真实数据集上的准确...
作者:陈泽宇; 黄勃 期刊:《计算机工程与应用》 2020年第01期
用户画像技术可以给企业带来巨大的商业价值。针对用户的历史查询词,利用词向量可以得到查询词在语义层次上的表达,但词向量模型对于同一个单词生成的词向量是相同的,使得该模型无法很好的处理一词多义的情况。因此,使用LDA主题模型为每个查询词分配主题,使查询词和其主题共同放入神经网络模型中学习得到其主题词向量,最后采用随机森林分类算法对用户基本属性进行分类构建用户画像。实验结果表明,该模型的分类精度要高于词向量模型...
作者:李浩; 刘永坚; 解庆; 唐伶俐 期刊:《计算机科学》 2019年第10期
实体关系抽取作为信息抽取的主要任务之一,其目的在于确定无结构文本中两个实体的关系类别。目前准确率较高的有监督方法由于需要大量的人工标注语料而受到了限制,而远程监督方法则通过知识库与文本集进行启发式对齐来获取大量关系三元组,这是解决大规模关系抽取任务的主要途径。针对目前远程监督关系抽取的研究未能充分利用句子上下文词语的高层语义,以及未考虑关系之间的依赖包含关系的问题,文中提出了一种基于多层次注意力机制...
作者:徐鑫鑫; 刘彦隆; 宋明 期刊:《小型微型计算机系统》 2019年第10期
传统词游走距离算法基于word2vec词向量以及词频特征向量计算文档距离,存在忽略词语语义的上下文语境以及无法充分提取词语中的语义信息等问题.因此,本文提出一种基于联合词句的文本相似度计算方法.该方法利用训练好的词向量和句向量构建特征权重系数,对词游走距离计算公式进行改进后,选取一定比例关键词的词向量与句向量计算词句转移成本,从而得到文档的文本相似度.通过三组对比实验表明,该方法的效果优于其他文本相似度计算方法...
作者:杨波; 杨文忠; 殷亚博; 何雪琴; 袁婷婷; 刘泽洋 期刊:《计算机工程与设计》 2019年第10期
由于微博短文本的高维稀疏和传统Single-Pass聚类算法对文本数据顺序敏感等问题,导致短文本聚类准确率较低。针对上述问题提出一种基于词向量和增量聚类的短文本聚类算法(improved single-pass algorithm based on word embedding,ISWE)。通过词向量模型得到文本的词向量矩阵,利用金字塔池化(spatial pyramid pooling,SPP)策略对文本词向量矩阵进行处理得到文本表示,使用改进的Single-Pass算法进行微博短文本聚类。实验结果表明,使...
作者:梁艳红; 坎启轩; 苏翌 期刊:《计算机工程》 2019年第10期
在对类别模糊的文本进行分类时,主题模型只考虑文档和主题级别信息,未考虑底层词语间的隐含信息,且多数主题信息复杂、中心不明确。为此,提出一种改进的文本分类方法。通过分位数选择中心明确的主题,将其映射到word2vec词向量空间内,对模糊文本进行分类操作,进而得到文本分类结果。实验结果表明,与C_LCD+KNN方法相比,该方法分类效果较好,鲁棒性较强。