作者:周康; 万良; 丁红卫 期刊:《计算机工程与应用》 2020年第04期
目前,恶意域名被广泛应用于远控木马、钓鱼欺诈等网络攻击中,传统恶意域名检测方法存在长距离依赖性问题,容易忽略上下文信息并且数据维度过大,无法高效、准确地检测恶意域名。提出了一种自编码网络(Autoencoder Network,AN)降维和长短期记忆神经网络(Long Short-Term Memory network,LSTM)检测恶意域名的深度学习方法。利用实现包含语义的词向量表示,解决了传统方法导致的数据表示稀疏及维度灾难问题。由word2vec构建词向量作为LS...
作者:刘胜杰; 许亮 期刊:《现代计算机》 2020年第01期
文本的表示是自然语言处理领域重要的工作,如何更好地表示文本语义是自然语言处理领域实际应用的重要基石。通过训练得到的词嵌入向量表示,可以认为其即代表单词本身及其含义。单词在不同语境下的含义不一样,不同的语境下涉及到一词多义问题,如何准确表示词嵌入向量以适应不同的语境也是目前研究的热点。目前词嵌入技术还处于初级阶段,还有很多问题值得深入研究。
在信息推荐系统中,传统的方法是通过对内容、行为去预测用户的兴趣点来实现信息推送。国内外研究实验结果表明,这种模型推荐性能较为显著,说明用户行为和内容是相关的。根据相关性的对称原理,文章提出了基于用户行为的Word2Vec协同推荐算法,通过神经网络模型来隐式地抽取商品和用户的相互关系并进行向量化表示,能够更好地计算商品和用户间的相似性,以达到提升模型的推荐效果和泛化能力。
作者:熊回香; 李跃艳 期刊:《情报科学》 2019年第12期
【目的/意义】学术网站是学者发现研究兴趣的有效途径,研究学者推荐与跨语言论文推荐有助于学者更好地开展学术研究。【方法/过程】利用论文之间的引用与被引关系分别爬取参考文献集合和被引文献集合,构建学者推荐与跨语言论文推荐模型。首先通过Word2vec算法模型生成候选相关学者集和候选相关论文集,计算Word2vec得分;然后分别进行加权处理,最终得到学者推荐列表和跨语言论文推荐列表。以CSSCI中的《中国图书馆学报》、《情报学报...
作者:孙洪迪 期刊:《北京工业职业技术学院学报》 2019年第04期
随着计算机软硬件技术和人工智能技术的飞速发展,计算机人工智能技术在我国各领域的应用也越来越广泛,自然语言处理领域的人工智能技术也得到了前所未有的发展。在对Word2Vec开源库进行深入研究后,就其词汇语义相似度算法提出优化解决方案,提高了词汇语义相似度计算效率及准确率,并给出了优化后的实际测试结果。
作者:梁柯; 李健; 陈颖雪; 刘志钢 期刊:《智能计算机与应用》 2019年第05期
本文利用Python语言,对25 000条英文影评数据进行文本分类。首先利用词袋模型对文本数据进行分类。在此基础上加入Word2Vec建立新的词向量特征,通过精准率和召回率对比前后2种模型的分类效果;最后通过逻辑回归和朴素贝叶斯分类模型的分类效果对照得出研究结论。结果表明:对于英文影评文本分类,在同等条件下,使用Word2Vec构建词向量模型的精准率和召回率比使用bag of Word词袋模型分别高出0.02个百分点和0.026个百分点;在使用Word2V...
作者:邬明强; 邬佳明; 辛伟彬 期刊:《计算机系统应用》 2020年第01期
随着网民的数量不断增加,用户上网产生的数据量也在成倍增多,随处可见各种各样的评论数据,所以构建一种高效的情感分类模型就非常有必要.本文结合Word2Vec与LSTM神经网络构建了一种三分类的情感分类模型:首先用Word2Vec词向量模型训练出情感词典,然后利用情感词典为当前训练集数据构建出词向量,之后用影响LSTM神经网络模型精度的主要参数来进行训练.实验发现:当数据不进行归一化,使用He初始化权重,学习率为0.001,损失函数选择均方...
作者:杨俊峰; 尹光花 期刊:《信息与电脑》 2019年第24期
文本特征提取对短文本聚类效果至关重要,针对传统的基于统计学习的特征提取方法仅停留在特征词的层面,无法表达文本上下文语义特征的问题。基于此,笔者提出了一种基于word2vec词向量和卷积神经网络(Convolutional Neural Networks,CNN)的文本特征提取方法用于短文本聚类,首先利用word2vec工具训练大规模语料库中的词语,以低维向量的形式表征,然后利用CNN提取文本的深层语义特征,得到能够用于聚类的文本特征向量。实验结果表明,该方...
作者:高鑫; 徐建; 胡建洪 期刊:《计算机与数字工程》 2020年第01期
为了提高新闻话题聚类精度,论文提出一种基于Word2Vec的改进密度峰值聚类算法。首先基于Word2Vec提出一种新闻文本的向量表示方法,然后针对密度峰值聚类算法存在的问题,提出一种基于KNN改进的密度峰值聚类算法。该算法首先基于KNN计算样本的局部密度,然后通过最小二乘法线性拟合选取初始聚类中心并对剩余样本进行指派形成聚类结果。在搜狐新闻数据集上的实验结果验证了该算法的有效性。
作者:杨进才; 杨璐璐; 汪燕燕; 沈显君 期刊:《计算机科学》 2019年第S11期
复句层次关系划分是复句句法结构分析以及语义甄别的基础,但关系词非充盈态复句由于关系标记的省略给层次划分带来了困难。文中利用依存关系句法树和word2vec词向量模型的方法来提取复句中分句的句法特征和语义特征,并利用神经网络进行训练,获得三句式关系词的非充盈态复句层次划分模型,对测试集中的复句进行层次划分测试,其准确率为74%。
作者:黄欣欣; 年梅; 胡创业; 范祖奎 期刊:《计算机时代》 2019年第11期
为了有效地提取评论文本特征,进行虚假信息的检测,采用卷积神经网络的方法进行虚假评论的识别。文章基于扩展Ott黄金数据集,通过word2vec将评论语料转换为词向量作为CNN的输入;按照虚假评论检测的实验效果,确定了卷积神经网络的向量维度和网络深度结构,形成卷积神经网络的优化模型。在同一数据集上与LSTM和GRU算法模型进行了对比实验,结果表明,卷积神经网络在虚假评论检测中有效。
基于文本等数据在计算机中是以二进制的形式存储而易于获取大量实验数据的情况,提出了一种基于神经网络的对二进制文本进行特征提取的模型。对获取到的二进制文本数据先使用合适大小及步长的滑动窗口进行取词处理,再使用Word2vec生成相应的词向量嵌入CNN,然后对生成的向量做降维处理,之后在池化层将其作为最后的特征进行输出,最后使用分类算法进行特征好坏的验证。相比于同领域内文本分类方法,所提方法大大提升了处理效率,且在精度...
作者:郑少婉; 陆培民 期刊:《信息技术与网络安全》 2018年第02期
研究了基于语义的裁判文书成分分割的方法,旨在在语义理解的基础上,从裁判文书中获取判决书信息、原告信息、被告信息、案件事实、原告诉求、被告辩称、法院认定证据、法院观点、法律依据、判决结果等信息,从而减少法官工作量,以及帮助人们更好地了解案件。通过两个部分详解了系统的构建以及分割的实现,系统构建主要包括线下裁判文书采集、语料库训练,以及线上的分析模块。
作者:姜天 期刊:《信息技术与网络安全》 2019年第07期
Webshell是攻击者使用的恶意脚本,其目的是升级和维护对已经受到攻击的Web应用程序的持久访问。然而,传统检测方法对于加密、混淆后的Webshell的识别效果较差。针对这一问题,提出了一种基于卷积神经网络的检测方法。该方法首先获得PHP文件对应的opcode,然后通过Word2vec算法得到字节码序列的特征词向量,最后经过卷积神经网络处理得到检测结果。实验结果表明,该方法在检测变种Webshell方面的表现优于其他算法,也证明了该方法的可行...
作者:马朋辉; 王雪宁; 李勇; 邵帅 期刊:《现代信息科技》 2019年第06期
本文主要研究了基于搜狗引擎用户浏览数据下的用户画像构建,我们具体地、标签化地、有针对性地描述了用户特征,并以此作为市场分析、商业决策、精准营销的依据。用户画像技术可以帮助搜索引擎更有针对性的服务用户。本文主要工作:一是对用户搜索数据集进行预处理,分词上我们选用了Jieba分词工具;二是特征词的选取采用了基于TF-IDF的向量空间模型;三是使用Word2vec将特征词转变为词向量;最后使用不同的分类器构建用户画像,我们在这...
作者:薛源 期刊:《计算机产品与流通》 2019年第05期
传统机器学习分词方法大都依赖人工设计的特征工程,需要大量的工作来验证这些特征的有效性,显然工作效率比较低。基于神经网络的深度学习算法逐渐兴起之后,使得自动学习文本特征成为一种可能。基于长短时记忆神经网络(LSTM)与条件随机场模型(CRF)相结合的中文自动分词模型是本文主要阐述内容。首先,利用工具Word2Vec从未标记的语料库中训练出字嵌入向量;其次,将上一步训练得到的字向量输入到LSTM并计算出其上下文表示向量;最后,再...
作者:蒋翠清; 郭轶博; 刘尧 期刊:《数据分析与知识发现》 2019年第02期
【目的】从社交媒体用户生成内容中发现未知情感词,构造领域情感词典,应用于汽车评论的情感分析。【方法】选取HowNet情感词典作为种子,以实际汽车评论作为语料,分别利用PMI和Word2Vec算法识别新词情感极性,根据集成规则对二者识别结果综合判定,通过情感分类实验对比显示本文算法的有效性。【结果】按照该方法构造的情感词典准确率比How Net情感词典提高21.6%,较分别使用PMI和Word2Vec算法构建的词典分别提升3.7%和2.1%,同时正面、...
作者:米硕; 田丰收; 孙瑞彬; 李欣 期刊:《中国战略新兴产业》 2018年第3X期
通过对RSS源的实时监控获取新闻,并通过自然语言处理与机器学习进行文章分类与搜索关键词的处理,而搜索匹配则采取双优先度排序,并根据辅助的Apriori算法增强搜索性能。同时使用基于LSTM的深度神经网络训练文本摘要自动生成神经网络,实现文摘生成的自动化。
[目的/意义]探讨基于Word2Vec模型提取关键词及以关键词共现的可视化分析方法在任意主题上科技短文的应用,以便对各科研领域做出有效的分析。[方法/过程]选取德国经济和能源部1991—2017年的光伏类科研项目数据为例,采用基于Word2Vec的方法提取关键信息,并进行可视化处理,分析了德国光伏产业的技术发展。[结果/结论]初步形成一套数据处理方法进行国外技术、经济等相关情报的快速分析。