作者:韩肖赟; 侯再恩; 孙绵 期刊:《计算机工程与科学》 2020年第01期
针对短文本上以LDA为主的传统主题模型易受特征稀疏、噪声以及冗余影响的问题,首先梳理了文本特征表示法的变化以及短文本上主题模型的发展现状,并系统地总结了LDA模型和狄利克雷多项混合模型(DMM)各自的生成过程和相应的吉布斯采样参数推导。关于主题模型最优主题数,选取常见的4种优化指标进行了详细的对比说明。最后分析了近2年主题模型的扩展研究和其在网络舆情上的简单应用,并以此指明了未来主题模型的研究方向和侧重点。
作者:过小宇; 丁建伟; 江泓; 陈周国 期刊:《信息技术》 2020年第03期
新兴暗网零网(ZeroNet)是一种使用比特币加密技术和比特流(BitTorrent)协议构建的抗审查P2P网络,用户规模不断扩大。鉴于ZeroNet去中心化、抗审查等暗网的技术特点,从ZeroNet的体系结构分析入手,基于模拟登陆的方式设计并开发了ZeroNet文本抓取系统;采用半监督隐狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型针对ZeroNet网站中占比最大的博客和论坛文本数据中的中英文的文本数据进行建模分析;进一步,对比无监督LDA主题模...
作者:李超; 李昂; 朱耿良 期刊:《信息通信技术与政策》 2014年第07期
智慧城市依赖于对大数据的充分利用。近年来,随着移动互联网的发展,在线微博平台,比如新浪微博、Twitter等,已经成为了大数据的主要来源之一。微博平台上产生的海量短文文本信息使用户很难找到自己感兴趣主题的相关信息。本文提出了一种基于限制性玻尔兹曼机的微博短文本的主题分类方法。通过对短文本进行主题建模,挖掘出潜在主题信息,根据短文本的潜在主题信息可实现对短文本的主题分类。
本文以知网数据库中管理工程和情报学共12本CSSCI期刊5年的论文作为数据,通过AT主题模型、相似度计算识别学科间交叉主题并对其相似程度进行测度。实验表明,AT主题模型可以挖掘两个学科间交叉研究主题,并提供一定的语义描述。通过对比关键词共现的方法,本文的方法可以提供交叉研究主题更多的语义特征,并便于判断高相似度的研究主题。
作者:张亚楠; 黄晶丽; 王刚 期刊:《情报学报》 2019年第10期
通过为科研人员构建科研行为画像,科研人员能够便捷地使用各种个性化科研服务,促进科研人员提高科研效率。已有的研究往往将画像问题简单地抽象为多分类问题,没有考虑到信息的充分利用和画像更新问题。为此,本研究提出了一种考虑全局和局部信息的科研人员科研行为画像方法,引入深度学习方法,借助深度学习自动从数据中提取高度抽象特征的特点,提取科研人员局部画像,结合全局信息构建科研人员的立体精准画像。最后,使用科研社交平台...
作者:居亚亚; 杨璐; 严建峰 期刊:《计算机应用研究》 2019年第12期
潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词-单词和文档-主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相...
作者:邹丽雪; 王丽; 刘细文 期刊:《图书情报工作》 2019年第23期
[目的/意义]概率主题模型算法在不断得到改进与扩展,本文对国内外已有的利用引文构建的主题模型进行研究,分析和对比不同模型的生成过程与算法,并探讨利用引文构建的主题模型在科技文本分析中的应用与可扩展的研究方向。[方法/过程]通过Web of Science数据库和CNKI数据库获取国内外利用引文构建主题模型的相关文献,经人工判读后筛选出具有代表性的文献,对这些文献中利用引文构建的主题模型,从建模思想、生成过程、参数估计与推断算...
作者:尹红; 陈雁; 李平 期刊:《中文信息学报》 2019年第11期
关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题熵的关键短语提取算法。该算法利用隐含狄利克雷分布训练文档和词的主题分布,并结合两个主题分布来表示特定文档下的词主题分布,然后计算词主题分布的信息熵即主题熵来表示词语自身影响力,最后在词共...
作者:梁若愚; 张凌浩 期刊:《包装工程》 2019年第24期
目的基于主题模型与关联算法,研究中文环境下服务于产品设计迭代的缺陷挖掘方法。方法以网络产品社区作为研究对象,利用数据挖掘技术抓取社区用户的贡献内容,归纳面向产品缺陷分析的语法结构与候选词集,使用主题模型分析语料库中所包含的主题(产品属性)数量以及各个主题下的关键词分布,利用关联算法与紧凑规则找出每个主题下的强关联规则,解析后获得产品缺陷信息。结果通过对小米4型智能手机用户贡献内容的实证分析,识别出了该产品...
作者:伍哲; 杨芳 期刊:《计算机技术与发展》 2020年第01期
随着网络的发展,主题提取的应用越来越广泛,尤其是学术文献的主题提取。尽管学术文献摘要是短文本,但其具有高维性的特点导致文本主题模型难以处理,其时效性的特点致使主题挖掘时容易忽略时间因素,造成主题分布不均、不明确。针对此类问题,提出一种基于TTF-LDA(time+tf-idf+latent Dirichlet allocation)的学术文献摘要主题聚类模型。通过引入TF-IDF特征提取的方法,对摘要进行特征词的提取,能有效降低LDA模型的输入文本维度,融合学...
作者:贾宁; 郑纯军 期刊:《计算机科学》 2019年第S11期
针对传统音乐推荐过程中存在的分类准确率较低、周期较长、难以满足人们在生活中对主题音乐的需求等问题,设计了一种注意力机制与长短期记忆(Long Short-Term Memory,LSTM)相结合的神经网络模型,它由音乐主题模型和音乐推荐模型构成,在使用注意力机制和LSTM网络实现音乐情感分类的基础上,音乐主题模型有效地组合了音频码本和主题模型,实现了对某个情感下的音乐主题子类的判别。音乐推荐模型则利用低级描述符(Low-Level Descriptor,...
作者:郝予实; 范玉顺 期刊:《清华大学学报·自然科学版》 2019年第11期
Web服务系统中大量无使用记录的服务和不断的新创建服务被称为冷启动服务。为了帮助服务组合开发者了解冷启动服务的特性,提高冷启动服务的关注率与使用率,从而增强服务系统的元素多样性和系统鲁棒性,该文提出了一种冷启动服务协作关系挖掘与预测方法。该方法利用服务描述重构和功能主题分析为每个服务建立功能属性向量。对非冷启动服务,基于其历史协作关系和功能属性向量为其建立协作属性向量。通过对冷启动服务功能属性向量与非...
作者:黄玲毅; 林和志; 韩知行 期刊:《东南传播》 2019年第10期
在"一带一路"倡议中,福建担负着建设海上丝绸之路核心区的重任.新加坡是东盟中的重要国家,与福建有着长期的经贸联系,而在海外媒体上塑造良好形象,有助于双方经贸文化交流.本研究基于NOW语料库,采用主题模型的研究方法,对新加坡主流英文媒体(以《海峡时报》为例)上关于福建的新闻报道进行分析,以期了解福建在新加坡媒体上的形象构建情况.在新发展环境下,福建省的政府部门、传播机构、学术组织等应相互协作,明确福建形象的内涵与特...
作者:梁艳红; 坎启轩; 苏翌 期刊:《计算机工程》 2019年第10期
在对类别模糊的文本进行分类时,主题模型只考虑文档和主题级别信息,未考虑底层词语间的隐含信息,且多数主题信息复杂、中心不明确。为此,提出一种改进的文本分类方法。通过分位数选择中心明确的主题,将其映射到word2vec词向量空间内,对模糊文本进行分类操作,进而得到文本分类结果。实验结果表明,与C_LCD+KNN方法相比,该方法分类效果较好,鲁棒性较强。
作者:李阳; 吕欣 期刊:《信息安全研究》 2016年第12期
互联网+时代的到来,社会网络被赋予了全新的内涵与功能,其中关键节点在拓扑结构中占据了重要的位置,在社会网络中承载着重要的功能.随着社会网络中数据规模的不断增加,关键节点的承载数据蕴含了重要的价值,立足对关键节点的挖掘,发挥关键节点在社会网络中的导向作用,有利于了解社会网络的运行机理与规律,进一步创新社会网络治理方式,使之更好地服务于我国的经济社会.
作者:熊继平; 叶童; 叶灵枫 期刊:《信息技术与网络安全》 2019年第01期
为了解决场景识别中存在的类内差异性与类间相似性问题,提出一种基于主题模型的对象判别特征的场景识别方法。首先,使用双卷积神经网络模型提取图像的全局空间特征和对象特征;然后用主题模型的方法对对象特征进行描述,将非欧几里得空间中的判别向量投影到欧几里得空间,得到对象判别图像描述符;最后将全局空间特征和对象判别图像描述符相融合,并采用分类器进行分类。实验结果表明,所提出的方法具有更好的场景分类性能。
作者:余璇; 孙伟; 张翔 期刊:《信息技术与网络安全》 2017年第19期
传统的LDA主题模型没有考虑词频对主题分类的影响,使得主题分布向高频词倾斜。为了综合考虑词频和主题间的相关性,文中利用互信息能够表达变量间相关性的特点,在互信息基础上改进作为特征选择方法,利用评价函数评价特征词的权重值改进LDA算法分类过程,提高对主题分类贡献度高的特征词的作用。通过在新闻语料库上的分类实验证明了该方法的有效性,同时表明分类的准确率也有所提高。
作者:李梦萦; 宋海玉; 王泽宇 期刊:《中国高新科技》 2016年第02期
随着成像技术和存储技术的发展,电子图像数据呈现爆炸式增长。为了方便快捷地利用这些图像资源,自动图像标注技术应运而生。场景理解的核心任务是通过根据给定一组固定的场景词汇来对场景图像数据集进行自动标注,是计算机视觉的主要研究方向之一。
作者:赵永标; 张其林; 谷琼 期刊:《现代信息科技》 2019年第14期
在线挖掘可比语料是构建大规模可比语料库的可行途径之一,在线可比度计算是语料挖掘过程中的关键环节。本文提出一种融合词汇重合度和主题模型的在线可比度计算方式,主题模型选择能够进行在线学习的Online LDA,利用词对齐工具GIZA++进行主题映射,融合方式为加权求和。在下载的中英新闻语料上的测试结果表明,两种计算方式融合后的准确性比两种都要高。
根据用户在政府数据开放平台的评论反馈,通过主题分类进行情感分析,明确平台提供服务的用户满意度及存在的问题,为优化开放数据平台的建设提供新的分析思路。利用LDA模型对武汉市政府数据开放网站的用户评论数据进行主题提取,结合深度神经网络进行评论分类,并在此基础上进行情感分析,对不同类型的评论情感差异进行探讨。LDA模型共提取9个分类主题,结合情感分析结果,2个主题的情感趋向是满意状态,7个主题的情感趋向是一般或不满意状...