作者:李海林; 邬先利 期刊:《情报学报》 2019年第10期
针对现有研究对文献主题发现和演化分析方法的单一性,本文提出了基于时间序列聚类的主题发现与演化分析方法。该方法首先通过共词分析找出文献数据集中高频关键词的共现矩阵,利用Ochiia系数计算方法将共现矩阵转换为相似性矩阵,然后使用近邻传播聚类算法发现文献主题。同时,再将主题在某段时间内的研究热度进行分析并转化为反映主题热度时间序列数据,结合时间序列聚类方法对各主题进行分类以及演化趋势的分析。实验结果表明,通过对...
作者:左丽娟 期刊:《计算机产品与流通》 2017年第11期
以我本人比较喜欢的访谈类节目为例,探讨了自动切分生成小视频并自动生成标题的方案。提出了一种在无字幕情况下,结合对话信息的语音识别和视频人脸标注技术实现对访谈类视频进行切分和标注的方案。根据实验结果,本算法可以有效得完成对实验视频的切分和标注,具有推广的潜力。基于S4VM算法,实现了对上述方案的推广方案。可以使用少量的标注样本,较为准确的完成对同样信息不足难于处理的视频的切分和标注,兼顾了准确率和查全率。提...
作者:谢宗彦; 黎巎; 周纯洁 期刊:《情报科学》 2018年第06期
【目的/意义】随着旅游网站的增加,游客的网络评论日益增多。针对传统方法在旅游短文本评论主题分类时出现特征维度过高和数据稀疏等问题,本文提出一种基于卷积神经网络和SOM的旅游评论主题发现方法。【方法/过程】首先采用词向量来进行文本表示,降低了特征维度过高问题;其次,通过卷积神经网络对评论文本提取高阶的抽象特征;最后在通过SOM模型基于提取到的抽象特征对主题进行聚类。【结果/结论】实验结果表明,CNNSOM算法较传统文本...
作者:李梦杰; 刘建国; 郭强; 李仁德; 汤晓雷 期刊:《上海理工大学学报》 2018年第03期
如何通过有效的数据挖掘对互联网教育平台中的课程主题进行挖掘、聚类是当前互联网教育亟待解决的问题之一。实验基于文本信息对某互联网教育平台的1 472门课程体系的主题分布及类别进行了分析。采集了某平台1 472门课程的描述信息,进而通过自建词典和停用词库对文本进行切词分词,并通过TF-IDF对词频权重进行处理。利用LDA主题模型对课程的主题分布进行识别,发现了230个主题,并得到了每门课程在这230个主题下的文档–主题分布以及...
作者:王曰芬; 王一山 期刊:《现代情报》 2018年第09期
在网络舆情内容的传播过程中,各种物理上独立的舆论会话在传播要素上可能存在着语义关联,并且传播要素之间的相互影响对舆情传播内容的演变具有重要作用。本文从网络舆情的传播阶段中传播要素的相互影响入手,以传播内容为主要研究对象,以社群网络中的关键节点及其传播主题为分析单元,将生命周期理论和关键节点识别相结合,并选择新浪微博作为数据来源,采集舆情事件信息,构建舆情事件生命周期各阶段的社会网络并提取关键节点,借助LDA...
作者:张弦; 杨建林 期刊:《大学图书情报学刊》 2018年第02期
互联网技术的发展带来更多信息安全问题,构建完善的网络信息安全法律法规体系,有助于保障国家及社会公共利益。对比分析中美两国现行网络信息安全立法文本主题,有助于了解两国网络信息安全立法现状,为完善和发展国内网络信息安全立法提供借鉴。文章利用LDA—Gibbs模型,对中美两国网络信息安全相关立法文本进行主题挖掘,基于文本一主题分布采用欧氏距离计算文本相似度,并进行K—Means聚类。研究结果表明:早期国内立法集中于...
作者:俞琰; 赵乃瑄 期刊:《图书情报工作》 2018年第21期
摘要:[目的/意义]针对专利主题分析中以词为基本单位会造成专利中的多词术语难以被识别、主题模型结果不佳的问题,提出融入术语的专利主题发现模型,以解决该问题。[方法/过程]模型首先引入类别熵,有效地识别出专利文献中的术语;然后利用泛化波利亚瓮模型增加语义相似术语分配到同一主题的概率,以缓解术语作为基本主题模型分析单位所带来的数据稀疏性问题。[结果/结论]实验结果表明本文提出的模型包含的术语信息提高了主题...
作者:蔡莉; 潘俊; 魏宝乐; 周怡帆; 李英姿 期刊:《小型微型计算机系统》 2018年第09期
签到数据是包含经纬度位置信息和文本内容的微博数据,这些数据对于基础设施规划、土地价值评估和消费推荐都有十分重要的作用.本文提出了一种新颖的可视化交互系统CIDVis.CIDVis使用AC-DBSCAN算法对签到数据进行聚类,发现用户签到较为频繁的热点区域,并利用百度地图API动态展示这些区域的时空变化趋势,探索微博用户的签到模式.接着,利用中文分词,特征值提取等文本挖掘技术对微博内容进行情感评分,获得各个热点区域的用户情...
作者:张景; 朱国宾 期刊:《计算机科学》 2018年第04期
Stack Overflow是一个热门的国外编程问答网站,通过对该网站编程提问帖的问题文本进行文本语义挖掘,能获析用户关注的编程热点。由于研究对象所代表的短文本信息具有高维性及分布不均的特点,易导致主题获取不明晰。文中提出一种基于LDA(LatentDirichletAllocation)主题模型的CBOW-LDA建模方法,该方法对目标语料进行相似词聚类后再完成主题建模,能有效降低文本输入维度,使主题分布更明确。采集Stack Overflow网站上2010-2015年的问...
关于热词的分析提取,主要根据特征词的权重评估一字词对于一个文件集或一个语料 库中的重要程度.在信息技术中,传统的TF-IDF函数得到广泛运用.在文中分类中,有学者提 出TF-IGM 函数,即量化词项使用词频和文档重力力矩来判断一个特征是否有区分度,文中针对 TF-IGM 函数进行改进研究.
作者:唐晓波; 邱鑫 期刊:《数据分析与知识发现》 2015年第07期
[目的]帮助消费者从海量的评论集合中识别高质量评论。[方法]利用LDA主题模型对消费者关注的主题进行分类,借鉴改进的自动摘要的思想,追踪评论主题下的高质量评论,提出面向主题的高质量评论挖掘模型。[结果]自动提炼出每个主题下的高质量评论,其准确率、召回率和F1值分别为80.73%、64.90%和71.95%,并通过实证研究证明该模型的有效性和优越性。[局限]仅与部分典型模型作对比,其他模型方法还未进行验证。[结论]该模型能...
作者:叶川; 马静 期刊:《数据分析与知识发现》 2015年第11期
【目的】发现微博中图片或视频等多媒体内容的主题特征。【应用背景】多媒体微博的文本内容普遍简短且主题通常蕴含在图片或视频等多媒体内容中,传统的文本挖掘方法不适用于这种多媒体类微博。【方法】通过热点评论扩充该多媒体微博的文本空间,并使用LDA主题模型进行分类推断与主题特征挖掘,使用“主题标签一特征词”的形式表达微博多媒体内容的主题特征。【结果琐用爬虫工具采集的99823条新浪微博构建训练集,151条热门多媒体...
作者:张申旭; 黄震华 期刊:《现代计算机》 2017年第13期
微博已经成为讨论社会热点事件的重要网络场所,对在海量微博文本中能有效挖掘出热点主题的研究是具有重要意义的。分析微博的数据特征,结合微博里的表情、评论数、点赞数等几个特征,通过情感分析与LDA建模,提出一套基于多特征的微博热点主题发现算法。实验结果表明,此方法可以有效挖掘出微博热点主题。
近年来随着互联网的迅猛发展,社交网络已经成为越来越多的民众表达想法和观点的主要平台。网络中的舆论对现实社会的影响也越来越明显,因此及时追踪和发现网络热点主题及主题的变化规律也变得越来越重要。为了从通过大量的网络文本中分析出主题及其演化趋势,需要进行主题发现,主题跟踪,可视化分析。在主题发现中,LDA拥有强大的数学概率基础,已经成为比较流行的一种重要的技术手段。采用LDA技术进行主题发现,在主题模型LDA挖掘的基...
作者:谢翌; 孙宇清; 沈雷 期刊:《小型微型计算机系统》 2016年第11期
异构性、结构性和动态性是复杂社会网络的本质特征,研究网络的社团结构有助于发现复杂网络中的信息传播规律、热点话题和权威用户.网络成员参与的主题讨论是导致社团演化的重要因素,而社团变化又带来社团主题变迁,研究主题引导下的社团结构演化,对基于社交的商品推荐、热点预测等问题有重要现实意义.针对主题驱动的社团演化问题,详细讨论了复杂网络节点关系和紧密度,以及社团发现算法,阐述了主题分析模型和主题驱动的社团...
作者:赵华; 章成志 期刊:《图书馆论坛》 2016年第07期
通过对在线社交网络上图书馆用户生成内容(UGC)的分析,可以从宏观上更好地了解我国图书馆机构关注的热点话题及其演化情况。文章以新浪微博为数据源,获取一定时段我国图书馆微博的内容数据,依据作者主题模型获取候选主题,通过对候选主题进行聚类确定合适的话题数,根据作者主题模型结果计算相邻时间片主题之间的相似度,在此基础上分析主题的演化,最终完成不同图书馆主题分布及演化的差异分析。实证研究结果表明:目前我国图书馆微...
作者:王庆福; 王兴国 期刊:《无线互联科技》 2016年第11期
目前国内存在各种类型的舆论平台,以资讯类舆论平台为主,咨询类平台的受众通常都会对咨询进行评论,分析提取评论中主题内容,对评论信息进行分类分析。了解当前网民的核心诉求具有非常重要的意义。主题模型作为主题发现中重要的模型手段,对主题的定位具有明显的效果。
作者:赵琦 张智雄 孙坦 许雁冬 期刊:《情报理论与实践》 2009年第04期
介绍了主题发现的技术思路,同时分析了主题发现的相关核心技术及典型应用系统,最后提出了主题发现待解决的一些问题。
作者:任艳 期刊:《沈阳工业大学学报》 2016年第03期
为了应对微信息舆情数据的格式复杂、价值稀疏和收集困难等大数据处理技术难题,基于隐含语义分析和粗糙集近似约简理论,设计微信息的数据区间值集和近似匹配分类算法.在不影响数据主要关联关系的原则下,提炼核心属性、消减次要属性,实现一种微信息异常主题倾向的发现方法.结果表明,该近似约简算法能在完成微信息兴趣倾向主题分类的前提下,将数据集属性大幅度缩减,提高微信息的信息挖掘效率,为微信息大数据舆情处理工作提...