首页 期刊 西北工业大学学报 一种基于LDA主题模型的话题发现方法 【正文】

一种基于LDA主题模型的话题发现方法

作者:郭蓝天; 李扬; 慕德俊; 杨涛; 李哲 西北工业大学自动化学院; 陕西西安710072
词向量   lda模型   话题发现   困惑度  

摘要:话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题分布不均导致主题不明确的问题,提出一种基于LDA( latent dirichlet allocation )主题模型的 CBOW-LDA 主题建模方法,通过引入基于 CBOW (continuous bag-of-word)模型的词向量化方法对目标语料进行相似词的聚类,能够有效降低LDA模型输入文本的维度,并且使主题更明确。通过在真实数据集上计算分析,与现有基于词频权重的词向量化LDA方法相比,在相同主题词数情况下困惑度可降低约3%。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅