首页 期刊 数据分析与知识发现 科技情报分析中LDA主题模型最优主题数确定方法研究 【正文】

科技情报分析中LDA主题模型最优主题数确定方法研究

作者:关鹏; 王日芬 南京理工大学经济管理学院; 南京210094; 巢湖学院应用数学学院; 合肥238000
lda主题模型   相似度   困惑度   科技情报分析  

摘要:【目的】有效确定科技情报分析中LDA主题模型的最优主题数目。【方法】利用主题相似度度量潜在主题之间的差异,同时结合困惑度提出一种确定LDA最优主题数目的方法,该方法既考虑主题抽取效果同时也考虑模型对新文档的泛化能力。【结果】获取国内新能源领域的科技文献作为数据集,实证结果表明本文提出的最优LDA主题数确定方法与单纯使用困惑度相比,具有更高的主题抽取查准率(91.67%)、F值(86.27%)及科技文献推荐精度(71.25%)。【局限】未针对其他类型的数据集进行新方法的验证,如微博短文本、XML文档等。【结论】本文方法能够有效地从科技文献数据集中抽取辨识度较高的主题,并能够提高科技文献推荐效果。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅