首页 期刊 智能计算机与应用 基于交叉熵与困惑度的LDA-SVM主题研究 【正文】

基于交叉熵与困惑度的LDA-SVM主题研究

作者:薛佳奇; 杨凡 西安建筑科技大学信息与控制工程学院; 西安710055; 西安建筑科技大学理学院; 西安710055
中文影视剧本   isomap降维   lda   交叉熵   困惑度  

摘要:目前对于中文影视剧本的分类主要借助人工经验,具有成本高、效率低等特点.当前没有针对中文影视剧本主题自动分类的相关研究,本文将对主题提取进行研究,传统主题生成模型借助于文档和段落、段落和语句、语句和词的相似性,而忽略了文本语句与语句之间的相似性.首先,采用ISOMAP方法降低样本集的向量空间维度;其次,提出交叉熵结合困惑度的算法模型,进而确定LDA需要提取的最优主题数目;最后,通过剧本-主题的方式,利用LDA算法挖掘剧本的隐含主题词,同时利用SVM对主题词做出进一步的分类.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅