首页 期刊 湖南师范大学自然科学学报 基于LDA与距离度量学习的文本分类研究 【正文】

基于LDA与距离度量学习的文本分类研究

作者:詹增荣; 程丹 广州番禺职业技术学院; 中国广州511483; 广州体育职业技术学院; 中国广州510650
文本分类   距离度量学习   隐含狄利克雷分布   主题模型  

摘要:提出了一种基于隐含狄利克雷分布(LDA)与距离度量学习(DML)的文本分类方法,该方法利用LDA为文本建立主题模型,借助Gibbs抽样算法计算模型参数,挖掘隐藏在文本内主题与词的关系,得到文本的主题概率分布.以此主题分布作为文本的特征,利用DML方法为不同类别的文本学习马氏距离矩阵,从而较好的表达了文本之间的相似性.最后在学习到的文本间距离上,利用常用的KNN及SVM分类器进行文本分类.在经典的3个数据集中的实验结果表明,该方法提高了文本分类的准确率,并且在不同的隐含主题数目参数下能体现较好的稳定性.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅