【免费】一种基于随机森林的多视角文本分类方法-发表之家

一种基于随机森林的多视角文本分类方法

作者：田宝明戴新宇陈家骏南京大学计算机软件新技术国家重点实验室、南京大学计算机科学与技术系江苏南京210093

计算机应用中文信息处理文本分类向量空间模型隐含狄利克雷分配

摘要：基于词的向量空间模型是文本分类中的传统的表示文本的方法。这种表示方法的一个缺点是忽略了词之间的关系。最近一些使用潜在主题文本表示的方法，如隐含狄利克雷分配LDA（Latent Diriehlet Allocation）引起了人们的注意，这种表示方法可以处理词之间的关系。但是，只使用基于潜在主题的文本表示可能造成词信息的损失。我们使用改进的随机森林方法结合基于词的和基于LDA主题的两种文本表示方法。对于两类特征分别构造随机森林，最终分类结果通过投票机制决定。在标准数据集上的实验结果表明，相比只使用一种文本特征的方法，我们的方法可以有效地结合两类特征，提高文本分类的性能。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询免费咨询杂志订阅

热门期刊服务

中兽医医药中华转移性肿瘤中华医学遗传学中医中国仪器仪表中国疫苗和免疫四川中医中医研究湖南中医中国翻译河北中医中华遗产

中文信息学报

影响因子：0.84

期刊级别：北大期刊

发行周期：月刊

服务介绍

一种基于随机森林的多视角文本分类方法

中文信息学报

期刊咨询

订阅杂志

期刊推荐