首页 期刊 情报理论与实践 基于分布偏斜训练集的特征选择方法研究 【正文】

基于分布偏斜训练集的特征选择方法研究

作者:李湘东 曹环 黄莉 武汉大学信息管理学院 湖北武汉430072 武汉大学信息资源研究中心 湖北武汉430072 武汉大学图书馆 湖北武汉430072
分布偏斜   概率主题模型   特征选择   权重调整   文本分类  

摘要:针对传统特征选择方法在处理分布偏斜问题时存在的局限性,结合分布偏斜训练集自身的特点,探讨并提出基于改进的LDA模型的特征选择方法。新方法根据类别信息强度及类偏斜程度对特征项分配不同的权重来调整数据分布的不均衡性,并根据类交叠程度降低相似主题的权重,最后利用改进的LDA模型训练分类器。与传统特征选择方法相比,改进后的LDA模型方法在不同偏斜程度训练集上整体分类性能有1.1%至4.7%的提高。新方法可有效提高分布偏斜训练集的分类性能。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅