首页 期刊 现代图书情报技术 针对训练集分布偏斜问题的数字资源文本分类方法 【正文】

针对训练集分布偏斜问题的数字资源文本分类方法

作者:李湘东 何海红 曹环 黄莉 武汉大学信息管理学院 武汉430072 武汉大学信息资源研究中心 武汉430072 武汉大学图书馆 武汉430072
分布偏斜   粒划分   概率主题模型   文本分类   数字资源  

摘要:【目的】调整训练集分布的不均衡性,以提高科学分类体系下数字资源文本的分类性能。【方法】提出基于粒划分和LDA相结合的新方法B-LDA,首先根据划分准则对训练集进行分割,实现粒度空间的转换,然后采用概率主题模型(LDA)对文本建模,利用类全局语义信息生成新文本,从而使训练集达到分布均衡。【结果】仿真实验结果表明:随着特征项数的变化,在不同偏斜程度训练集上F1值有2.7%至9.9%不等的提升。【局限】由于语料库规模的限制,构造训练集进行实验时,只涉及部分偏斜情况;此外,实验随机选取的两个类别的可分性会对新方法的分类性能造成影响。【结论】该方法可有效提高以图书书目信息、期刊题录信息、网页等数字资源为文本内容的分布偏斜训练集的分类性能。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社