【免费】针对训练集分布偏斜问题的数字资源文本分类方法-发表之家

针对训练集分布偏斜问题的数字资源文本分类方法

作者：李湘东何海红曹环黄莉武汉大学信息管理学院武汉430072 武汉大学信息资源研究中心武汉430072 武汉大学图书馆武汉430072

分布偏斜粒划分概率主题模型文本分类数字资源

摘要：【目的】调整训练集分布的不均衡性，以提高科学分类体系下数字资源文本的分类性能。【方法】提出基于粒划分和LDA相结合的新方法B-LDA，首先根据划分准则对训练集进行分割，实现粒度空间的转换，然后采用概率主题模型（LDA）对文本建模，利用类全局语义信息生成新文本，从而使训练集达到分布均衡。【结果】仿真实验结果表明：随着特征项数的变化，在不同偏斜程度训练集上F1值有2．7％至9．9％不等的提升。【局限】由于语料库规模的限制，构造训练集进行实验时，只涉及部分偏斜情况；此外，实验随机选取的两个类别的可分性会对新方法的分类性能造成影响。【结论】该方法可有效提高以图书书目信息、期刊题录信息、网页等数字资源为文本内容的分布偏斜训练集的分类性能。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询免费咨询

热门期刊服务

考试·自考版考试·综合版试题与研究传染病专题索引软件指南电脑知识与技术·经验技巧考试·双语读写中学英语园地·八九年级适用实践·党的教育版考试·高考试题设计版高中生学习·试题研究初中生学习指导

针对地摊经济的措施针对食堂浪费粮食现象建议

现代图书情报技术

影响因子：1.45

期刊级别：CSSCI南大期刊

发行周期：月刊

服务介绍

针对训练集分布偏斜问题的数字资源文本分类方法

现代图书情报技术

期刊咨询

订阅杂志

期刊推荐