首页 期刊 软件学报 一种基于聚类的PU主动文本分类方法 【正文】

一种基于聚类的PU主动文本分类方法

作者:刘露 彭涛 左万利 戴耀康 吉林大学计算机科学与技术学院 吉林长春130012 Department of Computer Science University of Illinois at Urbana-Champaign Urbana USA 符号计算与知识工程教育部重点实验室(吉林大学) 吉林长春130012
and   聚类   frequency   inverse   positive  

摘要:文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM主动学习和改进的Rocchio构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3个不同的数据集中测试了分类结果(RCVl,Reuters.21578,20Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅