【免费】一种基于聚类的PU主动文本分类方法-发表之家

一种基于聚类的PU主动文本分类方法

作者：刘露彭涛左万利戴耀康吉林大学计算机科学与技术学院吉林长春130012 Department of Computer Science University of Illinois at Urbana-Champaign Urbana USA 符号计算与知识工程教育部重点实验室(吉林大学) 吉林长春130012

and 聚类 frequency inverse positive

摘要：文本分类是信息检索的关键问题之一．提取更多的可信反例和构造准确高效的分类器是PU（positive and unlabeled）文本分类的两个重要问题．然而，在现有的可信反例提取方法中，很多方法提取的可信反例数量较少，构建的分类器质量有待提高．分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法．与传统的反例提取方法不同，利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点，从未标识数据集中尽可能多地移除正例，从而可以获得更多的可信反例．结合SVM主动学习和改进的Rocchio构建分类器，并采用改进的TFIDF（term frequency inverse document frequency）进行特征提取，可以显著提高分类的准确度．分别在3个不同的数据集中测试了分类结果（RCVl，Reuters．21578，20Newsgoups）．实验结果表明，基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例，而且主动学习方法的引入也显著提升了分类精度．

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询免费咨询杂志订阅

热门期刊服务

中华转移性肿瘤中兽医医药中国仪器仪表中国疫苗和免疫中华医学遗传学中医当代医学·中国介入放射学中国医药中医学报中华移植中医外治中医儿科

软件学报

影响因子：2.86

期刊级别：北大期刊

发行周期：月刊

服务介绍

一种基于聚类的PU主动文本分类方法

软件学报

期刊咨询

订阅杂志

期刊推荐