首页 期刊 自动化与仪器仪表 基于Rocchio和KNN提出的新的文本分类技术 【正文】

基于Rocchio和KNN提出的新的文本分类技术

作者:邱定; 张激; 王金华; 王盼盼; 游飞 中国电子科技集团公司第三十二研究所; 上海200233
knn   rocchio   svm   文本分类   区域划分  

摘要:针对Rocchio算法分类效果不理想,限定于对可划分空间地分类,和KNN对K值的选取过于依赖这些缺陷,提出了一个通过为整个分类空间建立不止一个代表的方法,并且根据数据集的具体数据分布,为整个分类空间建立不同个数的分类代表。有效解决了Rocchio线性地划分实例空间的造成数据划分不合理的问题,由构造的代表和每个类泛化的实例创建的分类模型有效提高了分类效率,而且解决了分类准确度依赖人工给定K值的问题,提高了分类的准确度。通过在20-newsgroup和Reuters-21578两个数据集上的实验,实验结果显示新的算法远优于Roechio和KNN分类算法,与选择的基准比较算法SVM相比效果略优。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅