首页 期刊 科学技术与工程 基于DBSCAN聚类的改进KNN文本分类算法 【正文】

基于DBSCAN聚类的改进KNN文本分类算法

作者:苟和平 景永霞 冯百明 李勇 琼台师范高等专科学校信息技术系 海口571100 西北师范大学计算机科学与工程学院 兰州730070
k最近邻   文本分类   样本裁剪  

摘要:K最近邻算法(KNN)在分类时,需要计算待分类样本与训练样本集中每个样本之间的相似度。当训练样本过多时,计算代价大,分类效率降低。因此,提出一种基于DBSCAN聚类的改进算法。利用DBSCAN聚类消除训练样本的噪声数据。同时,对于核心样本集中的样本,根据其样本相似度阈值和密度进行样本裁剪,以缩减与待分类样本计算相似度的训练样本个数。实验表明此算法能够在保持基本分类能力不变的情况下,有效地降低分类计算量。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅