首页 期刊 中国科学技术大学学报 基于数据划分的k-近邻分类加速算法机理分析 【正文】

基于数据划分的k-近邻分类加速算法机理分析

作者:宋云胜; 王杰; 梁吉业 山西大学计算机与信息技术学院; 山西太原030006; 计算智能与中文信息处理教育部重点实验室(山西大学); 山西太原030006
数据划分   局部信息   实例子集   聚类  

摘要:k-近邻(kNN)分类算法因具有不对数据分布做任何假设、操作简单且泛化性能较强的特点,在人脸识别、文本分类、情感分析等领域被广泛使用.kNN分类算法不需要训练过程,其简单存储训练实例并根据测试实例与存储的训练实例进行相似度比较来预测分类.由于kNN分类算法需要计算测试实例与所有训练实例之间的相似度,故难以高效地处理大规模数据.为此提出将寻找近邻的过程转化为一个优化问题,并给出了原始优化问题与使用数据划分优化问题的最优解下目标函数差异的估计.通过对此估计的理论分析表明,聚类划分可以有效的减小此差异,进而保证基于聚类的k-近邻分类(DC—kNN)算法具有较强的泛化性能.在公开数据集的实验结果显示,DC—kNN分类算法在很大程度上为测试实例提供了与原始kNN分类算法相同的k个近邻进而获得较高的分类精度.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅