首页 期刊 计算机应用研究 Spark框架结合分布式KNN分类器的网络大数据分类处理方法 【正文】

Spark框架结合分布式KNN分类器的网络大数据分类处理方法

作者:曹瑜; 王楠; 徐志超 哈尔滨金融学院计算机系; 哈尔滨150030; 吉林财经大学管信学院; 长春130117; 吉林大学计算机学院; 长春130012
分类处理   apache   spark   并行机制   数据挖掘  

摘要:针对现有大数据分类方法难以满足大数据应用中时间和储存空间的限制,提出了一种基于Apache Spark框架的大数据并行多标签K最近邻分类器设计方法。为了通过使用其他内存操作来减轻现有MapReduce方案的成本消耗,首先,结合Apache Spark框架的并行机制将训练集划分成若干分区;然后在map阶段找到待预测样本每个分区的K近邻,进一步在reduce阶段根据map阶段的结果确定最终的K近邻;最后并行地对近邻的标签集合进行聚合,通过最大化后验概率输出待预测样本的目标标签集合。在PokerHand等四个大数据分类数据集上进行实验,该方法取得了较低的汉明损失,证明了其有效性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅