首页 期刊 信息技术 基于Hadoop的并行Apriori算法 【正文】

基于Hadoop的并行Apriori算法

作者:谢建峰; 孙剑伟 华北计算技术研究所系统五部; 北京100083
mapreduce   并行apriori算法   数据挖掘  

摘要:针对经典Apriori算法及其改进算法不能有效处理大规模数据集,提出基于Hadoop-MapReduce编程模型的两种改进算法:HAprioriK,HApriori2。其中HAprioriK需要k个MapReduce Jobs,而HApriori2仅需要2个就能在整个数据集上找到频繁k项集,两种改进算法均充分利用了Hadoop平台的计算优势,可以轻松地处理大量数据。采用IBM的数据集进行改进算法有效性的研究,实验结果表明,HApriori2算法在不同规模的数据集和支持度下,能够有效地挖掘频繁项集,具有比HAprioriK更好的性能。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅