首页 期刊 计算机工程 基于Map Reduce的序列模式挖掘算法 【正文】

基于Map Reduce的序列模式挖掘算法

作者:刘栋 尉永清 薛文娟 山东师范大学信息科学与工程学院 济南250014 山东省分布式计算机软件新技术重点实验室 济南250014 山东警察学院公共基础部 济南250014
云计算   并行处理   map   reduce模型   prefixspan算法  

摘要:传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅