作者:何佩佩; 谢颖华 期刊:《信息技术与网络安全》 2015年第24期
随着大数据时代的到来,传统的聚类算法很难高效地处理海量数据,而云计算平台凭借负载均衡、网络存储、虚拟化等技术,有效地突破了耗时耗能的瓶颈,为海量数据的处理提供了良好的解决方案。主要研究了Hadoop平台下的MapReduce编程模型及传统K-means算法,提出了一种基于MapReduce的并行化K-means算法的设计方案,包括Map函数和Reduce函数的设计。通过实验,验证了并行化K-means算法适用于较大规模数据集的分析和挖掘。
作者:陈伟锋 期刊:《计算机产品与流通》 2018年第04期
大数据环境下,数据挖掘技术不断发展,互联网技术发展过程中,电子商务也在迈入了崛起的历程,借助MapReduce编程模型处理流量数据是目前的主要研究方向,尤其是在大数据技术背景下,利用MapReduce编程模型,设计形成电子商务系统,可以更好地收集挖掘展开数据分析工作。本文从MapReduce编程模型的分布式大数据文件系统、具体构成、典型计算设计三个方面进行分析,以此为互联网应用提供良好的大数据基础技术。
作者:李楠; 于孟渤; 贾珍珍; 王一惠; 李昕宸; 邹淑雪 期刊:《通信技术》 2018年第04期
为了提高BP神经网络算法并行化速率,利用神经网络并行化思想,提出了一种基于Hadoop平台的改进MapReduce编程模型及并行化的实现。采用MapReduce编程模型,用神经网络训练集的一组样本的键/值替代单一键/值,通过分组标记将同一value值对应的reduce工作方式分散为多个reduce进行工作,实现各个任务节点并行处理大数据,从而减少了处理大规模数据集的运行时间。选用不同大小数据集进行测试,通过与传统的神经网络并行化进行对比,发现改进...
作者:鲍广慧; 张兆功; 李建中; 玄萍 期刊:《计算机研究与发展》 2016年第12期
相似自连接是一个在很多应用领域中很重要的问题.对于海量数据集,MapReduce可以提供一个有效的分布式计算框架,相似自连接操作也同样可以应用在MapReduce框架下.但已有研究工作仍然存在不足,如对于聚集数据区域采用加细划分方法,目的是负载平衡,但不易实现.现有的算法不能有效地完成海量数据集的相似自连接操作.为此提出了2个新颖的基于MapReduce的相似自连接算法,其思想是采用坐标过滤技术,形成有效候选集,以及针对聚集区...
作者:卞云超; 司秀丽 期刊:《中国农机化学报》 2016年第09期
针对K-means聚类算法需要先给定k值,在一些应用场景中最优k值是未知的问题,提出基于评价机制的自适应K-means算法(SAK-means),并将该算法的核心步骤改写成Mapper/Reducer的形式,部署在Hadoop集群中。经过试验,该算法能够根据数据集的分布情况适当修正k值,特别适用于处理批量的、大尺寸的、最优k值非固定的聚类分析任务,并以批量的柑橘红蜘蛛图像目标识别为例进行验证,结果表明使用SAK-means算法无需给出最优的聚类中心数目,在一...
作者:梁秋实 吴一雷 封磊 期刊:《计算机应用》 2012年第11期
在微博搜索领域,单纯依赖于粉丝数量的搜索排名使刷粉行为有了可乘之机,通过将用户看作网页,将用户间的"关注"关系看作网页间的链接关系,使PageRank关于网页等级的基本思想融入到微博用户搜索,并引入一个状态转移矩阵和一个自动迭代的MapReduce工作流将计算过程并行化,进而提出一种基于MapReduce的微博用户搜索排名算法。在Hadoop平台上对该算法进行了实验分析,结果表明,该算法避免了用户排名单纯与其粉丝数量相关,使那些更具"...
作者:黄斌 许舒人 蒲卫 期刊:《计算机工程与设计》 2013年第02期
MapReduce编程模型的简单性和高性价比使得其适用于海量数据的并行处理。然而,MapReduce欠缺对多数据源、组件复用以及数据可视化支持,这些缺点使用户在运用MapReduce框架进行数据挖掘时暴露出开发效率低下,重复开发等问题。提出了一种基于MapReduce的数据挖掘平台的设计与实现,该设计思想为Hadoop作为大规模数据计算平台在数据挖掘、数据可视化以及商业智能应用方面的不足提供了参考与弥补。同时,基于该方法实现了一个大规模...
作者:虞倩倩 戴月明 期刊:《计算机工程与应用》 2013年第14期
模糊C均值是一种重要的软聚类算法,针对模糊C均值的随着数据量的增加,时间复杂度过高的缺点,提出了一种基于MapReduce的并行模糊C均值算法。算法重新设计模糊C均值,使其符合MapReduce的基于key/value的编程模型,并行计算数据集到中心点的隶属度,并重新计算出新的聚类中心,提高了模糊C均值处理大容量数据的计算效率。实验结果表明,基于MapReduce的并行模糊C均值算法具有较高的加速比和扩展性。
作者:燕彩蓉 张洋舜 徐光伟 期刊:《计算机科学与探索》 2014年第07期
实体解析是指发现并聚合描述现实世界中同一对象的记录。纯粹的机器算法虽然可以获得较高的效率,但是准确率难以保证。提出了一种机器计算与众包相结合的实体解析方法。该方法首先采用MapReduce并行计算框架排除不可能匹配的记录对,减少人类智能任务的数量,然后由人工进行确定性标注。为了支持隐私保护,在众包计算时提出了基于角色的访问控制模型和重要信息隐藏策略。该方法和模型被应用于某医院患者主索引构建平台,实验结果...
作者:罗光明 期刊:《西华师范大学学报·哲学社会科学版》 2015年第01期
为了解决现阶段海量数据的传输效率低下的问题,设计了基于Hadoop的分布式文件系统.系统是基于Hadoop的架构进行研究的,用MapReduce编程模型实现海量数据的上传与下载,从而达到数据的高效传输,并对其进行了传输性能测试.通过测试,基于Hadoop的数据传输效率远远大于传统的数据传输效率,该系统具有一定的实用性.
作者:涂敬伟 皮建勇 期刊:《微型机与应用》 2015年第02期
随着大数据时代的到来,K最近邻(KNN)算法较高的计算复杂度的弊端日益凸显。在深入研究了KNN算法的基础上,结合MapReduce编程模型,利用其开源实现Hadoop,提出了一种基于MapReduce和分布式缓存机制的KNN并行化方案。该方案只需要通过Mapper阶段就能完成分类任务,减少了TaskTracker与JobTracker之间的通信开销,同时也避免了Mapper的中间结果在集群任务节点之间的通信开销。通过在Hadoop集群上实验,验证了所提出的并行化KNN方...
作者:闫晓妩 张继福 荀亚玲 赵旭俊 期刊:《小型微型计算机系统》 2015年第10期
约束频繁模式是利用用户给定的约束条件,生成的一种频繁模式,具有针对性强、挖掘效率高等特点.随着数据量的增大,约束频繁模式生成过程存在着占用内存大和I/O代价高等问题,难以适用于海量高维数据集.采用MapReduce编程模型。给出一种约束频繁模式并行挖掘MCFP算法.该算法首先,采用三对Map和Reduce函数实现了将数据中事务映射为频繁项计数、构建约束频繁模式树和生成约束频繁模式,以及频繁模式聚合等主要步骤;其次,根据...
作者:施亮 钱雪忠 期刊:《计算机工程与设计》 2015年第10期
传统的约束频繁项集挖掘方法无法实现对较大数据量的快速处理,针对该问题,结合分布式框架Hadoop的分布式计算优势,提出一种基于MapReduce的约束频繁项集挖掘算法。将一个完整的挖掘任务分成若干个相对独立的子任务,根据用户自定义的约束条件对子任务进行并行挖掘,提高算法的执行效率。实验结果表明,该算法具有较好的实用性和良好的扩展性。
作者:程广 王晓峰 期刊:《计算机工程》 2016年第02期
为解决传统关联规则挖掘算法在大数据环境下运行效率较低的问题,基于频繁模式增长(FP-growth)算法,提出一种面向大数据的并行关联规则增量更新算法。利用MapReduce编程模型与云计算平台,对FP-growth算法各步骤进行并行化处理。在增量更新挖掘过程中,使用已有的频繁项集和1-项集对新增事务集构建频繁模式树,通过扫描原始事务数据库完成频繁项集的更新。实验结果表明,与传统关联规则挖掘算法相比,该算法具有更高的挖掘效率和扩展性...