mapreduce编程模型论文10篇_发表之家

首页文献资料

云环境下K-means算法的并行化

作者：何佩佩; 谢颖华期刊：《信息技术与网络安全》 2015年第24期

随着大数据时代的到来,传统的聚类算法很难高效地处理海量数据,而云计算平台凭借负载均衡、网络存储、虚拟化等技术,有效地突破了耗时耗能的瓶颈,为海量数据的处理提供了良好的解决方案。主要研究了Hadoop平台下的MapReduce编程模型及传统K-means算法,提出了一种基于MapReduce的并行化K-means算法的设计方案,包括Map函数和Reduce函数的设计。通过实验,验证了并行化K-means算法适用于较大规模数据集的分析和挖掘。
大数据技术支持下的电子商务系统的MapReduce架构设计与分析

作者：陈伟锋期刊：《计算机产品与流通》 2018年第04期

大数据环境下,数据挖掘技术不断发展,互联网技术发展过程中,电子商务也在迈入了崛起的历程,借助MapReduce编程模型处理流量数据是目前的主要研究方向,尤其是在大数据技术背景下,利用MapReduce编程模型,设计形成电子商务系统,可以更好地收集挖掘展开数据分析工作。本文从MapReduce编程模型的分布式大数据文件系统、具体构成、典型计算设计三个方面进行分析,以此为互联网应用提供良好的大数据基础技术。
基于改进MapReduce模型的BP神经网络并行化研究

作者：李楠; 于孟渤; 贾珍珍; 王一惠; 李昕宸; 邹淑雪期刊：《通信技术》 2018年第04期

为了提高BP神经网络算法并行化速率,利用神经网络并行化思想,提出了一种基于Hadoop平台的改进MapReduce编程模型及并行化的实现。采用MapReduce编程模型,用神经网络训练集的一组样本的键/值替代单一键/值,通过分组标记将同一value值对应的reduce工作方式分散为多个reduce进行工作,实现各个任务节点并行处理大数据,从而减少了处理大规模数据集的运行时间。选用不同大小数据集进行测试,通过与传统的神经网络并行化进行对比,发现改进...
基于MapReduce的相似自连接新方法：过滤和内切圆算法

作者：鲍广慧; 张兆功; 李建中; 玄萍期刊：《计算机研究与发展》 2016年第12期

相似自连接是一个在很多应用领域中很重要的问题.对于海量数据集，MapReduce可以提供一个有效的分布式计算框架，相似自连接操作也同样可以应用在MapReduce框架下.但已有研究工作仍然存在不足，如对于聚集数据区域采用加细划分方法，目的是负载平衡，但不易实现.现有的算法不能有效地完成海量数据集的相似自连接操作.为此提出了2个新颖的基于MapReduce的相似自连接算法，其思想是采用坐标过滤技术，形成有效候选集，以及针对聚集区...
基于MapReduce的新聚类算法在农业领域的应用——以柑橘红蜘蛛图像目标识别为例

作者：卞云超; 司秀丽期刊：《中国农机化学报》 2016年第09期

针对K-means聚类算法需要先给定k值,在一些应用场景中最优k值是未知的问题,提出基于评价机制的自适应K-means算法（SAK-means）,并将该算法的核心步骤改写成Mapper/Reducer的形式,部署在Hadoop集群中。经过试验,该算法能够根据数据集的分布情况适当修正k值,特别适用于处理批量的、大尺寸的、最优k值非固定的聚类分析任务,并以批量的柑橘红蜘蛛图像目标识别为例进行验证,结果表明使用SAK-means算法无需给出最优的聚类中心数目,在一...
基于MapReduce的微博用户搜索排名算法

作者：梁秋实吴一雷封磊期刊：《计算机应用》 2012年第11期

在微博搜索领域,单纯依赖于粉丝数量的搜索排名使刷粉行为有了可乘之机,通过将用户看作网页,将用户间的＂关注＂关系看作网页间的链接关系,使PageRank关于网页等级的基本思想融入到微博用户搜索,并引入一个状态转移矩阵和一个自动迭代的MapReduce工作流将计算过程并行化,进而提出一种基于MapReduce的微博用户搜索排名算法。在Hadoop平台上对该算法进行了实验分析,结果表明,该算法避免了用户排名单纯与其粉丝数量相关,使那些更具＂...
基于MapReduce的数据挖掘平台设计与实现

作者：黄斌许舒人蒲卫期刊：《计算机工程与设计》 2013年第02期

MapReduce编程模型的简单性和高性价比使得其适用于海量数据的并行处理。然而，MapReduce欠缺对多数据源、组件复用以及数据可视化支持，这些缺点使用户在运用MapReduce框架进行数据挖掘时暴露出开发效率低下，重复开发等问题。提出了一种基于MapReduce的数据挖掘平台的设计与实现，该设计思想为Hadoop作为大规模数据计算平台在数据挖掘、数据可视化以及商业智能应用方面的不足提供了参考与弥补。同时，基于该方法实现了一个大规模...
基于MapReduce的并行模糊C均值算法

作者：虞倩倩戴月明期刊：《计算机工程与应用》 2013年第14期

模糊C均值是一种重要的软聚类算法，针对模糊C均值的随着数据量的增加，时间复杂度过高的缺点，提出了一种基于MapReduce的并行模糊C均值算法。算法重新设计模糊C均值，使其符合MapReduce的基于key／value的编程模型，并行计算数据集到中心点的隶属度，并重新计算出新的聚类中心，提高了模糊C均值处理大容量数据的计算效率。实验结果表明，基于MapReduce的并行模糊C均值算法具有较高的加速比和扩展性。
支持隐私保护的众包实体解析

作者：燕彩蓉张洋舜徐光伟期刊：《计算机科学与探索》 2014年第07期

实体解析是指发现并聚合描述现实世界中同一对象的记录。纯粹的机器算法虽然可以获得较高的效率，但是准确率难以保证。提出了一种机器计算与众包相结合的实体解析方法。该方法首先采用MapReduce并行计算框架排除不可能匹配的记录对，减少人类智能任务的数量，然后由人工进行确定性标注。为了支持隐私保护，在众包计算时提出了基于角色的访问控制模型和重要信息隐藏策略。该方法和模型被应用于某医院患者主索引构建平台，实验结果...
基于Hadoop的分布式文件系统实现

作者：罗光明期刊：《西华师范大学学报·哲学社会科学版》 2015年第01期

为了解决现阶段海量数据的传输效率低下的问题,设计了基于Hadoop的分布式文件系统.系统是基于Hadoop的架构进行研究的,用MapReduce编程模型实现海量数据的上传与下载,从而达到数据的高效传输,并对其进行了传输性能测试.通过测试,基于Hadoop的数据传输效率远远大于传统的数据传输效率,该系统具有一定的实用性.
基于MapReduce和分布式缓存的KNN分类算法研究

作者：涂敬伟皮建勇期刊：《微型机与应用》 2015年第02期

随着大数据时代的到来，K最近邻（KNN）算法较高的计算复杂度的弊端日益凸显。在深入研究了KNN算法的基础上，结合MapReduce编程模型，利用其开源实现Hadoop，提出了一种基于MapReduce和分布式缓存机制的KNN并行化方案。该方案只需要通过Mapper阶段就能完成分类任务，减少了TaskTracker与JobTracker之间的通信开销，同时也避免了Mapper的中间结果在集群任务节点之间的通信开销。通过在Hadoop集群上实验，验证了所提出的并行化KNN方...
MapReduce编程模型下的约束频繁模式挖掘算法

作者：闫晓妩张继福荀亚玲赵旭俊期刊：《小型微型计算机系统》 2015年第10期

约束频繁模式是利用用户给定的约束条件，生成的一种频繁模式，具有针对性强、挖掘效率高等特点．随着数据量的增大，约束频繁模式生成过程存在着占用内存大和I／O代价高等问题，难以适用于海量高维数据集．采用MapReduce编程模型。给出一种约束频繁模式并行挖掘MCFP算法．该算法首先，采用三对Map和Reduce函数实现了将数据中事务映射为频繁项计数、构建约束频繁模式树和生成约束频繁模式，以及频繁模式聚合等主要步骤；其次，根据...
基于MapReduce的约束频繁项集挖掘算法

作者：施亮钱雪忠期刊：《计算机工程与设计》 2015年第10期

传统的约束频繁项集挖掘方法无法实现对较大数据量的快速处理,针对该问题,结合分布式框架Hadoop的分布式计算优势,提出一种基于MapReduce的约束频繁项集挖掘算法。将一个完整的挖掘任务分成若干个相对独立的子任务,根据用户自定义的约束条件对子任务进行并行挖掘,提高算法的执行效率。实验结果表明,该算法具有较好的实用性和良好的扩展性。
基于MapReduce的并行关联规则增量更新算法

作者：程广王晓峰期刊：《计算机工程》 2016年第02期

为解决传统关联规则挖掘算法在大数据环境下运行效率较低的问题,基于频繁模式增长（FP-growth）算法,提出一种面向大数据的并行关联规则增量更新算法。利用MapReduce编程模型与云计算平台,对FP-growth算法各步骤进行并行化处理。在增量更新挖掘过程中,使用已有的频繁项集和1-项集对新增事务集构建频繁模式树,通过扫描原始事务数据库完成频繁项集的更新。实验结果表明,与传统关联规则挖掘算法相比,该算法具有更高的挖掘效率和扩展性...

热门标签

热门期刊