首页 期刊 信息周刊 基于 Hadoop 的图书信息处理与分析 【正文】

基于 Hadoop 的图书信息处理与分析

作者:吴萨 西南民族大学创新创业学院
mapreduce   hadoop   分布式计算   数据处理与分析  

摘要:MapReduce算法是一种适用于分布式计算模型中的基于键-值对的一种算法。其根本思想是将一个大数据集(通常是T5级)分为小的模块分别进行并行计算,最后通过整合规约,得出结果。Hadoop是一个支持MapReduce算法思想的分布式框架,它提供方便的API接口使开发人员能够快速进行分布式程序的开发,而无需关心底层细节。基于在本课程中对MapReduce算法的学习与探究,本文中我们主要介绍了MapReduce算法以及Hadoop的基本架构,构建Hadoop伪分布式平台,并在此基础上设计算法处理并分析了一个图书信息数据集。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社