作者:卞涛; 罗泽; 马永征 期刊:《科研信息化技术与应用》 2016年第04期
中国科学院计算机网络信息中心与青海湖保护区管理局合作,共同建设了青海湖野外网络视频监控。如何高效地处理每天产出的超过100GB的视频数据成为了一个难题。现在的视频处理系统采用计算和存储相分离的架构,这需要配置较高的专门服务器进行支撑,本文基于廉价扩展性能较好的Hadoop平台对视频处理做出了分布式的实现,并对单个视频文件做出了分布式转码的实现。同时,本文将基于Hadoop的分布式视频处理的实现和基于HTCondor的分布式视...
针对大数据时代下企业文件的存储和检索难题,使用基于DHFS分布式文件系统实现企业内部文件的海量存储,采用ElasticSearch分布式索引技术对资源进行分布式索引和检索,构建一个高效的、分布式的企业文件检索框架。测试显示,在海量数据情况下,基于HDFS的文件系统检索时间约为传统Oracle数据库的1/20,并带有缓存功能。
为解决海量激光图像的检索问题,提出基于大数据分析的海量激光图像检索方法。大数据分析技术中的HDFS采用一个NameNode与数个DataNode组合的运行方式,将海量激光图像特征数据存储在HDFS中;采用基于MapReduce程序与相似度计算方法检索海量激光图像,利用Map读取存储在HDFS中的海量激光图像特征数据,并转换为Key/Value形式的数据特征,在Reduce任务中采用相似度计算方法获取HDFS中海量激光图像特征的形状、纹理、颜色相似度并排序,排序...
作者:梅俊 期刊:《信息技术与信息化》 2019年第10期
本文通过介绍Hadoop框架主要核心技术HDFS和Map Reduce,通过实例分析两大技术的运行过程及原理。使读者理解整个框架,了解Hadoop的优点及不足,并在此基础上做更深层次的算法研究。
本文主要对分布式教学资源平台进行了研究和设计,在遵循"松散耦合"思想的基础上完成了资源管理平台整体架构的设计,系统平台主要由基础设施、用户层、支撑平台、软件功能四部分构成,通过充分发挥HDFS技术的优势使软件开发的关键技术问题得以有效解决,在降低存储成本的同时提升访问速度及资源管理质量,从而提高了对数量庞大的教学资源的管理效率,为教学资源管理平台功能的完善提供参考。
作者:李杰; 施建辉; 徐培罡; 吴静阳 期刊:《测绘与空间地理信息》 2019年第12期
为解决土地督察大数据存储与管理问题,依据土地督察数据管理现状和实际需求,研究了分布式文件存储系统(HDFS),设计了土地督察数据库结构,基于VMware构建了虚拟化云计算环境,应用云储存技术搭建了私有云数据中心。研究了分布式架构下海量空间数据组织模型存储方案,制定了数据入库标准,开发了数据交换系统和数据审查与标准化处理工具,基于GIS插件式开发框架研发了土地督察数据库管理系统,实现了对海量专题数据库的统一建立、安全存储...
作者:何海林; 皮建勇 期刊:《信息技术与网络安全》 2015年第11期
虽然以Map Reduce和Hadoop分布式系统(HDFS)为核心的Hadoop已在大规模数据密集的商业领域成功应用,但是对于多个并行操作之间重用工作数据集却表现不佳。作为对其的一种补充,本文介绍了Spark。首先介绍Hadoop的Map Reduce与HDFS基本概念与设计思想,然后介绍了Spark的基本概念与思想,并且着重介绍了弹性分布式数据集RDD,并通过实验证明和分析对比了Hadoop与Spark。
作者:聂沛; 陈广胜; 景维鹏 期刊:《测绘工程》 2018年第11期
高光谱影像数据量大、结构复杂,利用集群对海量数据进行分布式存储成为研究热点,但当前研究多将影像像元数据与元数据分离存储,导致系统内聚性差,影响数据存取性能,同时没有充分考虑上层各种遥感算法的数据访问需求,使得系统可用性不高。针对上述问题,基于HDFS(分布式文件系统)模型提出一种分布式影像存储模型,将整个影像数据模型存储在同一个结构中,提升系统内聚性,并且提供灵活的数据分块策略以供上层应用调用,满足多种数据访...
作者:屈艳玲 期刊:《广东开放大学学报》 2015年第01期
因特网的发展促进了现代数字图书馆的兴起。而数字资源的建设又是现代图书馆发展的基石。图书馆面临资源分布参差不齐、存储费用高,馆际资源共享性低的现状。随着云计算的发展,可以设计基于云存储的数字资源服务框架,从而达到为图书馆节省资源,提高服务质量的目的。
为提高现代煤炭企业海量数据存储的效率,设计了一种基于HDFS(Hadoop Distributed File System)的煤炭企业云存储平台。该平台在分布式文件存储系统中增加小文件处理模块,可实现小文件的判断以及合并处理,并将其应用于云存储技术,以提高煤炭企业海量数据的处理效率。介绍了云存储平台文件系统HDFS的架构功能以及小文件模块的实现方案,并在此基础上重点阐述了云存储平台的基本配置和系统设计。
作者:占永红; 王东; 吴丽莎; 王淋漓 期刊:《能源与环保》 2017年第12期
随着电网规模的日趋复杂以及电网规模的快速增长,电力生产与信息化有了深度的融合,电网监测数据变得日益庞大,电力设备在线监控系统的数据存储面临着巨大的挑战。针对电力设备监测数据存储存在的问题,采用HDFS对电力设备监测数据存储设计进行研究,研究了基于HDFS的电力设备监测数据存储系统构架,系统构架主要由计算层、数据接入和存储层组成;提出了一致性哈希存储算法,该算法优化了HDFS的数据分布策略;分析了HDFS数据块的...
作者:张珍 期刊:《电子技术与软件工程》 2019年第06期
本文首先对系统设计的支撑性技术进行了概述,其次阐述了系统的设计需求和主要架构,最后重点对系统的云存储管理功能设计进行了分析,详细阐述了应用Hadoop中的HDFS构建实验室云存储管理体系的设计过程,并对系统的测试效果进行了简要分析。
[目的/意义]针对基于HDFS的图书馆特色数字资源云存储系统性能提升的"瓶颈"问题,提出更优化的体系方案。[方法/过程]在原有的HDFS体系的基础上,添加"元数据服务器"来分担名称节点元数据访问的任务量,进而优化整个系统的性能,同时提出改进后体系元数据访问的算法。再通过性能测试,比较改进后的体系与原体系在整体系统性能上的区别。[结果/结论]性能测试结果显示,"元数据服务器"的添加极大减轻了名称节点的负荷,确实能够提升整...
作者:陈伟 期刊:《长春师范大学学报》 2018年第04期
在HDFS默认放置策略中,放置副本时未考虑节点实时负载,易导致集群系统负载不均衡。由于放置副本采用随机方式,易造成存放副本节点网络距离过大,影响系统的数据传输性能。针对以上问题,本文提出一种改进的副本放置策略,该策略综合考虑节点CPU使用率、内存使用率、带宽使用率等负载指标,结合节点网络距离,对节点进行综合性能评价,最终寻找最佳副本存放节点。实验表明,与默认副本放置策略相比,该策略可提高集群数据传输效率,在负载均...
大数据时代下,数据量的增长速度会超过储存数据介质容量的增长速度,那么储存代价会不断上升,储存介质的成本在不断增加。面对这种巨大的数据生成量传统数据管理系统中的数据处理技术受到了极大挑战。如何更高效,稳定的储存这些数据成为数数据处理等许多领域研究的热点。本文从范德蒙行列式出发,利用范德蒙码以及范德蒙行列式特有的运算性质,优化并拓展了大数据时代最常见的动态分布式文件系统HDFS,将其优化为VanDHDFS。利用范德蒙...
作者:尹铁源; 张瑞琴 期刊:《信息通信》 2018年第04期
为了快速在浩如烟海的网页里定位用户感兴趣的信息,提出基于Hadoop的网页文本聚类的算法,网页文本以key, value形式存储到分布式文件系统(HDFS),使用基于统计的方法进行分词操作,去噪,特征提取,构建向量空间模型,提出基 于MapReduce实现改进的k-means聚类算法.经实验验证,不同減的数据集实现分布式计算,数据集越大,聚类效果越好.
大数据的价值在于分析,但是如何存储和分析几百TB以上的数据集就成了一个关键问题。Hadoop开源项目便提供一个可靠的大数据集存储和分析系统,其中HDFS实现存储,Map Reduce实现数据处理。这两部分是Hadoop项目的核心。本文便是对这两个部分的介绍。
针对智慧城市电力设备巡检系统数据量激增, 无法安全高效地采集、存储与分析的问题,基于智能电网中电力系统各设备巡检监控规程和云计算技术及云存储平台的建设, 通过建立云存储平台Hadoop及分布式文件系统(HDFS) 的云存储模型,并应用C语言、基于STruts2框架、采用Maven单元测试工具等方法, 设计并实现一套应用于智能电网的电力设备巡检监控数据的云存储系统。经测试表明,所设计的系统可实现电力系统各设备巡检监控数...
作者:王大志 期刊:《信息技术与信息化》 2019年第08期
本文尝试构建一种基于HDFS的跨集群分布式文件系统,分别在小文件存储和负载均衡两个方面进行改进,提升HDFS分布式集群存储小文件的效率,降低NameNode元数据存储压力。
作者:王辉; 唐俊勇 期刊:《工业仪表与自动化装置》 2017年第05期
通过分析HDFS和Dynamo,该文引入动态一致性哈希算法,对不同对象组实现分类处理,根据各个存储节点的存储代价综合调度,选择最优存储节点实现移动终端云存储访问。经仿真实验验证:云存储系统的多副本机制能够有效提高系统效率,当移动终端发出请求时,选择最近的副本能够有效节省时间。