作者:马蕾; 冯锡炜; 窦予梓; 高天铸; 朱睿; 吴衍兵 期刊:《计算机技术与发展》 2020年第02期
网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动的在网页上对大量数据的数据信息的收集、解析、格式化存储的过程,提出了基于分布式的网络爬虫技术。采用Nutch爬虫框架和Zookeeper分布式协调服务,配合高性能的Key-Value数据库Redis对数据进行存储,采用Solr引擎将抓取信息进行清晰地索引、展示。运用提取页面信息算法优化提取页面信息流程,通过关键词匹配优化算法根据指标从抓取的数据中获取指标相关数据。...
作者:罗松飞; 王梓成 期刊:《科技资讯》 2019年第33期
随着监控摄像头数量的几何式增加,传统的仅依靠人工实时观看监控信息已力不能及。无人值守系统是一种不需要大量人工干预的智能监控系统,它可以自动检测视频中目标,并通过报警的方式提醒工作人员。系统通过运动目标检测、目标定位、Hash图像匹配、人脸识别等功能实现无人值守。服务器采用分布式集群架构设计,实时完成前端智能摄像头传送特征参数到后台进行匹配的任务。最后,也简单设计了无人值守监控系统的数据库。
作者:王卓昊; 杨冬菊; 徐晨阳 期刊:《计算机科学》 2019年第12期
随着数据仓库的规模不断扩大,数据集成下的ETL(Extraction-Transformation-Loading)任务也随之增多,单机调度显然已经不能满足当下繁多复杂的ETL任务调度。针对ETL任务调度如何提高效率、缩短关键任务等待时间、提升资源利用率等问题,构建了一套分布式ETL任务调度框架,该框架由调度器和若干执行器组成,通过任务预处理、任务调度分配、任务执行3个阶段来完成ETL任务调度。在任务预处理阶段,对ETL任务建立权重模型,并根据权重确定调...
作者:樊玮; 张伟 期刊:《中国民航大学学报》 2019年第03期
为了快速分析航空客票人在机票销售市场中所扮演的角色,为不同类型的人制定相应的合作与销售方案,针对传统分类方法主观性过强以及集中式系统框架难以进行海量数据聚类分析的问题,提出分布式Canopy-K-means算法对航空客票人销售数据进行聚类,并将聚类结果结合市场实际情况进行推测,得到人在市场中的角色。结果表明,聚类结果与相关人的考核结果相符合,具有实际意义,可为航空公司的人管理提供参考。
作者:屈志坚; 彭翔; 王群峰; 王汉林 期刊:《电力自动化设备》 2019年第04期
针对分布式配电自动化系统存在数据量井喷、海量监测数据缺乏高效的分布式故障容错机制的问题,提出一种血统链标记容错新方法。利用弹性分布式数据集、微批计算的记录级容错和血统链标记序列融合处理的设计技巧,实现了分布式数据容错中血统链的追溯和条件标记的自动选择。以铁路配电网监测采集的数据为算例,搭建了4机集群的调度监控平台进行容错测试。以发生频次最高的单数据节点故障为例,测试结果表明:对于包含3×10^6条监测数据记...
基于图像自动匹配技术的实景三维建模,近年来得到广泛应用,该类建模主要包含连接点提取、影像对选择、空间方位定向、连接点匹配、光束法平差、构建不规则三角网、三角网的优化与光滑,纹理映射等关键步骤。整个流程中对计算机硬件的要求各异,部分流程需要多核多线程,部分流程以单核运算为主。如何最大限度的利用计算机资源,完成实景三维建模工作值得思考。文章从实景三维建模关键技术流程和硬件主要指标进行简要的分析,分析内容主...
作者:贾成强; 刘婷婷; 贾静; 冯焱 期刊:《铁路计算机应用》 2019年第07期
设计铁路客运电子支付投诉问题处理系统,解决旅客投诉退款处理时间较长的问题。利用虚拟化技术、基于内存的分布式集群技术,结合铁路网络情况和客票系统、电子支付平台架构,实现各业务、技术部门在统一平台系统下联合处理投诉问题。在保证铁路资金安全的前提下,该系统可以有效地提高投诉退款问题处理效率,缩短跨部门跨系统的流转审核时间,最终缩短投诉办理时间。
作者:莫鑫; 胡强 期刊:《现代电视技术》 2019年第02期
在互联网新媒体与传统电视台竞争加剧,IPTV与有线电视竞争加剧的行业环境下,电视台制播技术系统如何优化业务流程和后台设计,为节目创作提供便捷高效的服务平台是一个值得电视技术人员深思的问题。本篇将以湖南广播电视台全台网为例,介绍针对不同业务需求的全台网弹性业务模式。
作者:侯晓芳; 王欢; 李瑛 期刊:《中国电子科学研究院学报》 2018年第03期
为了对海量电子日志数据进行有效处理,提出一种基于HIVE和分布式集群的综合解决方案。首先,从需求分析出发,阐述了分布式集群搭建、虚拟机的Flume配置和HIVE数据处理;然后,进行数据采集和清洗、业务逻辑处理及优化、数据合并与查询。实验以统计分析网站访问排名为例,对具体的表结构和实施过程进行描述,并验证其可行性。结果表明:与其他框架相比,所提大数据综合处理方法在数据采集和日志处理方面更效率,且省去了处理业务逻辑的大量...
作者:屠雪真; 杨海潮 期刊:《计算机与现代化》 2019年第07期
Kubernetes的诞生,降低了应用开发者对基础架构和运维团队的依赖,为其提供了强大的工具来编排和调度容器及虚拟机,已经成为分布式集群系统开发及管理的事实标准。Kubernetes通过核心组件HPA(Horizontal Pod Autoscaler)监测集群中CPU和内存的使用情况,并依据这些指标来对微服务集群进行扩容和缩容。但是这些简单的度量指标不能满足实际应用的扩缩容诉求,虽然在社区的最新版本中已经做出了改进,实际效果依然差强人意。本文在原生平...
作者:龙文佳; 肖敏; 刘义 期刊:《电脑编程技巧与维护》 2019年第01期
eGoBuy商城是一个的B2C购物平台,商城主要的功能是实现用户的在线商品浏览、购物,以及管理员对商品的管理。区别与常规的电商购物平台,eGoBuy商城解决高可用、高并发、高性能和海量数据存储问题。eGoBuy商城架构采用分布式架构、集群和基于SOA面向服务的方式。使用数据库Redis做缓存、搭建Solr集群做全文搜索服务器、Zookeeper做注册中心、FastDFS做图片上传服务器、Dubbo做服务中间件、ActiveMQ做消息队列、FreeMarker做与商品详...
作者:朱天放; 梁明; 王家乐; 杨志浩; 李亚敏 期刊:《电子设计工程》 2019年第09期
针对大型深度学习项目所需计算量大、调整算法工作复杂的问题。本文提出了一种基于容器云的深度学习平台设计方案。该方案主要采用Kubernetes计算资源的快速扩容。部署GlusterFS速率。同时利用Prometheus框架丰富容器云集群的监控指标,保证深度学习模型的训练效果。系统设计完成后,通过手势识别项目验证了平台的有效性。试验结果表明,基于容器云的深度学习平台比传统的分布式深度学习系统自动化程度更高、可用性更强,能有效满足大...
作者:厉柏伸; 李领治; 孙涌; 朱艳琴 期刊:《计算机科学》 2018年第04期
结合TF-IDF算法思想,提出了特征频率、森林频率以及伪梯度提升决策树,解决了梯度提升决策树随着迭代次数的增加,错误数据被边缘化的问题。在伪梯度提升决策树中,所有决策树分别在原始数据集的Bootstrapping后的数据集上产生,无须针对每次迭代来对数据集采样。在分布式集群上进行内网防御的实验,结果表明在一定规模的训练集上,伪梯度提升决策树具有更好的预测准确度。
作者:方志杰; 卿粼波; 吴晓红; 张余强 期刊:《现代计算机》 2017年第18期
网络化在油田信息系统中的普遍应用,大大地提高油田的生产效率,方便油田工作者随时、及时地查阅最新的油田生产信息,降低信息获取的成本,提高从事油田开发的人员的工作效率。但随着时间的迁移,每年都有大量的数据录入油田信息系统的数据库之中,久而久之,数据量逐渐变地庞大,在海量数据的前提下,频繁的查询操作导致数据库面临的压力越来越大。为了缓解数据库的压力,增加数据的查询速度,采用分布式Memcached缓存技术实现...
作者:刘烁阳; 周丽娟; 任仲山; 张树东 期刊:《计算机工程与应用》 2017年第02期
在HDFS系统中,集群负载分配不均衡成为影响分布式文件存取速度的瓶颈。针对医院信息系统的负载现状,提出多属性双阈值决策的动态负载均衡算法,对分布式集群中使用HDFS默认的单属性评价、单阈值的负载均衡策略存在的缺陷加以改进。通过负载性能测试,对比证明运用多属性双阈值的负载均衡算法相比较HDFS默认的负载均衡更有利于将大量的影像负载数据相对均衡地分配到服务器集群中的各个节点上,大幅度地缩短了增加数据规模时数据服...
作者:鲍彤 陈维锋 卢磊 期刊:《信息通信》 2013年第08期
随着网络技术的发展,用户的数据量呈现指数级的增长,产生的海量数据单靠一台高性能的计算机存储,成本很高,不适合大部分的用户。基于Hadoop分布式集群平台,在构建低价的硬件上,成本低,应用场合广泛,能够满足海量数据存储的需求。介绍了Hadoop发展前景趋势和三大核心技术,详细分析了分布式集群的构建方法,成功构建分布式集群平台。
作者:唐建智 任应超 杨崇俊 沈磊 谢安涛 范协裕 期刊:《计算机应用研究》 2011年第08期
针对当前网络地理信息系统(WebGIS)中存在的效率问题和服务器端压力过大的问题,提出了基于FastCGI的多进程、分布式集群的WebGIS构建方案。详细介绍了该方案中服务器端地图服务器的体系结构、功能模块、工作流程以及集群部署实现。在此基础上实现了符合OGC标准规范的基于FastCGI分布式集群Web-GIS平台,并进行了性能测试,同时在实际项目中对该方案进行了验证。结果表明,相比于当前其他模式的Web-GIS,基于FastCGI多进程、分布式集...
本文从典型的非编制作网谈起,分析了适合不同业务需求下的不同网络架构。从典型的广电网络架构到未来高带宽性能扩展,从广电业务系统与业务系统、广电业务系统与办公系统之间互联的角度对广播电视系统做了较为深入探讨和说明。
作者:赵勇 李有福 李小龙 刘鹏 田文洪 期刊:《电子科技大学学报》 2014年第03期
科学工作流为科学计算提供了工作流定义、流程管理和任务并行化等支持,高性能计算为大规模数据处理提供了集群管理、任务管理、资源调度等机制.如今正进入一个“大数据”时代,将科学工作流系统与高性能计算结合实现高性能计算平台上大规模并行计算具有重要意义.集成中间件与上层工作流系统和底层高性能计算平台进行交互,提供任务提交与状态监控功能。同时,集成方案为分布式集群中计算平台提供新的参考实现.基于上述分析以Sw...