作者:王曙燕; 张海清; 孙家泽 期刊:《西安邮电大学学报》 2019年第05期
针对粒子群算法生成组合测试用例消耗时间过长的问题,提出一种并行化粒子群算法生成两两组合测试用例的方法。基于大数据平台Spark,将全部需要被覆盖的两两组合进行分组,并下发到集群中各个节点上进行寻优操作;采用one-test-at-a-time策略与自适应粒子群算法相结合的方式进行寻优;待各个节点寻优结束后,利用Spark进行结果收集,并对收集后的用例集进行约简操作。实验结果表明,该方法有效地减少了生成两两组合测试用例集的消耗时间。
作者:石明翔; 彭建辉; 赖力; 上官陈媛; 郭磊 期刊:《计算机时代》 2020年第02期
为了解决长途客车日益严重的超载问题,设计实现了基于Hadoop的客车超载监测系统。利用大数据处理、图像识别和人脸检测等技术对车载人员数量进行远程核查,从而避免超载现象的发生。文章介绍了系统的设计与架构,着重阐述了如何在Hadoop集群下解决"视频关键帧提取"、"Spark Streaming与Opencv结合实现人脸检测"、"MapFile实现小文件合并"等问题,最后通过实验对比证明了系统具有良好的效率及可扩展性。
作者:樊建昌; 余粟 期刊:《软件导刊》 2020年第01期
为了解决服务器运行过程中由于性能故障造成服务质量下降的问题,提出一种基于决策树的日志分析方法,以服务器日志文件中记录服务器关键性能指标的数据为研究对象,利用决策树中常用的ID3、C4.5和CART 3种算法预测服务器未来性能指标发展趋势。实验结果表明,在实际运行过程中,C4.5算法对服务器性能指标数据预测的准确率和召回率最好,分别达到了92.23%和95.37%,在3种决策树算法中拥有最高的准确率与召回率,且相比传统开发人员从日志文...
作者:冯亚伟; 黎建辉 期刊:《科研信息化技术与应用》 2016年第05期
食源性疾病是指通过摄食而进入人体的有毒有害物质(包括生物性病原体)等致病因子所造成的疾病,一般具有感染性或中毒性。爆发检测的目标是根据收集得到的医院病例数据判断是否有同构性的食源性疾病爆发。本文采用基于并查集[1]的MPI并行[2]DBSCAN算法来检测聚集性的食源性疾病爆发,可以在1分钟完成25万病例数据集的聚集性爆发检测,比原始的单机DBSCAN算法速度快了100倍。本文设计了S-K-CPS算法(Spark下的[3]K-CPS算法)来检测食...
作者:王锐君; 黎建辉 期刊:《科研信息化技术与应用》 2016年第06期
在传统的数据挖掘过程中,用户需根据专业知识对数据进行预处理,为模型设定参数后构建模型,通过评估指标判断模型是否可行。该过程的不便性体现在模型以黑盒的方式构建,用户不可见其中间过程,模型产生的结果也不易被理解。在海量数据的环境下,传统数据挖掘过程在预处理时异常数据的定位和模型生成后知识的表达方面都有不便。为了解决传统数据挖掘过程存在的问题,本文提出了一种大数据环境下的交互式数据挖掘框架。该框架使交互贯穿...
作者:徐圣伟; 刘永清; 吴孝银; 崔琳; 张志伟 期刊:《信息周刊》 2018年第27期
随着经济全球化迅速推进,农业信息化已全面进入农业数据库开发、网络和多媒体技术应用新的发展阶段,包括计算机通讯技术、RFID?技术、信息处理技术、遥感技术等。本文在云计算环境下,通过各种技术手段采集农作物生长环境的多源异构大数据信息,对所获取的农作物生长环境通过Spark机器学习进行预测,并结合具体示范应用进行研究。根据农作物生长环境的土壤、水肥、温度湿度及产量等在时间与空间上的差异,进行相对适宜地耕种、施肥、灌...
作者:张亮; 杨春丽; 马媛媛 期刊:《信息通信技术与政策》 2016年第05期
分析在海量数据情况下,Hadoop各组件及其生态圈(如Impala、Spark)技术特点及应用场景;结合大数据平台通用架构,提出在数据采集、储算、应用等方面的功能架构及技术架构。
作者:宁方潇; 文雨; 史岗 期刊:《信息安全学报》 2017年第04期
作为最流行的大数据分析工具之一,Spark的安全性却未得到足够重视。访问控制作为实现数据安全共享的重要手段,尚未在Spark上得以部署。为实现隐私或敏感数据的安全访问,本文尝试提出一种面向Spark的访问控制解决方案。由于Spark架构具有混合分析的特点,设计和实现一个可扩展支持不同数据源的细粒度访问控制机制具有挑战性。本文提出了一种基于声明式编程和Catalyst可扩展优化器的统一、集中式访问控制方法 GuardSpark。GuardSpark...
作者:魏俊奎; 齐强; 王国梁; 金义 期刊:《电力大数据》 2019年第01期
为了预测合理的招标采购价格区间,首先通过对以往所有同类招标过程数据的训练得出一个SVM模型,再依据本次招标的投标价适应模型估算出一个合理中标值。因为能采用的特征值较少,对SVM调参不能解决优化的问题。如何求取合理中标值左右两端的合理偏差值,本文比较了两种方法,第一种是将大量同类数据的预测结果与实际值对比,去噪后将最大值作为合理偏差值;第二种则利用假设性检验原则验证在合理中标值左右存在的投标个数百分比,中标价往...
作者:邓诗卓; 姚继涛; 王波涛; 陈月梅; 袁野; 李艳辉; 王国仁 期刊:《网络与信息安全学报》 2016年第05期
针对面向大数据的隐私保护查询效率低问题,利用CPIR保护程度高,实现了基于Spark的并行CPIR空间近邻查询隐私保护算法PCPIR-V,提出了基于Row和Bit的并行策略,同时提出并实现了基于聚类的PCPIR-V的缓存优化技术。利用均匀分布、高斯分布和真实数据对PCPIR-V进行了测试验证,在40个核心范围内,PCPIR-V具有良好的扩展性,PCPIR-V缓存优化技术计算时间与朴素PCPIR-V时间相比,平均减少了20%。
作者:熊威; 曾有灵; 李喆 期刊:《暨南大学学报·自然科学与医学版》 2019年第06期
目的:进一步解决CT图像重建耗时长的问题,实现大批量重建CT图像.方法:利用大数据框架Spark构建GPU集群.首先对加速滤波反投影(FBP)和同时代数迭代重建技术(SART)算法的复杂度进行分析及并行化设计,并比较在GPU和CPU上的运行速度.通过对比耗时选择最佳的计算组合,实现单机GPU加速.通过thunder工具读取批量的投影数据并创建分布式数据集,使用Numba开发CUDA程序并部署在Spark运行.结果:FBP算法运行速度有近40倍的提升,SART算法运行速...
11月15日,bilibili电竞正式成立战队“Hangzhou Spark杭州闪电队”,宣布参与到守望先锋OWL联赛中,并当天公布了粉红色的主配色及瑞破和温斯顿粉红色的皮肤。粉红战队品牌配色,辅以白色和蓝色,当这样充斥着少女气息和情怀的消息充斥于屏幕上,之前“打碎牙齿往肚子里咽”的陈悠悠的脸上终于露出了久违的笑。当一袭黑色衣裤和黑色靴子略显严肃的她站在杭州闪电队粉丝见面会粉色的背景板前,嘴角始终微翘上扬。
作者:吴素研; 吴江瑞; 李文波 期刊:《现代情报》 2020年第01期
[目的/意义]在信息检索、科技论文评价和知识结构演化方面,引文分析都起着至关重要的作用。随着格式化全文数据库的出现,引文分析迈入了4.0时代--全文引文分析阶段。但是,目前还没有中文的格式化全文数据库,这极大地制约了全文引文分析在我国科技文献中的研究和应用。[方法/过程]在本文中我们提出建立高效的中文全文引文分析依赖的数据集和检索平台的方法,主要包括:1)提出了基于规则和SVM分类方法的论文元数据和引用提取方法;2)提...
作者:张庆峰; 陈冬岩 期刊:《区域供热》 2019年第06期
近年来供热二次网平衡调控和节能日益成为供热企业关注的焦点。随着热计量器具的大量安装和海量数据的采集,供热企业积累了前所未有的供热末端数据,但是这些数据存在着数据量大、有一定失真度等问题,使得供热企业由于缺乏合适的工具而无法发挥这些数据的作用。基于上述原因,本文提出了一种基于孤立森林的分布式算法,通过对热计量表数据进行分析,对数据进行清洗和筛选,从而正确识别出供暖异常情况。本文将孤立森林算法部署到spark分...
作者:方伟; 黄增强; 徐建斌; 黄羿; 马新强 期刊:《图学学报》 2019年第05期
强化学习能够通过自主学习的方式对机器人难以利用控制方法实现的各种任务进行训练完成,有效避免了系统设计人员对系统建模或制定规则。然而,强化学习在机器人开发应用领域中训练成本高昂,需要花费大量时间成本、硬件成本实现学习训练,虽然基于仿真可以一定程度减少硬件成本,但对类似Gazebo这样的复杂机器人训练平台,仿真过程工作效率低,数据采样耗时长。为了有效解决这些问题,针对机器人仿真过程的平台易用性、兼容性等方面进行优...
作者:曹瑜; 王楠; 徐志超 期刊:《计算机应用研究》 2019年第11期
针对现有大数据分类方法难以满足大数据应用中时间和储存空间的限制,提出了一种基于Apache Spark框架的大数据并行多标签K最近邻分类器设计方法。为了通过使用其他内存操作来减轻现有MapReduce方案的成本消耗,首先,结合Apache Spark框架的并行机制将训练集划分成若干分区;然后在map阶段找到待预测样本每个分区的K近邻,进一步在reduce阶段根据map阶段的结果确定最终的K近邻;最后并行地对近邻的标签集合进行聚合,通过最大化后验概率...
作者:石慧; 陈恩 期刊:《计算机与现代化》 2019年第12期
为满足日益增长的海量数据挖掘需求,迫切需要设计一种能够在多台机器上运行的分布式关联规则挖掘算法。Apriori这种高度迭代算法在Hadoop平台上运行时每次迭代执行大量的磁盘I/O操作,大大影响并限制了算法的运行效率。本文利用Spark对分布式计算内置支持的特点,在Spark平台上设计并实现一种分布式关联规则挖掘算法,称为阶段式自适应挖掘算法(Staged Adaptive Apriori)。算法使用自适应的数据集部分处理的策略对频繁项集进行高效挖...
作者:郭羽含+; 胡芳霞 期刊:《计算机科学与探索》 2019年第11期
车辆合乘对于减少碳排放、停车位需求以及缓解交通压力具有重要意义。针对长期车辆合乘问题(LTCPP),构建了带有车容量和时间窗约束的多目标优化模型。该模型以最小化用户行驶总距离、用户合乘产生的额外驾驶时间、用户实际启程到达时间与用户期望时间的差距以及最大化匹配可行性为目标。LTCPP是聚类和路由问题的组合,基于该特点,提出了一种分布式聚类蚁群算法(DCAC)求解LTCPP。该算法在蚂蚁行进中基于启发式信息与偏好值产生合乘组...
作者:杨丹; 姜华; 张玉军; 赵骥 期刊:《实验技术与管理》 2019年第11期
该文研究了大数据技术课程实验教学环境的构建。在综合考虑已有实验设备和各种影响因素的条件下,提出在Linux虚拟机下安装Hadoop集群,并安装用Scala编程语言编写的Spark计算框架,从而实现Hadoop+Spark的大数据技术实验教学环境构建方案。该实验环境有助于提升大数据技术课程的理论教学效果,有助于学生更好地掌握分析和处理大数据的关键技术,从而有助于达到培养创新型人才的目标。