强化学习论文10篇_发表之家

首页文献资料

多智能体深度强化学习研究综述

作者：孙彧; 曹雷; 陈希亮; 徐志雄; 赖俊期刊：《计算机工程与应用》 2020年第05期

多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法、规则、框架,并广泛应用于自动驾驶、能源分配、编队控制、航迹规划、路由规划、社会难题等现实领域,具有极高的研究价值和意义。对多智能体深度强化学习的基本理论、发展历程进行简要的概念介绍;按照无关联型、通信规则型、互相合作型和建模学习型4种分类方式阐述了现有的经典算法;对多智能体深度强化学习算法的实际应用进行了综述,并简单罗列了...
基于异步优势动作评价的RFID室内定位算法

作者：李丽; 郑嘉利; 王哲; 袁源; 石静期刊：《计算机科学》 2020年第02期

针对现有的RFID室内定位算法的精度容易受到环境因素影响的问题,提出了一种基于异步优势动作评价(Asynchronous Advantage Actor-critic,A3C)的RFID室内定位算法。该算法的主要步骤为:1)将RFID的信号强度RSSI值作为输入值,多个线程子动作网络并行交互采样学习,利用子评价网络评价动作值的优劣,使模型不断优化,找到最优信号强度RSSI值,并训练定位模型;子线程网络定期将网络参数异步更新到全局网络上,全局网络最后输出参考标签的具体...
基于强化学习的Web服务众测任务分派方法

作者：唐文君; 张佳丽; 陈荣; 郭世凯期刊：《计算机科学》 2020年第03期

如何将众包测试任务分派给合适的众测工人,以较低的成本获得更好的测试结果,是一个重要问题。文中将CWS众测任务分派问题建模为一个基于马尔可夫决策过程的问题,且使用Deep Q Network进行学习和实时在线测试任务分派。该基于强化学习的方法被命名为WTA-C。此外,文中根据众测工人执行任务的历史时间,通过统计条件概率计算测试工人在任务期限内完成任务的概率,将其作为工人信誉值来反映工人质量,并在每次分派完成后对工人信誉值进行...
基于Q-Learning的多功能雷达认知干扰决策方法

作者：张柏开; 朱卫纲期刊：《电讯技术》 2020年第02期

针对多功能雷达和认知电子战的快速发展所导致传统干扰决策方法难以适应现代化战争的问题,提出了一种基于Q-Learning的多功能雷达认知干扰决策方法。通过对比认知思想和干扰决策原理,将Q-Learning运用于认知干扰决策中并提出了认知干扰决策的算法步骤。以某多功能雷达为基础,通过分析其工作状态及对应干扰样式构建雷达状态转移图,通过仿真试验分析了各参数对决策性能的影响,为应对实际战场提供参考。仿真了在新状态加入下的决策过...
车辆网络多平台卸载智能资源分配算法

作者：王汝言; 梁颖杰; 崔亚平期刊：《电子与信息学报》 2020年第01期

为了降低计算任务的时延和系统的成本,移动边缘计算(MEC)被用于车辆网络,以进一步改善车辆服务。该文在考虑计算资源的情况下对车辆网络时延问题进行研究,提出一种多平台卸载智能资源分配算法,对计算资源进行分配,以提高下一代车辆网络的性能。该算法首先使用K临近(KNN)算法对计算任务的卸载平台(云计算、移动边缘计算、本地计算)进行选择,然后在考虑非本地计算资源分配和系统复杂性的情况下,使用强化学习方法,以有效解决使用移动...
基于遗传算法与强化学习的机场机位分配问题研究

作者：许永磊; 曾伟期刊：《新一代信息技术》 2019年第02期

机场停机位分配是机场运行调度的一项非常重要的工作。为提高机场运行效益和服务质量,针对机场机位复杂的调度问题,本文提出了新的染色体编码策略,并且研究了遗传算法与强化学习结合解决机场机位分配问题。本文根据近机位、远机位的属性和业务规则,以靠桥率即近机位利用率最高、拖拽次数最少和机位空闲时间最短为优化目标,利用遗传算法实现了机位分配。针对遗传算法对初始解集的依赖的不足,文中利用强化学习对遗传算法进行改进,并...
基于Q_learning方法的信道估计技术的研究

作者：李程坤期刊：《科学与信息化》 2017年第27期

无线通信系统的信道估计与均衡技术研究是通信领域研究的重点内容。伴随着通信领域的快速发展,传统的信道估计均衡技术已经难以满足通信系统运行的需求,如何应用高效的无线通信信道估计与均衡技术已经成为制约数字通信领域的重要影响因素。本文研究了在最小二乘(Least Squre,LS)算法的基础上运用强化学习中的Q_learning算法对无线通信系统进行信道估计,仿真结果表明基于Q_learning算法的信道估计有效提高了估计精度,有效降低信号传...
三门峡湖滨区会兴街道计生办着力提升计生服务水平

作者：张慧荣; 史小琴期刊：《黄河黄土黄种人》 2012年第01期

三门峡湖滨区会兴街道计生办始终把加强计生协会队伍建设作为提高计生工作质量和服务水平的一项重要措施，通过“五强化”着力提升计生服务水平。一是强化学习。该计生办对全体计生干部每周的学习和工作情况进行评比，调动大家的学习积极性。二是强化培训。每月初，街道计生办组织各村协会干部参加例会培训，传达上级文件，对本月工作进行安排部署。三是强化交流。利用计生例会时机，该计生办组织各村计生协秘书长进行工作经验交流...
乃东县“三个三”把换届纪律的“螺丝钉”拧得更紧

作者：期刊：《新西藏》 2012年第06期

今年以来，乃东县紧紧围绕“5个严禁、17个不准和5个一律”的换届纪律要求，加强领导，强化措施，狠抓落实，努力做到强化组织领导、强化学习领先、强化纪律保障“三个强化”，确保换届纪律教育工作落到实处；
基于强化学习的图书内容推荐策略研究与应用

作者：宋爱香; 马冲期刊：《情报探索》 2020年第01期

[目的/意义]基于强化学习的图书内容推荐方法可解决传统推荐系统注重推荐列表的准确率,忽略图书推荐的多样性,且无法解决数据信息缺失的问题。[方法/过程]采用强化学习框架对图书推荐过程进行马尔可夫决策过程建模,实现基于用户不同状态的推荐动作;采用因子分解机和强化Q-Learning作为值函数的近似计算,通过值函数选择最优候选图书;引入随机策略作为最后的推荐结果,提高了图书推荐的多样性。[结果/结论]强化学习算法在图书推荐过程...
基于强化学习的两轮模型车控制仿真分析

作者：晋帅; 李煊鹏; 何嘉颖; 李纾昶; 周敬淞期刊：《测控技术》 2019年第12期

在不同环境中,各种强化学习算法的控制效果存在差异,针对特定环境下算法难以选择的问题,基于Gym与Gazebo搭建了一种强化学习算法仿真的小车平台,使用其对Q-Learning算法、Sarsa算法和DQN算法在两轮模型车的行走控制训练中进行测试验证,利用三种复杂度不同的地图,在训练次数相同的情况下测试算法的有效性与鲁棒性。实验结果与预期符合:Q-Learning算法在较简单的地图中可以使模型车获得较高的奖励;Sarsa算法的稳定性更佳,训练收敛速...
基于强化学习的鱼群自组织行为模拟

作者：杨慧慧; 黄万荣; 敖富江期刊：《国防科技大学学报》 2020年第01期

自组织行为广泛存在于自然界中。为了通过学习的方式模拟鱼群自组织行为,构建了鱼群模拟环境模型、智能体模型和奖励机制,并提出了一种基于赫布迹和行动者-评价者框架的多智能体强化学习方法。该方法利用赫布迹加强游动策略的学习记忆能力,基于同构思想实现了多智能体的分布式学习。仿真结果表明,该方法能够适用于领航跟随、自主漫游、群体导航等场景中鱼群自组织行为学习,并且基于学习方法模拟的鱼群展现的行为特性与基于博德规则...
勤学习接地气善履职

作者：刘新宇期刊：《上海人大月刊》 2020年第01期

作为市人大代表,我在2019年度的主要体会归纳为九个字:勤学习、接地气、善履职。强化学习。作为一名新代表,我积极认真参加市人大常委会组织的培训班、代表论坛与讲座,学习相关的理论和业务知识,同时虚心向老代表求教,努力提高政治素养,树立法治观念,为实现尽职履责打下良好的基础。深入基层。
“八聚焦八提升”助推主题教育显实效

作者：宋晓飞; 郭诚期刊：《党的建设》 2019年第12期

“不忘初心、牢记使命”主题教育开展以来,定西市安定区紧紧围绕中心、服务大局,注重强化学习教育,坚持标准要求、分级分类指导、解决实际问题,以“八聚焦、八提升”为有效抓手,把开展主题教育的成效体现在推动全区的各项工作实际行动中。聚焦党的建设,提升党建引领全区经济社会发展能力。
基于深度强化学习的机械臂容错控制方法

作者：李铭浩; 张华; 刘满禄; 李新茂; 周祺杰期刊：《传感器与微系统》 2020年第01期

针对机械臂突发单关节故障的情况,提出一种基于深度强化学习的机械臂容错控制方法。在建立环境模型和奖罚机制的基础上,针对机械臂正常运行和故障运行的情况,使用无模型的强化学习算法进行离线训练。在Rviz中建立机械臂模型并使用上述网络进行在线控制。实验证明:该算法可以有效完成机械臂的正常控制和容错控制。
二自由度飞行姿态模拟器的模糊强化学习控制

作者：任立伟; 班晓军; 吴奋; 黄显林期刊：《电机与控制学报》 2019年第11期

针对二自由度飞行姿态模拟器的姿态稳定问题,依据强化学习中的策略迭代算法设计姿态稳定控制器。将策略迭代学习算法与多项式T-S模糊系统相结合,对控制器参数进行学习调整,实现对二自由度飞行姿态模拟器姿态稳定控制性能的优化。通过多项式T-S模糊模型对执行器的策略函数以及评价器的值函数进行逼近,建立基于多项式T-S模糊模型的执行器-评价器结构,经过策略迭代过程,学习得到最优控制器参数,使得值函数最小。通过仿真验证,证明了基...
基于强化学习的动态定价策略研究综述

作者：王欣; 王芳期刊：《计算机应用与软件》 2019年第12期

随着人工智能技术的不断发展,其应用领域也逐渐拓宽。为了能进一步将强化学习技术应用于动态定价领域,构建智能动态定价系统,对与动态定价相关的强化学习技术进行介绍,将已有研究从供应商数目(单供应商、多供应商)、所处环境模型(MDP、POMDP、Semi-MDP)、选用算法(Q-Learning,SARSA,Monte-Carlo)等方面进行综述。基于综述内容提出未来智能动态定价的研究方向。
一种基于Dyna-Q学习的旋翼无人机视觉伺服智能控制方法

作者：史豪斌; 徐梦; 刘珈妤; 李继超期刊：《控制与决策》 2019年第12期

基于图像的视觉伺服机器人控制方法通过机器人的视觉获取图像信息,然后形成基于图像信息的闭环反馈来控制机器人的合理运动.经典视觉伺服的伺服增益的选取在大多数条件下是人工赋值的,故存在鲁棒性差、收敛速度慢等问题.针对该问题,提出一种基于Dyna-Q的旋翼无人机视觉伺服智能控制方法调节伺服增益以提高其自适应性.首先,使用基于费尔曼链码的图像特征提取算法提取目标特征点;然后,使用基于图像的视觉伺服形成特征误差的闭环控制;...
一种基于策略梯度强化学习的列车智能控制方法

作者：张淼; 张琦; 刘文韬; 周博渊期刊：《铁道学报》 2020年第01期

近年来,我国已初步建成巨大的城市轨道交通和高速铁路网络,逐步开始走向提升整体运营效率的新阶段。城市轨道交通系统的大规模和高密度运营,使得系统能耗急剧增长。现有的自动驾驶控制方法基于已有的模型,能够完成在正常场景下的自动驾驶。基于现有列车自动驾驶技术的控制原理和优秀司机的驾驶经验,提出一种列车智能控制方法,以减小列车的牵引能耗。首先,建立列车控制专家系统,能满足乘客舒适度要求;在此基础上,利用神经网络作为列...
深度学习的目标跟踪算法综述

作者：李玺; 查宇飞; 张天柱; 崔振; 左旺孟; 侯志强; 卢湖川; 王菡子期刊：《中国图象图形学报》 2019年第12期

目标跟踪是利用一个视频或图像序列的上下文信息,对目标的外观和运动信息进行建模,从而对目标运动状态进行预测并标定目标位置的一种技术,是计算机视觉的一个重要基础问题,具有重要的理论研究意义和应用价值,在智能视频监控系统、智能人机交互、智能交通和视觉导航系统等方面具有广泛应用。大数据时代的到来及深度学习方法的出现,为目标跟踪的研究提供了新的契机。本文首先阐述了目标跟踪的基本研究框架,从观测模型的角度对现有目...

阅读更多

热门标签

热门期刊