首页 期刊 计算机研究与发展 基于经验指导的深度确定性多行动者-评论家算法 【正文】

基于经验指导的深度确定性多行动者-评论家算法

作者:陈红名; 刘全; 闫岩; 何斌; 姜玉斌; 张琳琳 苏州大学计算机科学与技术学院; 江苏苏州215006; 江苏省计算机信息处理技术重点实验室(苏州大学); 江苏苏州215006; 符号计算与知识工程教育部重点实验室(吉林大学); 长春130012; 软件新技术与产业化协同创新中心; 南京210000
强化学习   深度强化学习   确定性行动者评论家   经验指导   专家指导  

摘要:连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,但是它们在一些连续控制任务中的表现并不是很好.为更好地解决探索问题,提出了一种基于经验指导的深度确定性多行动者评论家算法(experience-guided deep deterministic actor-critic with multi-actor, EGDDAC-MA),该算法不需要外部探索噪声,而是从自身优秀经验中学习得到一个指导网络,对动作选择和值函数的更新进行指导.此外,为了缓解网络学习的波动性,算法使用多行动者评论家模型,模型中的多个行动者网络之间互不干扰,各自执行情节的不同阶段.实验表明:相比于DDPG,TRPO和PPO算法,EGDDAC-MA算法在GYM仿真平台中的大多数连续任务中有更好的表现.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅