首页 期刊 计算机研究与发展 一种自适应的多臂机算法 【正文】

一种自适应的多臂机算法

作者:章晓芳; 周倩; 梁斌; 徐进 苏州大学计算机科学与技术学院; 江苏苏州215006; 计算机软件新技术国家重点实验室(南京大学); 南京210023
强化学习   多臂机   探索和利用   自适应   上下文相关  

摘要:多臂机问题是强化学习中研究探索和利用两者平衡的经典问题,其中,随机多臂机问题是最经典的一类多臂机问题,是众多新型多臂机问题的基础.针对现有多臂机算法未能充分使用环境反馈信息以及泛化能力较弱的问题,提出一种自适应的多臂机算法.该算法利用当前估计值最小的动作被选择的次数来调整探索和利用的概率(chosen number of arm with minimal estimation, CNAME),有效缓解了探索和利用不平衡的问题.同时,该算法不依赖于上下文信息,在不同场景的多臂机问题中有更好的泛化能力.通过理论分析给出了该算法的悔值(regret)上界,并通过不同场景的实验结果表明:CNAME算法可以高效地获得较高的奖赏和较低的悔值,并且具有更好的泛化能力.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅