【免费】一种自适应的多臂机算法-发表之家

一种自适应的多臂机算法

作者：章晓芳; 周倩; 梁斌; 徐进苏州大学计算机科学与技术学院; 江苏苏州215006; 计算机软件新技术国家重点实验室(南京大学); 南京210023

强化学习多臂机探索和利用自适应上下文相关

摘要：多臂机问题是强化学习中研究探索和利用两者平衡的经典问题,其中,随机多臂机问题是最经典的一类多臂机问题,是众多新型多臂机问题的基础.针对现有多臂机算法未能充分使用环境反馈信息以及泛化能力较弱的问题,提出一种自适应的多臂机算法.该算法利用当前估计值最小的动作被选择的次数来调整探索和利用的概率(chosen number of arm with minimal estimation, CNAME),有效缓解了探索和利用不平衡的问题.同时,该算法不依赖于上下文信息,在不同场景的多臂机问题中有更好的泛化能力.通过理论分析给出了该算法的悔值(regret)上界,并通过不同场景的实验结果表明:CNAME算法可以高效地获得较高的奖赏和较低的悔值,并且具有更好的泛化能力.

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询免费咨询杂志订阅

热门期刊服务

中兽医医药中华转移性肿瘤中华医学遗传学中医中国仪器仪表中国疫苗和免疫中国翻译四川中医湖南中医中医研究河北中医云南中医

计算机研究与发展

影响因子：2.65

期刊级别：北大期刊

发行周期：月刊

服务介绍

一种自适应的多臂机算法

计算机研究与发展

期刊咨询

订阅杂志

期刊推荐