基于贝叶斯优化的强化学习广义不动点解逼近

陈兴国, 吕咏洲, 巩宇, 陈耀雄

山东大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (04) : 21 -34.

PDF
山东大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (04) : 21 -34.

基于贝叶斯优化的强化学习广义不动点解逼近

    陈兴国, 吕咏洲, 巩宇, 陈耀雄
作者信息 +

Author information +
文章历史 +
PDF

摘要

针对强化学习不动点的解更优这一问题,提出广义不动点解模型设计,该设计使用n步自举法的不动点解扩展和基于线性插值法的不动点解构造方法。将该设计应用于成熟的CBMPI算法框架上,提出基于广义不动点的CBMPI(n,β)算法。针对如何表达并逼近最优解这一问题,提出基于贝叶斯优化的广义不动点解的参数优化和基于集成学习的更高质量的解。在经典的10×10规模的Tetris游戏环境中验证算法提出的有效性。试验结果证明了基于线性插值法的广义不动点构造能比n步传统不动点效果好,其效果与其超参数步长n和插值参数β有很大关联。在100局的Tetris游戏中,平均分达到4 388.3,表明贝叶斯优化技术可以找到多组表现优异的策略。对表现优异的四组广义不动点的策略参数(贝叶斯优化技术的结果)进行策略集成和值函数集成,得到更高质量的解。平均分可以分别达到4 526.29和4 579.74,试验结果表明基于广义不动点的策略集成和基于广义不动点的值函数集成的分数相较于广义不动点的分数有小幅度提高,证实了可以通过集成学习寻找更高质量的解。

关键词

强化学习 / 值函数近似估计 / 不动点 / 贝叶斯优化 / 俄罗斯方块

Key words

引用本文

引用格式 ▾
基于贝叶斯优化的强化学习广义不动点解逼近[J]. 山东大学学报(工学版), 2024, 54(04): 21-34 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

77

访问

0

被引

详细

导航
相关文章

AI思维导图

/