基于分布式强化学习方法解决后继特征中的低估问题

卢梦筱, 张阳春, 章晓峰

广西师范大学学报(自然科学版) ›› 2025, Vol. 43 ›› Issue (06) : 107 -119.

PDF
广西师范大学学报(自然科学版) ›› 2025, Vol. 43 ›› Issue (06) : 107 -119. DOI: 10.16088/j.issn.1001-6600.2024122302

基于分布式强化学习方法解决后继特征中的低估问题

    卢梦筱, 张阳春, 章晓峰
作者信息 +

Author information +
文章历史 +
PDF

摘要

后继特征(successor features, SFs)和广义策略改进(generalized policy improvement, GPI)的框架具备在不同任务之间实现强化学习(RL)中零样本迁移的潜力。本文研究SFs&GPI中过低估计现象:为了阐明这个问题,在理论上,证明估计Q值与真实Q值之间的期望差,其在定理中是非正的;在实验上,验证在训练过程中新任务的估计Q值低于真实Q值。为解决该问题,将分布式强化学习的概念引入到SFs&GPI中,并建立分布后继特征(distributional SFs, DSFs)和分布广义策略改进(distributional GPI, DGPI),缩小了低估差距。MuJoCo环境上的实验结果表明,基于DSFs&DGPI的算法缓解了基于SFs&GPI算法的价值估计偏差,且具备更大的迁移潜力和更稳定的迁移效果。

关键词

分布式强化学习 / 后继特征 / 广义策略改进 / 偏差估计 / 过低估计

Key words

引用本文

引用格式 ▾
基于分布式强化学习方法解决后继特征中的低估问题[J]. 广西师范大学学报(自然科学版), 2025, 43(06): 107-119 DOI:10.16088/j.issn.1001-6600.2024122302

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

65

访问

0

被引

详细

导航
相关文章

AI思维导图

/