PDF
摘要
后继特征(successor features, SFs)和广义策略改进(generalized policy improvement, GPI)的框架具备在不同任务之间实现强化学习(RL)中零样本迁移的潜力。本文研究SFs&GPI中过低估计现象:为了阐明这个问题,在理论上,证明估计Q值与真实Q值之间的期望差,其在定理中是非正的;在实验上,验证在训练过程中新任务的估计Q值低于真实Q值。为解决该问题,将分布式强化学习的概念引入到SFs&GPI中,并建立分布后继特征(distributional SFs, DSFs)和分布广义策略改进(distributional GPI, DGPI),缩小了低估差距。MuJoCo环境上的实验结果表明,基于DSFs&DGPI的算法缓解了基于SFs&GPI算法的价值估计偏差,且具备更大的迁移潜力和更稳定的迁移效果。
关键词
分布式强化学习
/
后继特征
/
广义策略改进
/
偏差估计
/
过低估计
Key words
基于分布式强化学习方法解决后继特征中的低估问题[J].
广西师范大学学报(自然科学版), 2025, 43(06): 107-119 DOI:10.16088/j.issn.1001-6600.2024122302