基于有效动作表示的策略搜索强化学习方法

王馨雪, 黄佳欣, 赵婷婷, 陈亚瑞, 王嫄

天津科技大学学报 ›› 2025, Vol. 40 ›› Issue (05) : 57 -65.

PDF
天津科技大学学报 ›› 2025, Vol. 40 ›› Issue (05) : 57 -65. DOI: 10.13364/j.issn.1672-6510.20240002

基于有效动作表示的策略搜索强化学习方法

    王馨雪, 黄佳欣, 赵婷婷, 陈亚瑞, 王嫄
作者信息 +

Author information +
文章历史 +
PDF

摘要

策略搜索强化学习方法是深度强化学习领域的一种高效学习范式,但存在模型结构复杂、训练周期长、泛化能力差的问题。表示学习能在一定程度上缓解上述问题,但传统的表示学习方法的动作表示包含大量冗余或不相关的信息,缺乏可解释性,影响系统的性能和泛化能力。本文提出了一种基于有效动作表示的策略搜索强化学习方法 TARPPO(task-relevant action representation learning based PPO)。使用β-VAE作为学习动作表示的组件,引入回报预测模型辅助有效动作表示提取器的训练,帮助有效动作表示提取器提取到与任务相关的、更加有效的动作信息,增强了动作表示的可解释性,提高模型的性能和泛化能力。在MountainCar-v0环境中的对比实验结果表明,本文方法能够有效捕获与任务相关的动作信息,有利于动作空间的进一步探索,提升了策略学习性能。最后,通过消融实验验证了本文方法的显著优势。

关键词

潜在空间 / 动作表示 / 连续动作空间 / 回报预测 / 有效动作表示提取器 / 策略搜索强化学习方法

Key words

引用本文

引用格式 ▾
基于有效动作表示的策略搜索强化学习方法[J]. 天津科技大学学报, 2025, 40(05): 57-65 DOI:10.13364/j.issn.1672-6510.20240002

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

124

访问

0

被引

详细

导航
相关文章

AI思维导图

/