基于有效动作表示的策略搜索强化学习方法

王馨雪; 黄佳欣; 赵婷婷; 陈亚瑞; 王嫄

doi:10.13364/j.issn.1672-6510.20240002

天津科技大学学报 ›› 2025, Vol. 40 ›› Issue (05) : 57 -65. DOI: 10.13364/j.issn.1672-6510.20240002

基于有效动作表示的策略搜索强化学习方法

王馨雪, 黄佳欣, 赵婷婷, 陈亚瑞, 王嫄

作者信息 +

Author information +

文章历史 +

PDF

摘要

策略搜索强化学习方法是深度强化学习领域的一种高效学习范式，但存在模型结构复杂、训练周期长、泛化能力差的问题。表示学习能在一定程度上缓解上述问题，但传统的表示学习方法的动作表示包含大量冗余或不相关的信息，缺乏可解释性，影响系统的性能和泛化能力。本文提出了一种基于有效动作表示的策略搜索强化学习方法 TARPPO(task-relevant action representation learning based PPO)。使用β-VAE作为学习动作表示的组件，引入回报预测模型辅助有效动作表示提取器的训练，帮助有效动作表示提取器提取到与任务相关的、更加有效的动作信息，增强了动作表示的可解释性，提高模型的性能和泛化能力。在MountainCar-v0环境中的对比实验结果表明，本文方法能够有效捕获与任务相关的动作信息，有利于动作空间的进一步探索，提升了策略学习性能。最后，通过消融实验验证了本文方法的显著优势。