稳定且受限的新强化学习SAC算法

海日, 张兴亮, 姜源, 杨永健

吉林大学学报(信息科学版) ›› 2024, Vol. 42 ›› Issue (02) : 318 -325.

PDF
吉林大学学报(信息科学版) ›› 2024, Vol. 42 ›› Issue (02) : 318 -325. DOI: 10.19292/j.cnki.jdxxp.20240201.009

稳定且受限的新强化学习SAC算法

    海日, 张兴亮, 姜源, 杨永健
作者信息 +

Author information +
文章历史 +
PDF

摘要

为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固定温度SAC算法中的Q函数高估问题,同时增强算法在测试过程中稳定性的效果。最后,在4个OpenAI Gym Mujoco环境下对SCSAC算法进行了验证,实验结果表明,稳定且受限的SAC算法相比固定温度SAC算法可以有效减小Q函数高估出现的次数并能在测试中获得更加稳定的结果。

关键词

强化学习 / 最大熵强化学习 / Q值高估 / SAC算法

Key words

引用本文

引用格式 ▾
稳定且受限的新强化学习SAC算法[J]. 吉林大学学报(信息科学版), 2024, 42(02): 318-325 DOI:10.19292/j.cnki.jdxxp.20240201.009

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

90

访问

0

被引

详细

导航
相关文章

AI思维导图

/