基于次优策略的动态分步强化学习路径规划算法

王天孜, 史红权, 张思洁, 陈爱国

电子科技大学学报 ›› 2025, Vol. 54 ›› Issue (05) : 671 -675.

PDF
电子科技大学学报 ›› 2025, Vol. 54 ›› Issue (05) : 671 -675.

基于次优策略的动态分步强化学习路径规划算法

    王天孜, 史红权, 张思洁, 陈爱国
作者信息 +

Author information +
文章历史 +
PDF

摘要

强化学习允许智能体在未知环境中进行路径规划,智能体能够使用与环境交互所得到的信息自主调整策略并找到最优路径。然而,大多数基于强化学习的路径规划任务都面临着稀疏奖励的问题,即获取外部奖励以及有效训练样本的难度大,这使得算法迭代缓慢,甚至难以收敛。为此,提出了一种基于次优策略的动态分步强化学习路径规划算法,该算法通过动态分步的方法将次优策略引入到强化学习框架下,并设计内在奖励鼓励智能体探索优于次优策略的新策略。实验结果表明,与基线算法相比,该算法有着更好的表现,智能体系统获得的奖励更高,策略收敛速度更快。

关键词

动态分步 / 路径规划 / 强化学习 / 次优策略

Key words

引用本文

引用格式 ▾
基于次优策略的动态分步强化学习路径规划算法[J]. 电子科技大学学报, 2025, 54(05): 671-675 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

177

访问

0

被引

详细

导航
相关文章

AI思维导图

/