面向匝道合流场景的多智能体强化学习SAG-MAPPO安全协同决策方法

张树培, 庞莹, 孙朋举, 张玮, 王玲德

重庆理工大学学报(自然科学版) ›› 2025, Vol. 39 ›› Issue (09) : 45 -52.

PDF
重庆理工大学学报(自然科学版) ›› 2025, Vol. 39 ›› Issue (09) : 45 -52.

面向匝道合流场景的多智能体强化学习SAG-MAPPO安全协同决策方法

    张树培, 庞莹, 孙朋举, 张玮, 王玲德
作者信息 +

Author information +
文章历史 +
PDF

摘要

针对匝道合流场景中智能网联汽车(CAVs)与人类驾驶车辆(HDVs)在多车协同决策时,因局部可观测性以及动态环境不确定性导致的安全与效率问题,提出一种基于时序记忆和安全约束机制的多智能体近端策略优化(SAG-MAPPO)算法。建立匝道协同决策场景的分布式部分可观测马尔可夫决策(Dec-POMDP)模型,通过引入门控循环单元(gated recurrent unit,GRU)处理车辆状态的历史信息,解决环境局部观测性导致的策略不稳定问题。在此基础上,设计包含硬性规则约束和动态行为预测的双层安全机制,实时屏蔽危险动作,确保决策输出的安全性。仿真结果表明,SAG-MAPPO在不同密度的匝道协同合流场景下均表现出更快的收敛速度、更高的策略累计奖励和平均速度,验证了其在复杂动态场景下的有效性。

关键词

匝道合流 / 自动驾驶 / 深度强化学习 / 多智能体近端策略优化 / 决策

Key words

引用本文

引用格式 ▾
面向匝道合流场景的多智能体强化学习SAG-MAPPO安全协同决策方法[J]. 重庆理工大学学报(自然科学版), 2025, 39(09): 45-52 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

77

访问

0

被引

详细

导航
相关文章

AI思维导图

/