基于异步合作更新的LSTM-MADDPG多智能体协同决策算法

高敬鹏, 王国轩, 高路

吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (03) : 797 -806.

PDF
吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (03) : 797 -806. DOI: 10.13229/j.cnki.jdxbgxb.20220523

基于异步合作更新的LSTM-MADDPG多智能体协同决策算法

作者信息 +

Author information +
文章历史 +
PDF

摘要

针对完全合作型任务中,多智能体深度确定性策略梯度(MADDPG)算法存在信度分配以及训练稳定性差的问题,提出了一种基于异步合作更新的LSTM-MADDPG多智能体协同决策算法。基于差异奖励和值分解思想,利用长短时记忆(LSTM)网络提取轨迹序列间特征,优化全局奖励划分方法,实现各智能体的动作奖励分配;结合算法联合训练需求,构建高质量训练样本集,设计异步合作更新方法,实现LSTM-MADDPG网络的联合稳定训练。仿真结果表明,在协作捕获场景中,本文算法相较于QMIX的训练收敛速度提升了20.51%;所提异步合作更新方法相较于同步更新,归一化奖励值均方误差减小了57.59%,提高了算法收敛的稳定性。

关键词

人工智能 / 多智能体协同决策 / 深度强化学习 / 信度分配 / 异步合作更新

Key words

引用本文

引用格式 ▾
高敬鹏, 王国轩, 高路 基于异步合作更新的LSTM-MADDPG多智能体协同决策算法[J]. 吉林大学学报(工学版), 2024, 54(03): 797-806 DOI:10.13229/j.cnki.jdxbgxb.20220523

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

33

访问

0

被引

详细

导航
相关文章

AI思维导图

/