基于异步合作更新的LSTM-MADDPG多智能体协同决策算法

高敬鹏; 王国轩; 高路

doi:10.13229/j.cnki.jdxbgxb.20220523

吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (03) : 797 -806. DOI: 10.13229/j.cnki.jdxbgxb.20220523

基于异步合作更新的LSTM-MADDPG多智能体协同决策算法

高敬鹏, 王国轩, 高路

作者信息 +

Author information +

文章历史 +

摘要

针对完全合作型任务中，多智能体深度确定性策略梯度（MADDPG）算法存在信度分配以及训练稳定性差的问题，提出了一种基于异步合作更新的LSTM-MADDPG多智能体协同决策算法。基于差异奖励和值分解思想，利用长短时记忆（LSTM）网络提取轨迹序列间特征，优化全局奖励划分方法，实现各智能体的动作奖励分配；结合算法联合训练需求，构建高质量训练样本集，设计异步合作更新方法，实现LSTM-MADDPG网络的联合稳定训练。仿真结果表明，在协作捕获场景中，本文算法相较于QMIX的训练收敛速度提升了20.51%；所提异步合作更新方法相较于同步更新，归一化奖励值均方误差减小了57.59%，提高了算法收敛的稳定性。