多智能体深度确定性策略梯度算法研究与改进

劳天成, 刘义, 范文慧

新疆大学学报(自然科学版中英文) ›› 2023, Vol. 40 ›› Issue (06) : 717 -723.

PDF
新疆大学学报(自然科学版中英文) ›› 2023, Vol. 40 ›› Issue (06) : 717 -723. DOI: 10.13568/j.cnki.651094.651316.2023.05.08.0001

多智能体深度确定性策略梯度算法研究与改进

作者信息 +

Author information +
文章历史 +
PDF

摘要

针对多智能体深度确定性策略梯度算法(MADDPG)在某些场景下,尤其是在部分可观察环境与稀疏奖励条件下,不一定能学习到最优策略的问题,采用观察叠加法和在深度网络中加入长短期记忆网络(Long Short-Term Memory, LSTM)层的方法对MADDPG算法进行了改进,通过含遮蔽区的捕食者-猎物场景验证了改进的算法在智能体决策上的有效性;引入后验经验回放(Hindsight Experience Replay, HER)方法对MADDPG算法进行了改进,通过合作通讯场景和合作导航场景的对比实验验证了改进的算法能够使智能体获得的高价值经验大大增加,可以提高MADDPG算法收敛速度,有助于智能体学习到最优策略.

关键词

多智能体 / 深度强化学习 / 部分可观察 / 稀疏奖励

Key words

引用本文

引用格式 ▾
劳天成, 刘义, 范文慧 多智能体深度确定性策略梯度算法研究与改进[J]. 新疆大学学报(自然科学版中英文), 2023, 40(06): 717-723 DOI:10.13568/j.cnki.651094.651316.2023.05.08.0001

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

24

访问

0

被引

详细

导航
相关文章

AI思维导图

/