基于深度强化学习的多智能体射击游戏研究

梁嘉欣, 苗好田, 李博由, 姜月秋

沈阳理工大学学报 ›› 2026, Vol. 45 ›› Issue (4) : 1 -7.

PDF
沈阳理工大学学报 ›› 2026, Vol. 45 ›› Issue (4) : 1 -7.

基于深度强化学习的多智能体射击游戏研究

    梁嘉欣, 苗好田, 李博由, 姜月秋
作者信息 +

Author information +
文章历史 +
PDF

摘要

为解决多智能体射击游戏训练样本效率低、训练不稳定、奖励函数设计困难等问题,改进了MA-POCA(multi-agent posthumous credit assignment)算法,提出了基于时间衰减的分层奖励机制。首先基于Unity3D搭建训练环境,实现智能体与环境的交互,再采用射线传感器及Unity API构建观测系统并设计混合动作空间,实现智能体的自主决策;然后采用基于时间衰减的分层奖励机制改进的MA-POCA算法构建模型,解决长期任务中的信用分配问题,再通过时空注意力机制实现记忆检索,提高战术连续性。仿真实验结果显示,经过3 000万步训练,智能体实现了从个体作战到高级团队协作,掌握了交叉火力等战术行为。优化后的算法显著提高了智能体的战术同步率,可为游戏AI和机器人协作等领域的深入研究提供重要参考。

关键词

多智能体 / MA-POCA算法 / 射击游戏 / 强化学习

Key words

引用本文

引用格式 ▾
梁嘉欣, 苗好田, 李博由, 姜月秋. 基于深度强化学习的多智能体射击游戏研究[J]. 沈阳理工大学学报, 2026, 45(4): 1-7 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/