基于深度强化学习的多智能体射击游戏研究

梁嘉欣; 苗好田; 李博由; 姜月秋

沈阳理工大学学报 ›› 2026, Vol. 45 ›› Issue (4) : 1 -7.

基于深度强化学习的多智能体射击游戏研究

梁嘉欣, 苗好田, 李博由, 姜月秋

作者信息 +

Author information +

文章历史 +

PDF

摘要

为解决多智能体射击游戏训练样本效率低、训练不稳定、奖励函数设计困难等问题，改进了MA-POCA(multi-agent posthumous credit assignment)算法，提出了基于时间衰减的分层奖励机制。首先基于Unity3D搭建训练环境，实现智能体与环境的交互，再采用射线传感器及Unity API构建观测系统并设计混合动作空间，实现智能体的自主决策；然后采用基于时间衰减的分层奖励机制改进的MA-POCA算法构建模型，解决长期任务中的信用分配问题，再通过时空注意力机制实现记忆检索，提高战术连续性。仿真实验结果显示，经过3 000万步训练，智能体实现了从个体作战到高级团队协作，掌握了交叉火力等战术行为。优化后的算法显著提高了智能体的战术同步率，可为游戏AI和机器人协作等领域的深入研究提供重要参考。