非全知环境中的多智能体双向通讯顺序决策模型

王垚森; 王莉

doi:10.16355/j.tyut.1007-9432.20250288

太原理工大学学报 ›› 2026, Vol. 57 ›› Issue (02) : 387 -396. DOI: 10.16355/j.tyut.1007-9432.20250288

非全知环境中的多智能体双向通讯顺序决策模型

王垚森, 王莉

作者信息 +

Author information +

文章历史 +

PDF

摘要

【目的】多智能体系统（MAS）在多个领域取得了广泛应用，尤其是在工业控制和自动化领域。然而，在局部观测环境中，多智能体系统因信息缺失与动态策略交互面临非平稳性挑战，导致协作效率低下与学习收敛困难。提出一种基于双向通讯的多智能体顺序决策模型，通过序列化决策与双向信息交互缓解上述问题。【方法】首先，将传统并行决策转化为智能体依次决策的序列过程，降低策略冲突；其次，设计双向通讯模块，结合前向动作意图传递与反向注意力驱动的观测信息提取，增强全局感知能力；同时引入决策调度模块，动态评估智能体状态价值以优化决策顺序。实验基于星际争霸多智能体挑战（SMAC）环境，谷歌足球（GRF）环境，涵盖异构、同质及复杂对抗场景。【结果】结果表明，本文方法在胜率与收敛速度上显著优于基线算法，消融实验验证了双向通讯与决策调度模块的有效性。