非全知环境中的多智能体双向通讯顺序决策模型

王垚森, 王莉

太原理工大学学报 ›› 2026, Vol. 57 ›› Issue (02) : 387 -396.

PDF
太原理工大学学报 ›› 2026, Vol. 57 ›› Issue (02) : 387 -396. DOI: 10.16355/j.tyut.1007-9432.20250288

非全知环境中的多智能体双向通讯顺序决策模型

    王垚森, 王莉
作者信息 +

Author information +
文章历史 +
PDF

摘要

【目的】多智能体系统(MAS)在多个领域取得了广泛应用,尤其是在工业控制和自动化领域。然而,在局部观测环境中,多智能体系统因信息缺失与动态策略交互面临非平稳性挑战,导致协作效率低下与学习收敛困难。提出一种基于双向通讯的多智能体顺序决策模型,通过序列化决策与双向信息交互缓解上述问题。【方法】首先,将传统并行决策转化为智能体依次决策的序列过程,降低策略冲突;其次,设计双向通讯模块,结合前向动作意图传递与反向注意力驱动的观测信息提取,增强全局感知能力;同时引入决策调度模块,动态评估智能体状态价值以优化决策顺序。实验基于星际争霸多智能体挑战(SMAC)环境,谷歌足球(GRF)环境,涵盖异构、同质及复杂对抗场景。【结果】结果表明,本文方法在胜率与收敛速度上显著优于基线算法,消融实验验证了双向通讯与决策调度模块的有效性。

关键词

多智能体强化学习 / 非平稳性问题 / 顺序决策架构 / 双向通信

Key words

引用本文

引用格式 ▾
非全知环境中的多智能体双向通讯顺序决策模型[J]. 太原理工大学学报, 2026, 57(02): 387-396 DOI:10.16355/j.tyut.1007-9432.20250288

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

3

访问

0

被引

详细

导航
相关文章

AI思维导图

/