时空注意力驱动的分组异步多智能体强化学习框架

陈涛, 唐静峰, 成科扬, 彭长生

小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (12) : 2876 -2883.

PDF
小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (12) : 2876 -2883. DOI: 10.20009/j.cnki.21-1106/TP.2024-0487

时空注意力驱动的分组异步多智能体强化学习框架

    陈涛, 唐静峰, 成科扬, 彭长生
作者信息 +

Author information +
文章历史 +
PDF

摘要

在无人驾驶、智能制造和自动化物流等实际应用中,智能体需要高效协同以应对复杂多变的场景.然而,现有的合作模型对合作动态变化的刻画仍显不足.为解决这一问题,提出一种结合动态时空注意力机制和分组异步学习策略的多智能体强化学习框架.该框架能够更好地捕捉智能体之间的时空协作特性,并提高系统的训练效率与稳定性.框架中的动态时空注意力网络通过时域卷积网络分析智能体的轨迹,扩展卷积范围以捕捉更大范围的依赖关系,即使没有显式位置编码,也能通过多层卷积逐步聚合上下文信息,提升时空特征的表达能力.通过计算智能体间的动态影响权重,模型能够优化关键注意力的分配,从而提升多智能体的协作效率,特别是在复杂动态合作任务中.此外,分组异步更新模块通过将智能体分组并异步更新,显著提高训练效率和稳定性.组内智能体采用同步更新策略,组间则采用异步更新,从而减少梯度波动,增强系统的鲁棒性.实验结果表明,该方法在保持高效性和鲁棒性的同时,能够更全面地建模智能体间复杂的协作动态关系.

关键词

多智能体系统 / 多智能体强化学习 / 动态时空注意力 / 分组异步更新 / 协作智能体

Key words

引用本文

引用格式 ▾
时空注意力驱动的分组异步多智能体强化学习框架[J]. 小型微型计算机系统, 2025, 46(12): 2876-2883 DOI:10.20009/j.cnki.21-1106/TP.2024-0487

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

97

访问

0

被引

详细

导航
相关文章

AI思维导图

/