特征–奖励对齐的深度强化学习架构设计

火久元; 黄腾飞

兰州交通大学学报 ›› 2026, Vol. 45 ›› Issue (02) : 53 -60.

特征–奖励对齐的深度强化学习架构设计

火久元, 黄腾飞

作者信息 +

Author information +

文章历史 +

PDF

摘要

针对深度强化学习在多智能体环境中普遍存在的特征与奖励机制难以匹配、从而导致算法有效性与适用性不足的问题，提出了一种架构–特征–奖励协同设计框架（AFRD），用于系统性地指导单智能体方法向多智能体场景扩展。该框架依托CTDE(centralized training with decentralized execution)，在特征层面引入关键的本地与全局信息，在奖励层面对齐个体目标与系统整体目标，从而形成具有可迁移性的设计思路。接着以边缘计算任务卸载为应用背景，基于AFRD框架在PPO算法上实现了AFRD-PPO，并在三种典型卸载模式下开展实验，对比不同特征与奖励机制组合的收敛性能表现，并进一步分析其对收敛平稳性的影响。实验结果表明，AFRD框架能够有效提升深度强化学习在多智能体环境中的收敛稳定性与适用性。研究为相关领域的研究与应用提供了有益的参考与借鉴。