结合注意力机制与深度强化学习的无人机智能追踪方法

江未来; 王文路; 王耀南

doi:10.16339/j.cnki.hdxbzkb.2026261

湖南大学学报（自然科学版） ›› 2026, Vol. 53 ›› Issue (4) : 1 -9. DOI: 10.16339/j.cnki.hdxbzkb.2026261

结合注意力机制与深度强化学习的无人机智能追踪方法

江未来, 王文路, 王耀南

作者信息 +

Author information +

文章历史 +

摘要

针对深度强化学习算法在求解复杂环境下动态目标的无人机智能追踪问题时存在的收敛速度慢、成功率低、模型泛用性差等问题，将注意力机制与深度确定性策略梯度（deep deterministic policy gradient, DDPG）结合，提出了attention-DDPG模型，并在此基础上结合多经验池方法，搭建了一种新的深度强化学习算法——多经验池注意力深度确定性策略梯度（multi pool attention deep deterministic policy gradient, MPADDPG）算法.算法将注意力机制加入DDPG的Actor网络，赋予状态中各个分量不同的权重来突出重要且关键的信息，并引入多经验池机制分离失败经验，强化成功经验，提升了算法的收敛性；更进一步，通过赋予无人机环境感知能力，提升了算法的泛化能力.最后，在建立的无人机的连续状态空间与动作空间中验证了MPADDPG算法的有效性.仿真结果表明，MPADDPG算法的智能追踪成功率超过90%，较DDPG算法具有更高的追踪成功率与更强的泛化能力.