基于深度强化学习的抗感知误差空战机动决策

田成滨, 李辉, 陈希亮, 吴冯国

doi:10.15961/j.jsuese.202300259

工程科学与技术 ›› 2024, Vol. 56 ›› Issue (06) : 270 -282. DOI: 10.15961/j.jsuese.202300259

基于深度强化学习的抗感知误差空战机动决策

田成滨, 李辉, 陈希亮, 吴冯国

作者信息 +

Author information +

文章历史 +

PDF

摘要

在视距内空战机动决策中，以光电传感器和雷达为代表的机载感知设备易受敌方干扰或气象因素等影响，产生态势感知误差。深度强化学习（DRL）在空战机动决策中虽已取得了重要进展，但现有方法并未考虑空战态势感知误差对DRL的影响。由于状态空间是连续且高维的，态势感知误差会影响状态估计的精度和准确性，进而影响DRL的训练速度及决策效果。针对上述问题，提出一种基于门控循环单元（GRU）提取态势特征的近端策略优化算法（GPPO）。首先，在近端策略优化算法（PPO）基础上引入门控循环单元来融合前序态势信息，提取连续态势序列之间的隐藏特征。随后，通过优势态势解算单元压缩DRL的状态空间维度，从而降低训练难度，并设计一种量化优势的奖励塑造（RS）方法来引导DRL训练加速收敛。最后，定义并描述了视距内空战的相对态势模型，通过设计和引入态势感知误差量，搭建具备态势感知误差的空战仿真环境，并在不同感知误差强度及不同敌我初始态势等多种场景下进行仿真对比实验。仿真结果表明：GPPO算法在具备态势感知误差的多种视距内空战场景里均能有效完成空战优势机动决策，使用GPPO和量化优势RS方法的模型训练收敛速度和机动决策性能均显著优于基础强化学习算法，有效提高了无人机面对态势感知误差时的空战机动决策能力。