基于TD3的高超声速再入弹道动态规划方法

张瀚; 王正强; 王立峰; 王德昊; 张勋

弹道学报 ›› 2025, Vol. 37 ›› Issue (4) : 48 -56.

张瀚, 王正强, 王立峰, 王德昊, 张勋

作者信息 +

Author information +

文章历史 +

摘要

高超声速飞行器在突防过程中需同时满足热流、动压、过载等物理约束以及禁飞区、拦截弹等多重任务约束。传统轨迹规划方法难以在毫秒级时间内完成满足上述所有约束的同时实时规划与决策。为此，提出了一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法的弹道动态规划方法。该方法将再入弹道规划问题建模为马尔可夫决策过程，通过合理定义状态空间与动作空间，并构建融合多约束的复合奖励函数，驱动智能体在仿真环境中自主学习最优控制策略。该奖励函数综合考虑了热流密度、动压、过载等路径约束，以及禁飞区避让和拦截弹规避等任务目标，实现了多目标之间的有效平衡。仿真结果表明，本文方法能够在满足所有严格路径约束的同时，精确命中终端位置，有效提升再入飞行的鲁棒性与自主决策能力。与主流SAC算法的对比进一步验证了所提算法在控制指令平滑性、训练效率和策略稳定性方面的优势，为高超声速飞行器在复杂拦截环境下的智能制导提供了一种可行且高效的解决方案。