基于数学理论的深度强化学习算法收敛速度与稳定性研究

杨亚楠; 常慧

doi:10.16009/j.issn.1009-5624.2026.07.058

信息记录材料 ›› 2026, Vol. 27 ›› Issue (7) : 179 -181. DOI: 10.16009/j.issn.1009-5624.2026.07.058

基于数学理论的深度强化学习算法收敛速度与稳定性研究

杨亚楠, 常慧

作者信息 +

Author information +

文章历史 +

PDF

摘要

针对深度强化学习算法在复杂环境下训练效率偏低、收敛过程易波动等问题，本文引入数学分析视角对收敛速度与稳定性开展研究。首先，在马尔可夫决策过程建模基础上，将参数更新过程抽象为随机近似迭代，并结合李雅普诺夫(Lyapunov)稳定性分析方法，构建收敛性与稳定性分析框架。其次，在此框架下，围绕学习率设置、价值函数逼近误差与策略更新机制等因素，讨论其对收敛速度与稳定性产生影响的路径，并给出相应改进思路。最后，实验对比结果表明：引入数学约束后，算法进入稳定区间所需迭代次数减少，策略演化过程的波动幅度降低，可为深度强化学习工程应用提供理论层面的参考。