基于数学理论的深度强化学习算法收敛速度与稳定性研究

杨亚楠, 常慧

信息记录材料 ›› 2026, Vol. 27 ›› Issue (7) : 179 -181.

PDF
信息记录材料 ›› 2026, Vol. 27 ›› Issue (7) : 179 -181. DOI: 10.16009/j.issn.1009-5624.2026.07.058

基于数学理论的深度强化学习算法收敛速度与稳定性研究

    杨亚楠, 常慧
作者信息 +

Author information +
文章历史 +
PDF

摘要

针对深度强化学习算法在复杂环境下训练效率偏低、收敛过程易波动等问题,本文引入数学分析视角对收敛速度与稳定性开展研究。首先,在马尔可夫决策过程建模基础上,将参数更新过程抽象为随机近似迭代,并结合李雅普诺夫(Lyapunov)稳定性分析方法,构建收敛性与稳定性分析框架。其次,在此框架下,围绕学习率设置、价值函数逼近误差与策略更新机制等因素,讨论其对收敛速度与稳定性产生影响的路径,并给出相应改进思路。最后,实验对比结果表明:引入数学约束后,算法进入稳定区间所需迭代次数减少,策略演化过程的波动幅度降低,可为深度强化学习工程应用提供理论层面的参考。

关键词

深度强化学习 / 数学理论 / 收敛速度 / 稳定性分析 / 算法优化

Key words

引用本文

引用格式 ▾
杨亚楠, 常慧. 基于数学理论的深度强化学习算法收敛速度与稳定性研究[J]. 信息记录材料, 2026, 27(7): 179-181 DOI:10.16009/j.issn.1009-5624.2026.07.058

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/