基于滑动窗口的非稳态环境Q-learning算法改进

王文杰

信息记录材料 ›› 2025, Vol. 26 ›› Issue (11) : 70 -72.

PDF
信息记录材料 ›› 2025, Vol. 26 ›› Issue (11) : 70 -72. DOI: 10.16009/j.cnki.cn13-1295/tq.2025.11.029

基于滑动窗口的非稳态环境Q-learning算法改进

    王文杰
作者信息 +

Author information +
文章历史 +
PDF

摘要

Q学习(Q-learning)算法是强化学习领域最经典的算法之一,与在其基础上构建的多种算法凭借低计算资源需求、高可解释性等独特优势,在静态环境下的学习问题中表现良好。然而,在更贴合实际的非稳态环境下,Q-learning算法面临收敛速率降低、收敛过程稳定性差等问题。本研究提出了一种基于指数衰减滑动窗口的Q-learning算法,通过引入监控窗口机制,提高智能体对策略效果变化的敏感性,并通过动态调整探索率使智能体适应环境变化,从而优化传统Q-learning算法在非稳态环境中的收敛性能。在改进的MountainCar环境中的对比实验结果表明,相比传统Q-learning算法,改进算法在应对环境随机性时具有显著优势,适应性与稳定性均有显著提升。

关键词

强化学习 / Q学习 / 非稳态环境 / 滑动窗口

Key words

引用本文

引用格式 ▾
基于滑动窗口的非稳态环境Q-learning算法改进[J]. 信息记录材料, 2025, 26(11): 70-72 DOI:10.16009/j.cnki.cn13-1295/tq.2025.11.029

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

63

访问

0

被引

详细

导航
相关文章

AI思维导图

/