深度强化学习的通用插件研究综述

钟欣见, 王永华, 李明

河北科技大学学报 ›› 2024, Vol. 45 ›› Issue (04) : 362 -372.

PDF
河北科技大学学报 ›› 2024, Vol. 45 ›› Issue (04) : 362 -372.

深度强化学习的通用插件研究综述

    钟欣见, 王永华, 李明
作者信息 +

Author information +
文章历史 +
PDF

摘要

深度强化学习的通用插件是一种可附加于大部分原生算法之上,并与其他种类插件兼容的算法类型。根据环境的不同,原生算法加入合适的插件后形成了不同的变体,并在训练速度、稳定性等方面取得了更好的效果。根据各类变体包含的通用插件在训练流程中的共性,将它们分为了6类,包括通用网络模型、内在奖励、经验回放、自我博弈、模仿学习和课程学习。综述了这6类算法中常用的通用插件,介绍了它们的应用场景和在深度强化学习中的主要作用,提出了未来的研究重点:1)提高经验利用效率;2)设计和训练出通用神经网络架构;3)提高算法在稀疏奖励环境的探索效率;4)提高算法在现实中应对各种突发状况的能力。

关键词

人工智能理论 / 通用插件 / 深度强化学习 / 模型设计 / 内在奖励 / 经验回放 / 自我博弈

Key words

引用本文

引用格式 ▾
深度强化学习的通用插件研究综述[J]. 河北科技大学学报, 2024, 45(04): 362-372 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

33

访问

0

被引

详细

导航
相关文章

AI思维导图

/