深度强化学习局部策略迁移方法

史腾飞; 王莉; 臧嵘

doi:10.16355/j.tyut.1007-9432.20230016

太原理工大学学报 ›› 2024, Vol. 55 ›› Issue (04) : 705 -711. DOI: 10.16355/j.tyut.1007-9432.20230016

深度强化学习局部策略迁移方法

史腾飞, 王莉, 臧嵘

作者信息 +

Author information +

文章历史 +

PDF

摘要

【目的】强化学习策略迁移是一条降低深度强化学习训练消耗的有效途径，其中，局部策略迁移是在较小粒度上实现策略的迁移，它对整体策略性能的提升和策略灵活组合形成新整体策略有重要意义。提出了深度强化学习局部策略迁移方法。【方法】借鉴了软件工程中“高内聚，低耦合”的思想，通过对作为策略载体的神经网络进行划分，使得不同子神经网络承载不同局部策略，然后通过对子神经网络的迁移，实现局部策略迁移。该方法支持局部策略灵活替换和组合，形成性能更优秀和适应新环境的新总策略。选取经典深度强化学习算法DQN作为实验算法，对比DQN算法使用本文方法前后的迁移能力和表现性能。【结果】结果表明，DQN算法使用本文方法后实现了局部策略迁移的同时表现性能还提升了约27.5%.