基于深度强化学习的双置换表优化算法研究

王栋年, 王军伟, 薛世超, 汪超, 徐长明

重庆理工大学学报(自然科学版) ›› 2024, Vol. 38 ›› Issue (05) : 145 -153.

PDF
重庆理工大学学报(自然科学版) ›› 2024, Vol. 38 ›› Issue (05) : 145 -153. DOI: CNKI:SUN:CGGL.0.2024-05-019

基于深度强化学习的双置换表优化算法研究

    王栋年, 王军伟, 薛世超, 汪超, 徐长明
作者信息 +

Author information +
文章历史 +
PDF

摘要

基于深度强化学习的计算机博弈程序(如AlphaGo)已在围棋上战胜了人类世界冠军。这些算法利用可学习的价值神经网络和策略神经网络指导蒙特卡洛树的探索。为提高蒙特卡洛树的搜索性能,已提出多种改进方法,其中置换表已被证明可提高搜索效率。在此基础上,提出一种新的基于置换表的方法——基于深度强化学习的双置换表优化算法。该方法使用不同的替换策略管理双层置换表,并将六子棋的两步落子解耦为2个独立的神经网络。这不仅减小了动作空间规模,也更易于神经网络训练。以六子棋为例进行的实验结果表明,在有限的计算资源下,该方法能显著提升棋局哈希命中率和程序棋力水平。

关键词

深度强化学习 / 置换表 / 计算机博弈 / AlphaGo / 蒙特卡洛树

Key words

引用本文

引用格式 ▾
基于深度强化学习的双置换表优化算法研究[J]. 重庆理工大学学报(自然科学版), 2024, 38(05): 145-153 DOI:CNKI:SUN:CGGL.0.2024-05-019

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

81

访问

0

被引

详细

导航
相关文章

AI思维导图

/