引入威胁空间搜索的五子棋深度强化学习方法

牛学芬, 王子游, 陈灵, 吴育华, 刘雨泽, 徐长明

重庆理工大学学报(自然科学版) ›› 2025, Vol. 39 ›› Issue (08) : 118 -125.

PDF
重庆理工大学学报(自然科学版) ›› 2025, Vol. 39 ›› Issue (08) : 118 -125. DOI: CNKI:SUN:CGGL.0.2025-08-016

引入威胁空间搜索的五子棋深度强化学习方法

    牛学芬, 王子游, 陈灵, 吴育华, 刘雨泽, 徐长明
作者信息 +

Author information +
文章历史 +
PDF

摘要

结合蒙特卡罗树搜索与深度神经网络的深度强化学习方法,已经成为解决复杂博弈问题的基准方法,但仍面临奖励稀疏及训练成本高等问题。为此,提出引入威胁空间搜索的五子棋深度强化学习方法:首先,设计了嵌入到蒙特卡罗树搜索的统一威胁空间搜索算法,缓解了奖励稀疏的问题;其次,提出了基于领域知识的双层知识库,加快算法搜索速度;此外,将威胁动作空间作为神经网络的输入特征,增强了模型对关键局部形势的感知能力;最后;利用走法过滤机制有效缩小了动作空间。实验结果表明:上述改进措施显著提升了自博弈程序的学习速度和竞技水平。

关键词

蒙特卡罗树搜索 / 深度神经网络 / 威胁空间搜索 / 自博弈

Key words

引用本文

引用格式 ▾
引入威胁空间搜索的五子棋深度强化学习方法[J]. 重庆理工大学学报(自然科学版), 2025, 39(08): 118-125 DOI:CNKI:SUN:CGGL.0.2025-08-016

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

156

访问

0

被引

详细

导航
相关文章

AI思维导图

/