一种融合注意力机制的德扑计算机博弈决策模型

张小川, 梁渝卓, 彭丽蓉, 钱毅, 刘莉莉

重庆理工大学学报(自然科学版) ›› 2025, Vol. 39 ›› Issue (08) : 85 -89.

PDF
重庆理工大学学报(自然科学版) ›› 2025, Vol. 39 ›› Issue (08) : 85 -89. DOI: CNKI:SUN:CGGL.0.2025-08-011

一种融合注意力机制的德扑计算机博弈决策模型

    张小川, 梁渝卓, 彭丽蓉, 钱毅, 刘莉莉
作者信息 +

Author information +
文章历史 +
PDF

摘要

德州扑克是一种状态空间庞大的非完美信息博弈游戏,传统的决策模型依赖于人类先验知识,为此,以深度强化学习框架为基础,在零先验知识情况下,构造了一种德州扑克AI,较好地克服了神经虚拟自博弈(neural fictitious self play)算法的泛化能力差,通过不断与其他AI进行对弈,不断更新神经网络参数、持续提升决策精度。为进一步加快模型收敛速度、提高博弈能力,再引入注意力机制,赋予对手历史下注、弃牌等博弈动作权重知识,帮助德州扑克AI更好地分析对手打牌风格。实验数据表明:在与其他AI的对战结果中,德州扑克AI在5 000局对战中,击败了先验知识型AI和使用CFR算法的AI、使用NFSP算法的AI,证明本文中的德州扑克AI有效性、先进性较好。

关键词

非完美信息博弈 / 德州扑克 / 深度强化学习 / 注意力机制

Key words

引用本文

引用格式 ▾
一种融合注意力机制的德扑计算机博弈决策模型[J]. 重庆理工大学学报(自然科学版), 2025, 39(08): 85-89 DOI:CNKI:SUN:CGGL.0.2025-08-011

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

238

访问

0

被引

详细

导航
相关文章

AI思维导图

/