一种融合注意力机制的德扑计算机博弈决策模型

张小川; 梁渝卓; 彭丽蓉; 钱毅; 刘莉莉

doi:CNKI:SUN:CGGL.0.2025-08-011

重庆理工大学学报（自然科学版） ›› 2025, Vol. 39 ›› Issue (08) : 85 -89. DOI: CNKI:SUN:CGGL.0.2025-08-011

一种融合注意力机制的德扑计算机博弈决策模型

张小川, 梁渝卓, 彭丽蓉, 钱毅, 刘莉莉

作者信息 +

Author information +

文章历史 +

摘要

德州扑克是一种状态空间庞大的非完美信息博弈游戏，传统的决策模型依赖于人类先验知识，为此，以深度强化学习框架为基础，在零先验知识情况下，构造了一种德州扑克AI,较好地克服了神经虚拟自博弈(neural fictitious self play)算法的泛化能力差，通过不断与其他AI进行对弈，不断更新神经网络参数、持续提升决策精度。为进一步加快模型收敛速度、提高博弈能力，再引入注意力机制，赋予对手历史下注、弃牌等博弈动作权重知识，帮助德州扑克AI更好地分析对手打牌风格。实验数据表明：在与其他AI的对战结果中，德州扑克AI在5 000局对战中，击败了先验知识型AI和使用CFR算法的AI、使用NFSP算法的AI,证明本文中的德州扑克AI有效性、先进性较好。