结合PPO和蒙特卡洛树搜索的斗地主博弈模型

王世鹏, 王亚杰, 吴燕燕, 郭其龙, 赵甜宇

重庆理工大学学报(自然科学版) ›› 2025, Vol. 39 ›› Issue (08) : 126 -133.

PDF
重庆理工大学学报(自然科学版) ›› 2025, Vol. 39 ›› Issue (08) : 126 -133. DOI: CNKI:SUN:CGGL.0.2025-08-017

结合PPO和蒙特卡洛树搜索的斗地主博弈模型

    王世鹏, 王亚杰, 吴燕燕, 郭其龙, 赵甜宇
作者信息 +

Author information +
文章历史 +
PDF

摘要

斗地主是一种典型的非完备信息博弈,由于具有多人博弈、动作空间庞大、合作与竞争并存等决策需求,单一的蒙特卡洛树搜索在应用时存在效率低的问题。为提升蒙特卡洛树搜索的策略效果和搜索效率,提出一种基于近端策略优化(proximal policy optimization, PPO)算法结合蒙特卡洛树搜索的斗地主博弈模型。利用PPO算法学习斗地主中的牌局和策略信息,训练出可根据当前局面提供动作概率的策略模型,为蒙特卡洛树搜索的选择和模拟阶段提供策略指导。在选择阶段,通过PPO策略模型输出的动作概率优化策略选择公式,指导高质量动作节点的选择。在模拟阶段,PPO替代了随机模拟过程,使模拟更加符合策略,减少低效路径的探索。实验结果表明:结合PPO优化后的蒙特卡洛树搜索不仅提高了决策的效率,还提升了模型的胜率,表现出较强的斗地主博弈决策优势。

关键词

PPO算法 / 蒙特卡洛树搜索 / 斗地主 / 非完备信息博弈

Key words

引用本文

引用格式 ▾
结合PPO和蒙特卡洛树搜索的斗地主博弈模型[J]. 重庆理工大学学报(自然科学版), 2025, 39(08): 126-133 DOI:CNKI:SUN:CGGL.0.2025-08-017

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

233

访问

0

被引

详细

导航
相关文章

AI思维导图

/