基于强化监督协同学习的斗地主博弈策略研究

梅险; 姜彦新; 赵一峰; 王建东; 于逸潇; 郑子龙

doi:CNKI:SUN:CGGL.0.2025-08-018

重庆理工大学学报（自然科学版） ›› 2025, Vol. 39 ›› Issue (08) : 134 -139. DOI: CNKI:SUN:CGGL.0.2025-08-018

基于强化监督协同学习的斗地主博弈策略研究

梅险, 姜彦新, 赵一峰, 王建东, 于逸潇, 郑子龙

作者信息 +

Author information +

文章历史 +

摘要

斗地主是中国民间最流行的纸牌玩法之一，具有不完全信息博弈和随机博弈的特征。在斗地主博弈过程中，既有攻守双方的对抗又有同伴之间的合作，是目前最复杂的博弈类型之一。分析了斗地主的博弈过程，从参与者、历史集合、参与者函数、信息空间、自然概率分布函数和参与者的偏好等6个方面描述了斗地主的博弈模型。模型为研究斗地主计算机博弈的理论或程序算法提供了理论依据和参考。研究将强化学习的DDQN(double deep Q-network)算法应用于叫牌出牌策略，针对实战中动态队友匹配机制造成的稳定性缺陷，引入监督学习的决策树策略优化，通过实验证明，强化学习和监督学习协同合作显著提升了系统的实战性能。