一种面向博弈场景的PPO-Dueling DQN策略优化方法

刘鹏程, 汪永伟, 余欣鋆, 刘小虎, 胡浩

小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (11) : 2594 -2599.

PDF
小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (11) : 2594 -2599. DOI: 10.20009/j.cnki.21-1106/TP.2024-0472

一种面向博弈场景的PPO-Dueling DQN策略优化方法

    刘鹏程, 汪永伟, 余欣鋆, 刘小虎, 胡浩
作者信息 +

Author information +
文章历史 +
PDF

摘要

传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩罚机制,实现目标函数损失和值函数损失的同步更新,进而优化模型的损失函数和策略选择,另一方面能更加实时地提取博弈过程中的状态价值和动作优势,从而避免依靠单一指标进行策略更新和效能评估.通过对比实验,验证了面向网络博弈模型的PPO-Dueling DQN算法在学习能力、收敛速度和自适应效能等指标上的优化效果,并进行了关于折扣因子的参数分析以更好地评估模型效能,实验结果证明本文提出的算法相对于基准模型具有一定的性能优势.

关键词

强化学习 / 深度Q网络 / PPO算法 / 网络攻防博弈 / 效能评估

Key words

引用本文

引用格式 ▾
一种面向博弈场景的PPO-Dueling DQN策略优化方法[J]. 小型微型计算机系统, 2025, 46(11): 2594-2599 DOI:10.20009/j.cnki.21-1106/TP.2024-0472

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

87

访问

0

被引

详细

导航
相关文章

AI思维导图

/