基于强化学习的合作线性二次微分博弈研究

赵子豪, 彭称称, 张维海

山东科技大学学报(自然科学版) ›› 2025, Vol. 44 ›› Issue (04) : 121 -130.

PDF
山东科技大学学报(自然科学版) ›› 2025, Vol. 44 ›› Issue (04) : 121 -130. DOI: 10.16452/j.cnki.sdkjzk.2025.04.012

基于强化学习的合作线性二次微分博弈研究

    赵子豪, 彭称称, 张维海
作者信息 +

Author information +
文章历史 +
PDF

摘要

本研究利用强化学习研究了系统部分未知的无限时域合作线性二次微分博弈的Pareto最优性问题。首先,在仅知道部分系统动力学矩阵参数的前提下,通过收集每个玩家的状态信息来推导策略迭代算法,得到相应代数黎卡提方程的近似解;然后,通过递归推导严格证明了算法的收敛性。在凸优化理论的基础上,采用加权法求解Pareto最优策略和Pareto最优解。最后,通过仿真结果验证了所提理论算法的可行性。

关键词

策略迭代 / Pareto最优 / 合作微分博弈 / 线性二次理论 / 强化学习

Key words

引用本文

引用格式 ▾
基于强化学习的合作线性二次微分博弈研究[J]. 山东科技大学学报(自然科学版), 2025, 44(04): 121-130 DOI:10.16452/j.cnki.sdkjzk.2025.04.012

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

238

访问

0

被引

详细

导航
相关文章

AI思维导图

/