基于Gauss过程的连续值老虎机模型算法应用

张慧铭, 周鹏杰, 王磊

数学建模及其应用 ›› 2025, Vol. 14 ›› Issue (03) : 35 -43.

PDF
数学建模及其应用 ›› 2025, Vol. 14 ›› Issue (03) : 35 -43. DOI: 10.19943/j.2095-3070.jmmia.2025.03.04

基于Gauss过程的连续值老虎机模型算法应用

    张慧铭, 周鹏杰, 王磊
作者信息 +

Author information +
文章历史 +
PDF

摘要

在机器学习与AI领域中,连续值老虎机模型作为一种黑箱随机优化模型,与传统老虎机问题类似,旨在探索与利用之间实现精妙的权衡.探索通过在连续动作空间选取样本点,揭示奖励函数的随机特性;利用基于现有信息,选择能够最大化预期收益的动作.本文创新性地将多臂老虎机极大极小Thompson采样算法(MOTS)引入离散化连续值老虎机模型,并基于厂房温度与高速公路数据进行实证分析.结果表明,对于离散化连续值老虎机模型,在长时间范围内,MOTS在平均遗憾上优于主流的Gauss过程-置信上界(GP-UCB)与Gauss过程-Thompson采样(GP-TS)算法;在短时间范围内,GP-TS表现优于GP-UCB,而MOTS相对逊色.真实数据场景不仅检验了老虎机算法效能,更彰显了统计学原理在强化学习中的深刻应用.

关键词

强化学习 / 多臂老虎机模型 / 探索与利用 / 黑箱优化模型 / 置信上界算法 / 极大极小Thompson算法

Key words

引用本文

引用格式 ▾
基于Gauss过程的连续值老虎机模型算法应用[J]. 数学建模及其应用, 2025, 14(03): 35-43 DOI:10.19943/j.2095-3070.jmmia.2025.03.04

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

171

访问

0

被引

详细

导航
相关文章

AI思维导图

/