基于DBSDER-QL算法的应急物资分配策略

杨皓, 张池军, 张辛未

吉林大学学报(理学版) ›› 2025, Vol. 63 ›› Issue (04) : 1105 -1116.

PDF
吉林大学学报(理学版) ›› 2025, Vol. 63 ›› Issue (04) : 1105 -1116. DOI: 10.13413/j.cnki.jdxblxb.2025049

基于DBSDER-QL算法的应急物资分配策略

    杨皓, 张池军, 张辛未
作者信息 +

Author information +
文章历史 +
PDF

摘要

针对自然灾害应急物资分配的问题,提出一种基于动态Boltzmann Softmax(DBS)和动态探索率(DER)的Q-learning算法(dynamic Boltzmann Softmax and dynamic exploration rate based-Q-learning, DBSDER-QL).首先,采用动态Boltzmann Softmax策略,通过动态调整动作价值的权重,促进算法的稳定收敛,解决了最大运算符的过度贪婪问题.其次,采用动态探索率策略提高算法的收敛性和稳定性,解决了固定探索率Q-learning算法在训练后期无法完全收敛到最优策略的问题.最后,通过消融实验验证了DBS和DER策略的有效性.与动态规划算法、贪心算法及传统Q-learning算法进行对比的实验结果表明,DBSDER-QL算法在总成本和计算效率方面均明显优于传统方法,展现了更高的适用性和有效性.

关键词

物资分配 / 强化学习 / Q-learning算法 / 动态探索率 / 动态Boltzmann Softmax

Key words

引用本文

引用格式 ▾
基于DBSDER-QL算法的应急物资分配策略[J]. 吉林大学学报(理学版), 2025, 63(04): 1105-1116 DOI:10.13413/j.cnki.jdxblxb.2025049

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

143

访问

0

被引

详细

导航
相关文章

AI思维导图

/