基于渐近式k-means聚类的多行动者确定性策略梯度算法

刘全, 刘晓松, 吴光军, 刘禹含

吉林大学学报(理学版) ›› 2025, Vol. 63 ›› Issue (03) : 885 -894.

PDF (2696KB)
吉林大学学报(理学版) ›› 2025, Vol. 63 ›› Issue (03) : 885 -894. DOI: 10.13413/j.cnki.jdxblxb.2024028

基于渐近式k-means聚类的多行动者确定性策略梯度算法

    刘全, 刘晓松, 吴光军, 刘禹含
作者信息 +

Author information +
文章历史 +
PDF (2760K)

摘要

针对深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering, MDDPG-PK-Means)算法.在训练过程中,对每一时间步下的状态进行动作选择时,根据k-means算法判别结果辅佐行动者网络的决策,同时随训练时间步的增加,逐渐增加k-means算法类簇中心的个数.将MDDPG-PK-Means算法应用于MuJoCo仿真平台上,实验结果表明,与DDPG等算法相比,MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果.

关键词

深度强化学习 / 确定性策略梯度算法 / k-means聚类 / 多行动者

Key words

引用本文

引用格式 ▾
基于渐近式k-means聚类的多行动者确定性策略梯度算法[J]. 吉林大学学报(理学版), 2025, 63(03): 885-894 DOI:10.13413/j.cnki.jdxblxb.2024028

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF (2696KB)

140

访问

0

被引

详细

导航
相关文章

AI思维导图

/