基于随机集成网络-TD3的四足机器人步态学习方法

朱晓庆, 朱晓宇, 阮晓钢, 南博睿, 毕兰越

北京工业大学学报 ›› 2026, Vol. 52 ›› Issue (04) : 371 -379.

PDF
北京工业大学学报 ›› 2026, Vol. 52 ›› Issue (04) : 371 -379.

基于随机集成网络-TD3的四足机器人步态学习方法

    朱晓庆, 朱晓宇, 阮晓钢, 南博睿, 毕兰越
作者信息 +

Author information +
文章历史 +
PDF

摘要

为解决四足机器人技能学习领域中双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法中存在Q值低估导致价值估计不准确,从而出现学习效果恶化的问题,提出一种随机集成网络-TD3(randomized ensembled network-TD3,RE-TD3)算法。首先,该算法集成多个Q值网络,并随机选取Q值网络进行评估,缓解价值估计不准确的问题,有效提高策略性能;其次,设计合适的奖励函数以正确引导四足机器人的步态学习任务;最后,设置仿真实验进行验证。实验结果表明,该算法能够使四足机器人学习到良好的运动步态,与TD3算法相比,奖励值提高了32%,机体稳定性提高了约67%,期望方向偏离量提高了60%。

关键词

强化学习 / 四足机器人 / 双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3) / 奖励函数 / 步态学习 / 集成网络

Key words

引用本文

引用格式 ▾
朱晓庆, 朱晓宇, 阮晓钢, 南博睿, 毕兰越. 基于随机集成网络-TD3的四足机器人步态学习方法[J]. 北京工业大学学报, 2026, 52(04): 371-379 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/