基于改进强化学习的复杂海况下船舶升沉补偿控制研究

张琴, 周静宜, 王星月, 胡雄

工程科学与技术 ›› 2025, Vol. 57 ›› Issue (04) : 123 -137.

PDF
工程科学与技术 ›› 2025, Vol. 57 ›› Issue (04) : 123 -137.

基于改进强化学习的复杂海况下船舶升沉补偿控制研究

作者信息 +

Author information +
文章历史 +
PDF

摘要

受多变海况下风浪涌影响,剧烈的船舶随机运动威胁着海上风机吊载安装的安全性,并对海上作业和人员换乘等造成不好的影响。为提高海上作业的可靠性、安全性和稳定性,针对船舶升沉运动补偿中面临的环境多变和建模不准确的问题,提出基于改进强化学习的复杂海况下船舶升沉补偿控制方法。首先,对由伺服驱动器、伺服电机及编码器和电动缸构成的补偿系统进行机理法建模,作为强化学习训练的环境。其次,通过马尔可夫决策过程描述智能体的策略和奖励,同时采用双延迟深度确定策略梯度算法(TD3)强化学习算法作为控制策略,将Actor网络中的输出层TanH层的幅值扩大两倍,使TD3算法能更好地应对复杂海况,并通过主网络和目标网络的Actor和Critic 6个网络的迭代更新,得到自学习的最优控制动作输出。最后,添加OU动作噪声到目标策略中,能够更好地探索状态空间,并通过组合奖励函数改善智能体的学习和决策能力,使智能体可以适应复杂海况下的强化学习任务,在不同海况等级下利用已知的信息找到最优解,从而避免陷入局部最优,以提高船舶升沉运动的补偿精度。仿真结果表明,在恶劣的复杂海况下改进TD3算法有较好的补偿控制效果;将训练好的模型用于3~6级以及历时更长的变海况环境下的船舶升沉运动补偿,其补偿效率最高可达到99.95%,优于PSO优化的反步法控制和传统TD3强化学习方法,体现了良好的泛化性。

关键词

复杂海况环境 / 船舶升沉运动 / 补偿控制系统 / TD3强化学习

Key words

引用本文

引用格式 ▾
张琴, 周静宜, 王星月, 胡雄. 基于改进强化学习的复杂海况下船舶升沉补偿控制研究[J]. 工程科学与技术, 2025, 57(04): 123-137 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

18

访问

0

被引

详细

导航
相关文章

AI思维导图

/