融合强化学习自适应鲁棒控制算法的异构双阀协调控制策略仿真及实验

苏世杰; 程泳钦; 胡毅; 何建辉; 杨书吉

doi:10.3969/j.issn.1004-132X.2026.02.005

中国机械工程 ›› 2026, Vol. 37 ›› Issue (02) : 295 -303. DOI: 10.3969/j.issn.1004-132X.2026.02.005

先进流体系统设计与优化专栏

融合强化学习自适应鲁棒控制算法的异构双阀协调控制策略仿真及实验

苏世杰 ¹ ,
程泳钦 ¹ ,
胡毅 ¹^,² ,
何建辉 ¹ ,
杨书吉 ¹

作者信息 +

Simulation and Experimental on Coordination Control of Dual-Valve Electrohydraulic Servo Systems Based on Integration of Reinforcement Learning and Adaptive Robust Control Algorithm

Shijie SU ¹ ,
Yongqin CHENG ¹ ,
Yi HU ¹^,² ,
Jianhui HE ¹ ,
Shuji YANG ¹

Author information +

文章历史 +

PDF (3152K)

摘要

为提高异构双阀电液伺服系统的控制性能，在融合强化学习与自适应鲁棒控制算法的异构双阀协调控制策略SAC-ARC的基础上，开展SAC-ARC控制策略仿真分析及实验验证。首先利用AMESim和Simulink软件平台建立了液压系统联合仿真模型，分析了不同比例阀控制信号补偿策略下异构双阀电液伺服系统的跟踪性能。然后对比仿真了SAC-ARC与PID、ARC及RBF-ARC控制策略在多种复合信号及系统受到内外扰动等复杂工况下的跟踪误差，以验证其跟踪性能与鲁棒性。最后在搭建的实验平台上进行了实验验证。仿真与实验结果表明：SAC-ARC控制策略在各工况下均表现出优异的跟踪性能，其最大瞬态误差和累计跟踪误差均显著低于其他对比控制策略，验证了该控制策略在异构双阀电液伺服系统中的有效性与优越性。

Abstract

To enhance the control performance of a dual-valve electro-hydraulic servo system，this study conducts simulation analysis and experimental validation on a proposed coordinated control strategy， SAC-ARC， which integrates reinforcement learning with adaptive robust control.First， a co-simulation model of the hydraulic system was established using the AMESim and Simulink software platforms， and the tracking performance of the dual-valve electro-hydraulic servo system was analyzed under various proportional valve control signal compensation strategies. Subsequently， comparative simulations were performed to evaluate the tracking performance and robustness of the SAC-ARC strategy. The tracking errors of SAC-ARC were compared with those of PID， ARC， and RBF-ARC control strategies under complex working conditions， including various composite signals and the presence of internal and external disturbances. Finally， experimental validation was carried out on an established test platform. The simulation and experimental results demonstrate that the SAC-ARC control strategy exhibits superior tracking performance under all tested working conditions. Its maximum transient error and cumulative tracking error are both significantly lower than those of the comparative control strategies， thus validating the effectiveness and superiority of the proposed strategy for the dual-valve electro-hydraulic servo system.

Graphical abstract

关键词

电液伺服系统 / 双阀并联控制 / 流量分配 / 联合仿真

Key words

electrohydraulic servo system / dual-valve parallel control / flow allocation / co-simulation

引用本文

引用格式 ▾

苏世杰,程泳钦,胡毅,何建辉,杨书吉. 融合强化学习自适应鲁棒控制算法的异构双阀协调控制策略仿真及实验[J]. 中国机械工程, 2026, 37(02): 295-303 DOI:10.3969/j.issn.1004-132X.2026.02.005

登录浏览全文

4963

注册一个新账户忘记密码

0 引言

为满足当前高端工程装备对大流量、高精度及高动态性能电液伺服系统的需求，如何提升电液伺服系统的输出流量与控制精度逐渐成为该领域的研究热点^［1-5］。然而，高流量电液伺服阀由于成本高、结构复杂及可靠性不足等问题，在工程应用中受到较大限制。与此同时，仅依赖单一比例阀的电液伺服系统则不能兼顾流量输出与控制精度要求，难以满足复杂工况下的高性能控制需求^［6-9］。

近年来，有学者提出将比例阀的大流量特性与伺服阀的高精度控制能力相结合，构建双阀电液伺服系统，并围绕该系统开展了相应的控制策略研究^［10］。SU等^［11］通过建立双阀电液伺服系统模型，设计自适应鲁棒控制策略对系统不确定参数进行在线估计，结果表明该控制策略可提高系统的跟踪定位性能。WANG等^［12］针对双阀液压系统的故障特性建立了系统模型，并提出自适应鲁棒容错控制器以处理系统非线性与故障问题，实验结果验证了该方法在实现高精度控制的同时具备较好的系统安全性。SU等^［13］将PID算法与多变量预测控制算法相结合应用于双阀液压系统控制中，结果表明该控制策略较传统PID算法能够有效地提高电液伺服系统的动态响应性能和控制精度。

在前期工作中，笔者已设计了一种由比例阀与伺服阀并联组成的异构双阀电液伺服系统结构，并提出了基于SAC（soft actor-critic）与ARC（adaptive robust control）算法相结合的异构双阀协调控制策略SAC-ARC^［1］。在此基础上，本文进一步开展SAC-ARC控制策略的仿真分析与实验验证，以系统评估其在各种复杂工况下的动态性能、跟踪精度及鲁棒性，为异构双阀电液伺服系统的工程应用提供仿真与实验支撑。

1 异构双阀电液伺服系统建模

1.1 系统模型的构建

如图1所示，所构建的异构双阀电液伺服系统由比例阀与伺服阀并联组成，以兼顾系统的大流量输出能力与高精度控制性能。上层控制采用SAC算法，根据电液伺服系统的当前运行状态输出动作a_t，实现对下层ARC算法控制超参数的在线动态调节。ARC算法根据调节后的参数实时计算出系统当前所需总流量Q_y，并通过设计的流量分配策略将总流量分配给比例阀和伺服阀，从而输出相应的阀控信号。该控制策略不仅有效降低了双阀工作切换过程中时产生的瞬态误差，而且显著提升了系统的动态响应性能与位置跟踪精度。

1.2 仿真模型的构建

本文使用AMESim和Simulink软件联合搭建（图2），在AMESim中搭建图2a所示的液压系统仿真模型，主要由液压缸、伺服阀、比例阀、位移传感器、液压泵、溢流阀等元件组成。图2b所示为SAC-ARC控制策略（SARC）仿真模型，主要由强化学习控制策略、ARC控制策略、联合仿真模型（SARCAMESIM）等组成。AMESIM模型对应的参数设置见表1，强化学习SAC网络相关参数设置见表2。

在后续的仿真实验中，PID、ARC、RARC和SARC分别表示应用于被控系统的控制策略分别为传统的PID控制、ARC控制、基于径向基神经网络的自适应鲁棒控制（RBF-ARC）以及SAC-ARC控制。

1.3 对比实验的参数更新方式

本文选择融合RBF神经网络与ARC算法的RBF-ARC控制作为对比控制策略，并定义其输入与输出向量与SAC网络一致^［14-15］。RBF神经网络通过梯度下降的方式不断地调整ARC算法控制超参数

k V

和

k S

：

Δ k V = - η 1 ∂ E ∂ k V = - η 1 ∂ E ∂ y ∂ y ∂ Δ u ∂ Δ u ∂ k V =

η 1 e (k) ∂ y ∂ Δ u (2 e (t) - e (t - 1))

（1）

Δ k S = - η 2 ∂ E ∂ k S = - η 2 ∂ E ∂ y ∂ y ∂ Δ u ∂ Δ u ∂ k S =

η 2 e (k) ∂ y ∂ Δ u (2 e (t) - e (t - 1))

（2）

式中：e为系统的跟踪误差；E为神经网络的整定指标；分别采用学习率

η 1

、

η 2

对增量系数

Δ k V

和

Δ k S

进行调整。

控制参数

K V

和

K S

的更新公式如下：

K V = k V + Δ k V

（3）

K S = k S + Δ k S

（4）

1.4 训练样本设计

为提升SAC-ARC算法的性能与适用性，本文设计了不同类型的训练样本（表3）。其中，复合信号训练样本持续的时间为5 s，其他均为4 s。为增强SAC-ARC算法的鲁棒性，本文设计了带有外部负载突变（5~15 kN）和系统压力突变（4~7 MPa）的阶梯信号训练样本。为提升算法的适应性，本文还设计了包括复合斜坡信号、阶梯信号、方波信号以及时变正弦信号在内的多种训练样本。

2 仿真与结果分析

2.1 不同补偿模式异构双阀流量分配策略

针对文献［1］中的式（32），选取5组不同的比例阀控制信号补偿策略G₀~G₄（图3），其比例阀控制信号的开始补偿起始流量

Q o p e n

分别为

Q S m a x

、

3 Q S m a x / 4

、

Q S m a x / 2

、

Q S m a x / 4

、0。根据液压系统的参数设置（表1），

u S m a x = 10

、

Z u P m a x = 2

、

Q S m a x = 4

。所选取的ARC控制算法的控制参数为：

K V = 140, K S = 0.38

。

如图4所示，当系统从单伺服阀工作切换到双阀同时工作时（1.1~1.3 s），相比没有补偿流量时（策略G₀），补偿策略G₁~G₄均能减小切换时产生的瞬态误差。不同补偿策略下的最大瞬态误差如图5所示，相比策略G₀，策略G₁~G₄的最大瞬态误差分别减小25.8%、29.5%、31.1%和32.8%，通过G₄的补偿方式的比例阀输入信号能有效地减少系统出现阶跃性的变化。

2.2 复合信号跟踪响应

选取复合信号S₀进行跟踪测试，并分析被控系统在不同控制策略下的控制性能。选取的PID控制参数如下：伺服阀

K P = 18, K I = 12, K D = 0.01

，比例阀

K P = 6, K I = 10, K D = 0.01

；选取ARC算法的控制参数为

K V = 140, K S = 0.38

。强化学习的训练过程如图6所示，大致在第150回合后，训练过程收敛。

不同控制策略下系统在复合信号S₀的跟踪响应与跟踪误差如图7所示。在整个仿真周期中，PID控制策略都产生了最大的相位滞后误差。当液压缸从正向运动转入停止时（0.98~1.02 s），相比其他控制策略，SAC-ARC所产生的超调量最小，并能快速收敛到目标值。当系统目标跟踪信号发生改变时（3.50~3.53 s），具有强大参数调节能力的SAC-ARC控制策略产生的瞬态误差较小，且比其他控制策略更好地实现了快速收敛。

在跟踪复合信号过程中，RBF-ARC和SAC-ARC的控制参数变化如图8所示，其中RKV、RKS、SKV和SKS分别表示RBF-ARC和SAC-ARC控制策略中的控制参数

K V

和

K S

。可以看出，由于RBF神经网络结构简单，不能有效地学习异构双阀电液伺服系统的复杂的非线性特性，使得控制参数RKV和RKS的变化较为平缓，进而降低了系统的跟踪性能。结合图7、图8可以看出，当液压缸平稳运动或停止时，影响系统快速性的SKV值会自动减少，反之当运动速度变化剧烈时，SKV值则快速增大；当目标跟踪信号切换时，影响系统鲁棒性的SKS值会适当减小以促进瞬态跟踪误差的快速收敛，除此之外，SKS值均处于较高的状态以增强系统的稳定性。

图9所示为不同控制策略所产生的累计误差，相比PID、ARC及RBF-ARC控制策略， SAC-ARC控制策略的累计误差分别减小97.2%、44.7%和76.4%，表明SAC-ARC控制策略具有最优的性能。

2.3 随机内外扰动下的跟踪响应

为分析SAC-ARC控制策略在系统存在内部压力扰动和外部负载突变时的性能，选取的目标跟踪信号为阶梯信号（滑块速度10 mm/s，周期2 s，振幅10 mm），共有6种工况（W₁~W₆）。各工况受到的内外扰动见表4，其中P为内部压力从初始工作压力（14 MPa）下降至给定压力，

t 1

为压力扰动出现的时间，Z为突然施加的外部负载，

t 2

为负载施加的时间。伺服阀、比例阀的PID参数如下：

K P = 18, K I = 12, K D = 0.01

，

K P = 6, K I = 10, K D = 0.01

；ARC算法控制参数为：

K V = 140, K S = 0.38

。

图10所示为工况W₆的系统跟踪响应与误差，可以看出当出现10 kN的外部负载扰动时，SAC-ARC控制策略由于具有较强的参数调节能力，能快速抑制振荡，且产生的最大瞬态误差比PID、ARC及RBF-ARC控制策略分别减小46.3%、37.0%和25.4%。当系统压力突变时，SAC-ARC控制策略的系统产生抖动后，能快速恢复稳定状态。

相比PID、ARC和RBF-ARC策略，SAC-ARC控制策略的积分绝对误差（integral absolute error，IAE）值至少分别减小96.1%、62.1%和33.0%，见表5。

2.4 不确定性信号跟踪响应

分别选取复合斜坡信号、阶梯信号、方波信号和时变正弦信号进行跟踪测试，分析被控系统在不同控制策略的下的跟踪性能。不确定性信号选取如下：对于复合斜坡信号1和2，随机参数a分别取5和8；对于阶梯信号1和2，随机参数k分别取5和10；对于方波信号1和2，随机参数a分别取3和5；对于时变正弦信号1和2，随机参数a和b分别取4、1.5和6.10。所采用的控制参数如下：伺服阀PID参数

K P = 18, K I = 12, K D = 0.01

、比例阀PID参数

K P = 6, K I = 10, K D = 0.01

，ARC控制参数

K V = 140, K S = 0.38

。

不同控制策略在跟踪复合斜坡信号1时的跟踪响应与跟踪误差如图11所示。当被控液压缸活塞杆由停止转入正向运动时（0.5~0.7 s），所有的控制策略均会一定的瞬态误差，但相比PID、ARC及RBF-ARC控制策略，SAC-ARC控制策略产生的最大瞬态误差分别减小71.2%、62.7%和25.5%。当被控液压缸活塞杆由正向运动转入停止时（1.49~1.53 s），所有控制策略都产生一定的超调，相比其他控制策略，系统在SAC-ARC控制策略下能够实现跟踪误差快速收敛。

与跟踪复合斜坡信号类似，当跟踪阶梯信号（图12）与时变正弦信号（图13）时，除了PID控制策略会产生较大的跟踪误差外，ARC、RBF-ARC及SAC-ARC控制策略均具有较好的跟踪性能。但当被控液压缸活塞杆的运动状态发生改变时（图12中1.66~1.72 s、图13中1.46~1.54 s），SAC-ARC控制策略通过动态调节ARC控制参数

K V

和

K S

，进而增强了系统的跟踪性能，故产生的跟踪误差较小。

当跟踪方波信号（图14）时，由于被控伺服阀、比例阀本身的性能限制，故ARC、RBF-ARC及SAC-ARC控制策略均在目标跟踪信号突变时产生了较大的跟踪误差。但SAC-ARC控制策略依然表现出最好的性能，能无超调地以最短时间驱动被控液压缸活塞杆达到目标值。

不同控制策略跟踪上述10种不确定信号的IAE值见表6。可以看出在各种工况下，本文SAC-ARC控制策略均具有最小的跟踪误差。

3 实验验证

异构双阀协调控制系统实验平台如图15所示，主要由工控机、控制柜、液压站及实验平台组成。各种控制策略均由Simulink Desktop Real-Time平台实现，并通过安装在工控机内的多功能数据采集卡（NI PCIe-6321）控制伺服阀（ATOS DLHZO⁃TE⁃040⁃L01）和比例阀（ATOS DHZE-A-071-L3）的工作，最终实现对安装在实验平台中的液压缸的驱动。伺服阀、比例阀等各种液压元件的参数均与表1中给出的参数一致。

为验证SAC-ARC控制策略在真实环境下的控制性能，选取表3中复合信号S₀进行跟踪实验，所采用的ARC控制策略的控制参数为

K V = 140, K S = 0.38

。不同控制策略的跟踪响应与跟踪误差如图16所示，可以看出当活塞杆由正向运动转为停止时（0.98~1.06 s），SAC-ARC控制策略具有最小的跟踪误差和较小的超调量；当目标跟踪信号发生变化时（3.45~3.55 s），SAC-ARC控制策略同样具有最高的跟踪精度。

不同控制策略在跟踪复合信号S₀的累计误差如图17所示。当选用合适的控制参数

K V

和

K S

时，ARC控制策略能产生较小的累计误差，但当目标跟踪信号发生改变时，其跟踪误差也会逐渐增大。而本文SAC-ARC控制策略由于具有强大的参数自调节能力，能随着目标跟踪信号的变化动态地调整ARC控制参数

K V

和

K S

，从而有效地减小了系统的跟踪误差，提高了控制精度。

4 结论

1）本文在异构双阀电液伺服系统SAC-ARC控制策略的基础上建立了AMESIM-Simulink联合仿真模型，设计了包括复合斜坡信号、阶梯信号、方波信号以及时变正弦信号在内的多种训练样本以提升算法的鲁棒性，进一步分析了不同比例阀控制信号补偿策略下系统的跟踪响应性能。

2）仿真与实验结果表明，所提的SAC-ARC控制策略的性能优于PID、ARC及RBF-ARC等控制策略。当跟踪复合信号时，相比PID、ARC及RBF-ARC控制策略，SAC-ARC控制策略的累计误差分别减小97.2%、44.7%和76.4%；当系统受到内外扰动时，SAC-ARC策略产生的最大瞬态误差分别至少减小46.3%、37.0%及25.4%，而累计跟踪误差则至少减小96.1%、62.1%及33.0%。

3）与同样具有参数调节能力的RBF-ARC控制策略的对比结果表明， RBF神经网络不能有效地学习异构双阀协调控制电液伺服系统在不同工况下的动态非线性特性，而SAC-ARC控制策略则具有更强的学习能力，能更有效地对底层ARC算法控制参数的动态调节，从而有效地减小异构双阀并联控制系统的总体跟踪误差，提高了系统的控制精度与鲁棒性。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	苏世杰，程泳钦，胡毅，等.基于强化学习自适应鲁棒控制的异构双阀协调控制策略研究［J］. 中国机械工程，2025， 36（10）： 2335-2342.

[2]	SU Shijie， CHENG Yongqin， HU Yi， et al. Coordination Control of Dual-Valve Electrohydraulic Servo Systems Based on Integration of Reinforcement Learning and Adaptive Robust Control［J］. China Mechanical Engineering， 2025， 36（10）： 2335-2342.

[3]	Litong LYU， CHEN Zheng， YAO Bin， et al. Development of Parallel-connected Pump-valve-coordinated Control Unit with Improved Performance and Efficiency［J］. Mechatronics， 2020， 70： 102419.

[4]	LIU Yi， WANG Tao， GONG Guofang， et al. Present Status and Prospect of High-frequency Electro-hydraulic Vibration Control Technology［J］. Chinese Journal of Mechanical Engineering， 2019， 32（1）： 93.

[5]	QUAN Zhongyi， QUAN Long， ZHANG Jinman. Review of Energy Efficient Direct Pump Controlled Cylinder Electro-hydraulic Technology［J］. Renewable and Sustainable Energy Reviews， 2014， 35： 336-346.

[6]	YU Huan， CHEN Ying， SHI Wenzhao， et al. State Constrained Variable Structure Control for Active Heave Compensators［J］. IEEE Access， 2019， 7： 54770-54779.

[7]	XU Bing， DING Ruqi， ZHANG Junhui， et al. Modeling and Dynamic Characteristics Analysis on a Three-stage fast-response and Large-flow Directional Valve［J］. Energy Conversion and Management， 2014， 79： 187-199.

[8]	YU Shaojuan， SONG Junjun. Iterative Learning Control of Double Servo Valve Controlled Electro Hydraulic Servo System［C］∥2011 Seventh International Conference on Computational Intelligence and Security. IEEE， 2011： 278-282.

[9]	HE Jianhui， SU Shijie， WANG Hairong， et al. Online PID Tuning Strategy for Hydraulic Servo Control Systems via SAC-based Deep Reinforcement Learning［J］. Machines， 2023， 11（6）： 593.

[10]	姚静，寇成浩，尹钰鑫，等. 超高压大流量比例插装阀测试方法［J］. 中国机械工程， 2020， 31（6）： 638-646.

[11]	YAO Jing， KOU Chenghao， YIN Yuxin， et al. Test Methods of Ultra-high Pressure and Large Flow Proportional Cartridge Valves［J］. China Mechanical Engineering，2020， 31（6）： 638-646.

[12]	BAI Yanhong， QUAN Long. Improving electro-hydraulic System Performance by double-valve Actuation［J］. Transactions of the Canadian Society for Mechanical Engineering， 2016， 40（3）： 289-301.

[13]	SU Shijie， XUE Ting， CHEN Yun， et al. Harmonic Control of a Dual-valve Hydraulic Servo System with Dynamically Allocated Flows［J］. Asian Journal of Control， 2023， 25（3）： 1939-1956.

[14]	WANG Tianzhu， ZHANG Qiang， FANG Jinhui， et al. Active Fault-tolerant Control for the Dual-valve Hydraulic System with Unknown Dead-zone［J］. ISA Transactions， 2024， 145： 399-411.

[15]	SU Shijie， ZHU Yuanyuan， LI Cunjun， et al. Dual-valve Parallel Prediction Control for an Electro-hydraulic Servo System［J］. Science Progress， 2020， 103（1）： 0036850419875662.

[16]	WANG Bowen. Research on Nonlinear Calibration of Mine Catalytic-combustion-based Combustible-gas Sensor Based on RBF Neural Network［J］. Heliyon， 2023， 9（3）： e14055.

[17]	陈志勇，李攀，叶明旭，等.自动驾驶电动车辆基于参数预测的径向基函数神经网络自适应控制［J］.中国机械工程，2024，35（6）：982-992.

[18]	CHEN Zhiyong， LI Pan， YE Mingxu， et al. RBF Neural Network Adaptive Control Based on Parameter Prediction for Self-driving Electric Vehicles［J］. China Mechanical Engineering，2024，35（6）：982-992.