基于强化学习自适应鲁棒控制的异构双阀协调控制策略研究

苏世杰; 程泳钦; 胡毅; 何建辉; 杨书吉

doi:10.3969/j.issn.1004-132X.2025.10.022

中国机械工程 ›› 2025, Vol. 36 ›› Issue (10) : 2335 -2342. DOI: 10.3969/j.issn.1004-132X.2025.10.022

机械基础工程

基于强化学习自适应鲁棒控制的异构双阀协调控制策略研究

苏世杰 ¹ ,
程泳钦 ¹ ,
胡毅 ¹^,² ,
何建辉 ¹ ,
杨书吉 ¹

作者信息 +

Coordination Control of Dual-valve Electrohydraulic Servo Systems Based on Integration of Reinforcement Learning and Adaptive Robust Control

Shijie SU ¹ ,
Yongqin CHENG ¹ ,
Yi HU ¹^,² ,
Jianhui HE ¹ ,
Shuji YANG ¹

Author information +

文章历史 +

PDF (1739K)

摘要

采用小流量伺服阀和大流量比例阀并联驱动同一个执行元件的异构双阀电液伺服系统具有成本低、流量大、精度高的优势，但当系统参数发生变化或受到内外扰动时，其控制性能和稳定性会急剧下降。为此提出一种融合强化学习SAC（soft actor-critic）算法与自适应鲁棒控制算法（ARC）的异构双阀协调控制策略。该控制策略一方面通过设计的流量分配策略减小比例阀与伺服阀在工作切换中产生的瞬态误差，另一方面通过上层SAC算法学习目标电液伺服系统的动态非线性特性，进而实现对下层ARC算法控制参数的动态调节，以增强系统的控制性能与鲁棒性。该研究为后续的仿真和实验验证提供了坚实的理论基础。

Abstract

The dual-valve electrohydraulic servo systems， which employed a small-flow servo valve and a large-flow proportional valve to drive the same actuator in parallel， offered advantages such as low cost， high flow rate and high accuracy. However， the control performance of the systems was compromised by parameter uncertainties， system nonlinearities and disturbances. To address these issues， a dual-valve coordinated control strategy was proposed which integrates the SAC reinforcement learning algorithm with the ARC algorithm. This control strategy aimed to reduce transient errors generated by the proportional valves and the servo valves during work switching through a specifically designed flow allocation strategy. Additionally， the upper SAC algorithm learned the dynamic nonlinearities of the target electrohydraulic servo systems. Consequently， the control parameters of the lower ARC algorithm were dynamically adjusted， thereby enhancing the system's control performance and robustness.The findings of this study establish a solid theoretical foundation for subsequent simulation and experimental validation.

Graphical abstract

关键词

电液伺服系统 / 双阀并联控制 / 流量分配 / 伺服控制

Key words

electrohydraulic servo system / dual-valve parallel control / flow allocation / servo control

引用本文

引用格式 ▾

苏世杰,程泳钦,胡毅,何建辉,杨书吉. 基于强化学习自适应鲁棒控制的异构双阀协调控制策略研究[J]. 中国机械工程, 2025, 36(10): 2335-2342 DOI:10.3969/j.issn.1004-132X.2025.10.022

登录浏览全文

4963

注册一个新账户忘记密码

0 引言

随着技术的进步，航空航天、船舶与海洋工程装备逐步向着重型化、高精度的方向发展，作为相关机械装备动力核心的电液伺服系统也不断向着大流量、高精度及低成本等方向演进^［1-3］。目前，大流量电液伺服系统的核心控制元件为电液比例阀或大流量电液伺服阀。但电液比例阀存在死区、滞环等非线性因素，使得系统的控制性能有限；而大流量电液伺服阀不仅成本高、维护困难，且系统的动态响应性能会随着伺服阀额定流量的增大而逐步降低。

实际上，许多用于重型装备的大流量电液伺服系统的工作过程可以看作一系列快速运动阶段和精确定位阶段的组合。在快速运动阶段，系统需要快速大量的输出流量，而在精确定位阶段，系统需要精确地控制输出流量。因此，有学者提出通过采用两个电液比例/伺服阀并联驱动一个执行元件的方案，并设计了相应的系统结构与控制算法^［4］。YU等^［5］提出采取迭代学习控制与自适应控制相结合的控制策略控制两个伺服阀同步驱动一个作动器。SU等^［6］提出基于自适应鲁棒控制策略的双阀协调控制策略，该策略采用自适应控制机制对系统的未知参数进行预测，并通过鲁棒控制策略提高系统的鲁棒性。

随着人工智能技术的快速发展^［7-9］，为进一步提高电液伺服系统在复杂多变工况下的性能与鲁棒性，国内外学者提出了融合机器/深度学习与经典/现代控制理论的智能控制算法^［10］，其目的是通过智能体动态地调整控制算法的相关参数，从而增强被控系统的控制性能。CHEN等^［11］提出将强化学习DDPG（deep deterministic policy gradient）算法与PID（proportional integral derivative）算法相结合并应用于电液伺服控制系统中，结果表明其控制性能优于PID及改进的PID控制算法。HE等^［12］通过强化学习与PID控制算法相结合来控制比例阀实现电液伺服系统位置控制，结果表明该控制策略在面对内外干扰时能有效地提高位置跟踪精度。YUAN等^［13］通过强化学习TD3（twin delayed deep deterministic policy gradient）算法来实现液压控制系统的位置控制，其控制性能优于PID算法。YU等^［14］将强化学习与PID控制算法相结合并应用于机器人的轨迹规划中，当系统不能精确建模以及运行环境发生相应的变化时，所提控制算法能根据环境的变化调节PID控制参数，实时地补偿路径与移动机器人的误差。

现有的双阀协调控制系统主要依靠现代控制算法来改善双阀电液伺服系统的位置跟踪精度，但与常规的单阀及双阀并联电液伺服系统相比，由于异构双阀电液伺服系统存在更强的阀间耦合干扰，当系统参数发生变化或受到内外扰动时，其控制性能和稳定性会急剧下降。本文提出一种融合深度强化学习和自适应鲁棒控制的异构双阀协调控制策略，通过设计的智能体与环境的持续交互自主学习系统在各种不确定工况下的最优控制参数调节策略，进而有效提高异构双阀电液伺服系统在参数发生变化和受到内外扰动时的稳定性和控制精度。其主要工作与贡献如下：

1）建立了异构双阀协调控制电液伺服系统数学模型，并提出了一种由上层强化学习SAC（soft actor critic）算法、下层自适应鲁棒控制（adaptive robust control， ARC）算法及异构双阀流量分配策略组成的SAC-ARC异构双阀协调控制策略。

2）提出了一种基于SAC 算法的ARC控制参数自适应自调整机制。该机制能够根据电液伺服系统当前的状态动态调节ARC算法的控制超参数，使得系统在复杂多变的环境下也能精确跟踪不断变化的目标轨迹。

3）提出了一种基于比例阀输入信号补偿的伺服阀-比例阀流量分配策略，有效地减小了伺服阀与比例阀工作切换时产生的瞬态误差。

1 异构双阀电液伺服系统数学建模

图1所示的异构双阀电液伺服系统主要由液压泵、电机、比例阀、伺服阀、液压缸、位移传感器以及控制器等组成。控制器周期性地向比例阀和伺服阀发出控制信号，并通过位移传感器获取液压缸活塞杆的当前位置，从而实现对液压缸活塞位置的闭环控制。

根据比例阀与伺服阀的工作特性，其线性流量方程可表示为^［15］

q P L = K P q x P v - K P c p L q S L = K S q x S v - K S c p L

（1）

式中：

q P L

、

q S L

分别为比例阀、伺服阀的输出流量；

K P q

、

K S q

分别为比例阀、伺服阀的流量增益系数；

K P c

、

K S c

分别为比例阀、伺服阀的流量-压力系数；

x P v

、

x S v

分别为比例阀阀芯、伺服阀阀芯的输出位移；

p L

为负载压力。

比例阀和伺服阀阀芯的位移与电信号之间的关系可表示为^［16］

x P v = K P a K P s u P x S v = K S a K S s u S

（2）

式中：

K P a

为比例阀放大器增益；

K P s

为比例阀增益；

u P

为比例阀输入信号；

K S a

为伺服阀放大器增益；

K S s

为伺服阀增益；

u S

为伺服阀输入信号。

结合式（1）、式（2），系统实际输出的总流量为

Q L = q P L + q S L = K P q K P a K P s u P +

K S q K S a K S s u S - (K P c + K S c) p L

（3）

由流量连续性定理可知，非对称液压缸的系统流量连续方程为^［17］

q L = A d x p d t + V t 2 (1 + n 2) β e d p L d t + C t p L

（4）

式中：

A

为液压缸活塞的有效面积；

x p

为液压缸活塞位移；

C t

为液压缸外泄漏系数；

V t

为管道及液压缸油腔总容积；

β e

为液压油体积弹性模量；

n

为液压缸有杆腔与无杆腔有效作用面积之比。

非对称液压缸的力平衡方程为

A p L = m t d 2 x p d t 2 + B p d x p d t + K p x p + F

（5）

式中：

m t

为活塞和负载的总质量；

B p

为活塞和负载黏性阻尼系数；

K p

为弹性刚度系数；

F

为作用在活塞上的外负载力。

联合式（3）~式（5）可得

K 1 u P + K 2 u s = M y x ⃛ p + B x ¨ p + C x ˙ + D x p + G

（6）

M y = V t m t 2 (1 + n 2) β e A

B = V t B p + 2 (1 + n 2) β e K C E m t 2 (1 + n 2) β e A

C = 2 (1 + n 2) β e A 2 + K p V t + 4 β e K C E B P 2 (1 + n 2) β e A

D = K C E K p A

G = V t 2 (1 + n 2) F ˙ A + K C E F A

K 1 = K P q K P a K P s

K 2 = K S q K S a K S s

K C E = K P C + K S C + C t

当液压缸处于正向运动时，有

K q = C w 2 (p s - p L) ρ (1 + n 3)

K C E = C t - C d w x 1 2 ρ (p s - p L) (1 + n 3)

反之，则有

K q = C d w 2 (n p s + p L) ρ (1 + n 3)

K C E = C t - C d w x 1 2 ρ (n p s + p L) (1 + n 3)

2 异构双阀协调控制策略设计

如图2所示，本文提出的异构双阀协调控制策略主要由SAC算法、ARC算法及流量分配策略组成。上层SAC算法根据被控系统的状态动态调整下层ARC算法的控制超参数，从而精确地计算被控系统所需要的实时流量，然后通过流量分配策略计算出伺服阀与比例阀各自的输出信号，最终实现对液压缸运动的精确控制。

2.1 ARC算法设计

根据式（6）建立液压缸活塞杆流量平衡方程，总流量

Q y

为

Q y = K 1 u P + K 2 u s = M y x ⃛ p + B x ¨ p + C x ˙ p + D x p + d

（7）

d = d ¯ + Δ

式中：

d

为系统干扰；

d ¯

为

d

的常值分量；

Δ

为

d

的时变分量。

根据式（7）定义未知参数：

η d = η d 1 η d 2 ⋯ η d 5 Τ = M y B C D d ¯ Τ

（8）

定义液压缸活塞杆运动轨迹的跟踪误差

e

：

e = x p - x d

（9）

式中：

x p

为期望的运动轨迹；

x d

为实际的运动轨迹。

定义系统的切换函数为

z = e ˙ + K V e

（10）

式中：

K V

为正增益系数。

设计关于

z

和

e

的Lyapunov函数：

V = 12 B (z 2 + e 2)

（11）

分别对式（10）和式（11）求导，联立式（9）可得

V ˙ = z B z ˙ + e B e ˙ = z (Q y - φ η d - Δ) + e B e ˙

（12）

其中，

φ

为回归量矩阵，其定义如下：

φ = x ⃛ d + e ⃛ x ¨ d - K V e ˙ x ˙ d + e ˙ x d + e 1

（13）

带有自适应补偿项

Q A

和鲁棒补偿项

Q R

的ARC控制策略设计为

Q y = Q A + Q R

（14）

为补偿系统中未建模的误差，自适应补偿项

Q A

设计为

Q A = φ η^d

（15）

η ˜ d = η^d - η d

其中，

η ˜ d

为系统不确定参数估计值与实际值的误差。

Q A

中的

η^d

为

η d

的估计，其更新方式为^［18］

η^d = η d 0 + ∫ 0 T P r o j (Γ τ) d t

（16）

其中，

η d 0

为

η d

的初值；

Γ

为正对角矩阵；

τ

为自适应函数，映射函数

P r o j η^d i (·)

表示为

P r o j η^d i (· i) = 0 η^d i = η d i m a x, · i > 0 0 η^d i = η d i m i n, · i < 0 · i 其他

（17）

为了消除式（7）中时变分量

Δ

和式（15）中不确定参数估计误差

η ˜ d

，设计鲁棒补偿项

Q R

如下：

Q R = Q R 1 + Q R 2 Q R 1 = - K R S z Q R 2 = - 1 4 ξ 1 λ 2 z

（18）

其中，

Q R 1

为比例补偿量；

K R S

为常数且

K R S > η 2 m a x / 2 K V

；

Q R 2

为鲁棒补偿量；

ξ 1

为很小的正常数；

λ

为平滑函数，且满足^［19］

λ ≥ | | η d i m a x - η d i m i n | | | | φ T | | + Δ m a x

（19）

式中：

Δ m a x

为时变分量最大值。

Q R 2

满足以下性质^［20］：

z (Q R 2 - η ˜ d φ - Δ) ≤ ξ 1 z Q R 2 ≤ 0

（20）

由

Q R 2

的性质可知，可将不确定参数估计误差

η ˜ d

或时变分量

Δ

等不确定性对系统的影响减小到一个可忽略的范围。

根据式（18），鲁棒补偿项整理为

Q R = - K S z

（21）

式中：

K S

为控制参数，且

K S ≥ K R S + λ 2 / (4 ξ 1)

。

结合式（10）、式（14）、式（15）和式（21），总流量

Q y

可表示为

Q y = φ η^d - K S (e ˙ + K V e)

（22）

选取控制超参数满足

K S ≥ K R S + λ 2 / (4 ξ 1)

，

K V > B / (4 K R S)

，则设计的自适应鲁棒控制器（式（14））具有以下性质：

性质1：系统中所有信号均有界。

性质2：系统在有限时间

t 0

后，如果只存在参数不确定性

(Δ = 0, ∀ t ≥ t 0)

，则除了满足性质1外，系统还可以实现渐进跟踪，即

t → ∞

时，

e → 0, z → 0

。

证明：将式（10）和式（14）代入式（12），得

V ˙ = z (Q y - φ η d - Δ) + e B e ˙ ≤ - (K R S z 2 - e B z +

B K V e 2) + ξ 1 = - X T Q t X + ξ 1

（23）

故式（23）可以等效为矩阵形式：

V ˙ ≤ - X T Q t X + ξ 1 ≤ - σ m i n (Q t) X 22 + ξ 1 =

- 2 σ m i n (Q t) / B + ξ 1

（24）

X = [e z] T

Q t = K R S - B / 2 - B / 2 B K V

其中，

σ m i n (Q t)

为矩阵

Q t

的最小特征值，当

K V > B / (4 K R S)

时，

Q t

为正定对角矩阵。

对式（24）两边积分变换后可得

V (t) e x p (2 σ m i n (Q t) B t) ≤ V (0) +

ξ 1 ∫ 0 t e x p (2 σ m i n (Q t) B s) d s

（25）

整理式（25），得

V (t) ≤ V (0) e x p (- 2 σ m i n (Q t) B t) +

ξ 1 B 2 σ m i n (Q t) (1 - e x p (- 2 σ m i n (Q t) B t))

（26）

由于Lyapunov函数

V

有上界，由式（11）知，切换函数

z

和跟踪误差

e

均有界，故可推出系统中所有信号均有界，性质1得证。

为证明性质2，建立一个新的Lyapunov函数

V θ

：

V θ = V + 12 η ˜ d T Γ - 1 η ˜ d

（27）

将

Δ = 0

和式（20）中第二式代入式（27），可得

V ˙ θ ≤ - X T Q t X + (z φ η ˜ d + z Q R 2) + η ˜ d T Γ - 1 η^˙ d ≤ - X T Q t X - τ T η ˜ d + η ˜ d T Γ - 1 η^˙ d =

- X T Q t X + η ˜ d T Γ - 1 P r o j (Γ τ) - τ ≤ - X T Q t X

（28）

由式（28）得，

V ˙ θ

为负定，由式（11）和式（16）中的

Γ

得

V θ

是正定的，则性质2得证，当

t → ∞

时，

X → 0

，得

e → 0, z → 0

。

根据性质1和性质2，对强化学习SAC输出动作

a t = {K V, K S}

数值范围进行了限制，将

K S

的调节范围限制为

[K R S + λ 2 / (4 ξ 1), + ∞)

，将

K V

的调节范围限制为

(B / (4 K R S), + ∞)

，这样既可让上层SAC控制算法根据系统的当前状态调整下层控制参数

K S

、

K V

，又能保证系统的渐进稳定。

2.2 异构双阀流量分配策略

当ARC控制算法计算出系统的合流量后，进一步通过流量分配策略分解伺服阀与比例阀各自的输出流量。

伺服阀的流量与输入信号之间的关系可以近似为以下线性方程：

Q S (t) = K S u S (t)

（29）

式中：

Q S

为伺服阀的输出流量；

K S

为伺服阀的流量-信号比例系数；

u S

为伺服阀的输入信号。

比例阀由于存在死区等非线性因素，会在实际的工作过程中存在响应滞后的问题。比例阀的流量与输入信号之间的关系可近似为以下线性分段函数：

Q P (t) = K P (u P (t) - Z u P m a x) u P (t) ≥ Z u P m a x 0 | u P (t) | < Z u P K P (u P (t) + Z u P m a x) u P (t) ≤ - Z u P m a x

（30）

式中：

K P

为比例阀的流量信号比例系数；

Z

为比例阀的死区系数；

Q P

为比例阀的输出流量；

u P

、

u P m a x

分别为比例阀的实际输入信号与最大输入信号。

比例阀、伺服阀流量分配的基本原则如下：当系统需要的总流量

Q y < Q S m a x

时，伺服阀的输出流量

Q S = Q y

、比例阀的输出流量

Q P = 0

；反之，

Q S = Q S m a x

、

Q P = Q y - Q S m a x

。其中，

Q S m a x

为伺服阀的最大输出流量。

由于死区的存在，当比例阀的输入信号在

± Z u P m a x

内时，实际的输出流量均为0。为减少死区对比例阀输出流量连续性的影响，在伺服阀单独工作（

Q y < Q S m a x

）时，给予比例阀相应的控制信号补偿（图3）。

图3中，

Q a m a x

为伺服阀和比例阀的最大合输出流量，

Q o p e n

为比例阀控制信号补偿起始流量，并且满足

Q o p e n ≥ 0

。定义异构双阀协调系统中伺服阀和比例阀与系统总流量的映射关系如下：

u S = Q y / K S | Q y | ≤ Q S m a x u S m a x Q y > Q S m a x - u S m a x Q y < - Q S m a x

（31）

u_P=

0 Q y | ≤ Q o p e n [Z u P m a x / (Q S m a x - Q o p e n)] (Q y - Q o p e n) Q o p e n < | Q y | ≤ Q S m a x Z u P m a x + [Q y - Q S m a x] / K P Q y > Q S m a x - Z u P m a x + [Q y + Q S m a x] / K P Q y < - Q S m a x

（32）

2.3 SAC算法结构

SAC算法主要由Actor网络和Critic网络组成。Actor网络为策略网络，作用是与环境进行交互并学习最优策略

π ϕ

，进而根据当前的状态

s t

产生一组优化控制参数

a t = {K S, K V}

，这组控制参数将传递到下层自适应鲁棒控制器中。

Critic网络为价值网络，其作用是评价给定策略下“行为-状态”的优劣，根据当前的状态

s t

、控制参数

a t

以及奖励值

r t

评估Actor网络所生成的控制参数

a t

的“行为-状态”价值，并为Actor网络提供优化方向，指导其更新参数

ϕ

。

SAC算法以熵最大化为目标来完成复杂任务的策略学习，其计算公式如下^［21］：

J (π) = ∑ t = 0 T E (s t, a t) ~ ρ π [r (s t, a t) + α H (π (⋅ | s t))]

（33）

其中，

α

为温度系数。行为-状态价值函数

Q (s t, a t)

为

Q (s t, a t) = r (s t, a t) + γ E S t + 1 ~ p [V (s t + 1)]

（34）

V (s t) = E a t ~ π [Q (s t, a t) - α l o g π (a t | s t)]

（35）

通过最小损失函数来更新的Critic网络的计算公式如下^［22］：

J Q (θ) = E (s t, a t) ~ D [12 (Q θ (s t, a t) - Q^(s t, a t)) 2]

（36）

Q^(s t, a t) = r (s t, a t) + γ E s t - 1 ~ p [V ψ ¯ (s t + 1)]

（37）

由Actor网络更新的

π ϕ

策略为^［23］

J π (ϕ) = Ε s t ∼ D, ∈ t ∼ π ϕ [l o g π ϕ (f (ε t; s t) | s t) -

Q θ (s t, f (ε t; s t))]

（38）

式中：

ε t

为输入的噪声向量。

温度系数

α

的更新方式如下：

J (α) = E D [- α l o g π (a t | s t) - α H]

（39）

2.4 SAC-ARC控制策略设计

图4所示的SAC-ARC控制策略以SAC算法作为上层控制策略^［24-25］、ARC控制作为下层控制策略。将上层SAC控制策略的输出动作

a t = {K V, K S}

数值范围分别设置为

(B / (4 K R S), + ∞)

和

[K R S + λ 2 / (4 ξ 1), + ∞)

，通过上层控制策略不断地与系统环境进行信息交互，修正下层控制策略中的控制参数

K V

和

K S

，从而提升系统的控制性能。

Alorithm 1伪代码如下所示：

在模型训练阶段，SAC算法输出动作

a τ = {K V, K S}

，调节ARC算法对应的控制参数。被控系统通过式（22）计算系统的总流量；根据式（31）和式（32）计算流量与伺服阀和比例阀的输入信号关系，从而控制液压缸的精确运动。当采样时间为10的倍数时，上层控制策略在观测当前状态

s τ

，执行动作

a τ

并修正ARC控制算法的控制参数

K V

和

K S

后，计算出当前的奖励值

r τ

预测状态

s τ + 1

，然后把状态

s τ

、

s τ + 1

、奖励值

r τ

及动作

a τ

存入经验池中，最后通过式（36）、式（38）、式（39）更新参数

θ

、

ϕ

和

α

。

Alorithm 2伪代码如下所示：

在系统运行阶段时，上层SAC算法加载训练好的网络模型参数，在每个更新步长

τ

根据实际的环境状态

s τ

的变化，输出动作

a τ

不断地调整ARC控制的参数，以增强系统的控制性能与鲁棒性。

2.5 奖励函数设计

奖励函数用于评价智能体在每一回合的训练效果，并引导智能体往奖励值大的方向去更新网络模型参数，以不断优化被控系统的控制性能。本文的奖励函数围绕以下目标进行设计：①跟踪误差最小化。减小系统的跟踪误差从而提高系统的跟踪精度。②防止系统振荡。当液压系统出现内外干扰时，通过系统的加速度的负奖励来限制系统的振荡，从而使系统快速恢复稳定。综上，本文设计的奖励函数如下：

r (s) = r 1 + r 2 r 1 = k 1 | e t | t r 2 = k 2 | a |

（40）

式中：

e t

为当前时刻的液压缸活塞杆跟踪误差；t为采样时间；a为当前时刻的液压缸活塞杆加速度；

k 1

、

k 2

为负增益系数。

3 结论

1）本文建立了异构双阀电液伺服系统的数学模型，在此基础上构建了异构双阀协调控制策略，并进一步从理论上证明了在该控制策略作用下的异构双阀电液伺服系统的稳定性。

2）本文提出了一种异构双阀协调控制策略SAC-ARC。一方面通过设计的流量分配策略减少比例阀与伺服阀在切换时产生的瞬态误差；另一方面通过SAC算法学习电液伺服系统的动态非线性特性，从而实现了对ARC算法控制参数的高效动态调节。

3）本文所提出的SAC-ARC控制策略以强化学习SAC算法作为上层控制策略、ARC控制算法作为下层控制策略。上层控制策略周期性地与液压系统环境进行交互，并不断地修正下层ARC控制策略中相关的控制参数。

由于篇幅所限，本文未涉及仿真与实验验证部分，后续将验证所提SAC-ARC控制策略在不同工况下的有效性与鲁棒性。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	YANG Huayong， SHI Hu， GONG Guofang， et al. Electro-hydraulic Proportional Control of Thrust System for Shield Tunneling Machine［J］. Automation in Construction， 2009， 18（7）： 950-956.

[2]	NGUYEN M T， DANG T D， AHN K K. Application of Electro-hydraulic Actuator System to Control Continuously Variable Transmission in Wind Energy Converter［J］. Energies， 2019， 12（13）： 2499.

[3]	QianLYU， YU Xiaoling， MA Haihui， et al. Applications of Machine Learning to Reciprocating Compressor Fault Diagnosis： a Review［J］. Processes， 2021， 9（6）： 909.

[4]	BAI Yanhong， QUAN Long. Improving Electro-hydraulic System Performance by Double-valve Actuation［J］. Transactions of the Canadian Society for Mechanical Engineering， 2016， 40（3）： 289-301.

[5]	YU Shaojuan， SONG Junjun. Iterative Learning Control of Double Servo Valve Controlled Electro Hydraulic Servo System［C］∥2011 Seventh International Conference on Computational Intelligence and Security. IEEE， 2011： 278-282.

[6]	SU Shijie， XUE Ting， CHEN Yun， et al. Harmonic Control of a Dual-valve Hydraulic Servo System with Dynamically Allocated Flows［J］. Asian Journal of Control， 2023， 25（3）： 1939-1956.

[7]	焦宗夏，吴帅，李洋，等. 液压元件及系统智能化发展现状及趋势思考［J］. 机械工程学报， 2023， 59（20）： 357-384.

[8]	JIAO Zongxia， WU Shuai， LI Yang， et al. Development Status and Trends of the Intelligence of Hydraulic Components and Systems［J］. Journal of Mechanical Engineering， 2023， 59（20）： 357-384.

[9]	郭具涛，吕佑龙，戴铮，等. 基于复合规则和强化学习的混流装配线调度方法［J］. 中国机械工程， 2023， 34（21）： 2600-2606.

[10]	GUO Jutao， Youlong LYU， DAI Zheng， et al. Compound Rules and Reinforcement Learning Based Scheduling Method for Mixed Model Assembly Lines［J］. China Mechanical Engineering， 2023， 34（21）： 2600-2606.

[11]	CORONATO A， NAEEM M， de PIETRO G， et al. Reinforcement Learning for Intelligent Healthcare Applications： a Survey［J］. Artificial Intelligence in Medicine， 2020， 109： 101964.

[12]	石晴晴，张润锋，张连洪，等. 基于强化学习算法的水下滑翔机路径跟踪研究［J］. 中国机械工程， 2023， 34（9）： 1100-1110.

[13]	SHI Qingqing， ZHANG Runfeng， ZHANG Lianhong， et al. Research on Underwater Gliders Path Tracking Based on Reinforcement Learning Algorithm［J］. China Mechanical Engineering， 2023， 34（9）： 1100-1110.

[14]	CHEN Pengzhan， HE Zhiqiang， CHEN Chuanxi， et al. Control Strategy of Speed Servo Systems Based on Deep Reinforcement Learning［J］. Algorithms， 2018， 11（5）： 65.

[15]	HE Jianhui， SU Shijie， WANG Hairong， et al. Online PID Tuning Strategy for Hydraulic Servo Control Systems via SAC-based Deep Reinforcement Learning［J］. Machines， 2023， 11（6）： 593.

[16]	YUAN Xiaoming， WANG Yu， ZHANG Ruicong， et al. Reinforcement Learning Control of Hydraulic Servo System Based on TD3 Algorithm［J］. Machines， 2022， 10（12）： 1244.

[17]	YU Xinyi， FAN Yuehai， XU Siyu， et al. A Self-adaptive SAC-PID Control Approach Based on Reinforcement Learning for Mobile Robots［J］. International Journal of Robust and Nonlinear Control， 2022， 32（18）： 9625-9643.

[18]	ZHUANG Huixuan， SUN Qinglin， CHEN Zengqiang. Sliding Mode Control for Electro-hydraulic Proportional Directional Valve-controlled Position Tracking System Based on an Extended State Observer［J］. Asian Journal of Control， 2021， 23（4）： 1855-1869.

[19]	HE Jianhui， ZHOU Lijun， LI Cunjun， et al. Control Strategy of Hydraulic Servo Control Systems Based on the Integration of Soft Actor-Critic and Adaptive Robust Control［J］. IEEE Access， 2024， 12： 63629-63643.

[20]	苏世杰，游有鹏，齐继阳，等. 电液伺服试验机力控系统负载刚度自适应控制［J］. 控制理论与应用， 2018， 35（4）： 429-437.

[21]	SU Shijie， YOU Youpeng， QI Jiyang， et al. Load Rigidity Adaptive Control of Electro-hydraulic Servo Universal Testing Machine Force Control System［J］. Control Theory & Applications， 2018， 35（4）： 429-437.

[22]	CHEN Zheng， YAO Bin， WANG Qingfeng. μ-synthesis-based Adaptive Robust Control of Linear Motor Driven Stages with High-frequency Dynamics： a Case Study［J］. IEEE/ASME Transactions on Mechatronics， 2015， 20（3）： 1482-1490.

[23]	YAO Jianyong， JIAO Zongxia， YAO Bin， et al. Nonlinear Adaptive Robust Force Control of Hydraulic Load Simulator［J］. Chinese Journal of Aeronautics， 2012， 25（5）： 766-775.

[24]	LI Chao， CHEN Zheng， YAO Bin. Adaptive Robust Synchronization Control of a Dual-linear-motor-driven Gantry with Rotational Dynamics and Accurate Online Parameter Estimation［J］. IEEE Transactions on Industrial Informatics， 2018， 14（7）： 3013-3022.

[25]	TANG Hengliang， WANG Anqi， XUE Fei， et al. A Novel Hierarchical Soft Actor-Critic Algorithm for Multi-logistics Robots Task Allocation［J］. IEEE Access， 2021， 9： 42568-42582.

[26]	LEE M H， MOON J. Deep Reinforcement Learning-based Model-free Path Planning and Collision Avoidance for UAVs： a Soft Actor-Critic with Hindsight Experience Replay Approach［J］. ICT Express， 2023， 9（3）： 403-408.

[27]	DING Feng， MA Guanfeng， CHEN Zhikui， et al. Averaged Soft Actor-Critic for Deep Reinforcement Learning［J］. Complexity， 2021， 2021（1）： 6658724.

[28]	WONG C C， CHIEN S Y， FENG H M， et al. Motion Planning for Dual-arm Robot Based on Soft Actor-critic［J］. IEEE Access， 2021， 9： 26871-26885.

[29]	CHU Zhenzhong， WANG Fulun， LEI Tingjun， et al. Path Planning Based on Deep Reinforcement Learning for Autonomous Underwater Vehicles under Ocean Current Disturbance［J］. IEEE Transactions on Intelligent Vehicles， 2023， 8（1）： 108-120.