基于自适应动态规划的约束非线性系统自触发间歇最优控制

陈浩; 王维峰

doi:10.20056/j.cnki.ZNMDZK.20250825

中南民族大学学报（自然科学版） ›› 2026, Vol. 45 ›› Issue (01) : 110 -118. DOI: 10.20056/j.cnki.ZNMDZK.20250825

数学与统计学科学

基于自适应动态规划的约束非线性系统自触发间歇最优控制

陈浩 ,
王维峰

作者信息 +

Self-triggered intermittent optimal control of constrained nonlinear systems via adaptive dynamic programming

Hao CHEN ,
Weifeng WANG

Author information +

文章历史 +

PDF (1548K)

摘要

通过自触发间歇控制机制研究了带有输入约束的连续非线性系统的最优控制问题.将设计出的控制器应用到系统中，并克服系统内部未知扰动的影响；然后，采用评价神经网络和执行神经网络分别逼近最优成本函数和最优控制输入，得到最优控制策略，再利用半全局实际有限时间稳定的推广引理保证系统的稳定性分析；最后，通过数值仿真验证了所提理论的可行性.

Abstract

The optimal control problem of continuous nonlinear systems are investigated with input constraints using a self-triggered intermittent control mechanism. The designed controller is applied to the system to overcome the influence of unknown internal disturbances. Then， the critic and action neural networks are employed to approximate the optimal cost function and the optimal control input， respectively， to obtain the optimal control strategy. The stability of the system is analyzed by using a generalized lemma on semi-global practical finite-time stability. Finally， numerical simulations are conducted to verify the feasibility of the proposed theory.

Graphical abstract

关键词

自适应动态规划 / 连续非线性系统 / 自触发间歇最优控制 / 输入约束 / 神经网络

Key words

adaptive dynamic programming / continuous nonlinear systems / self-triggered intermittent optimal control / input constraint / neural network

引用本文

引用格式 ▾

[Author(id=1273232770005750017, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232767900209287, orderNo=0, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1273232770060275974, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232767900209287, authorId=1273232770005750017, language=EN, stringName=Hao CHEN, firstName=Hao, middleName=null, lastName=CHEN, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Mathematics and Statistics，South-Central MinzuUniversity，Wuhan 430074，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273232770106413325, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232767900209287, authorId=1273232770005750017, language=CN, stringName=陈浩, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=中南民族大学数学与统计学学院，武汉 430074, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273232769934446842, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232767900209287, xref=null, ext=[AuthorCompanyExt(id=1273232769951224059, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232767900209287, companyId=1273232769934446842, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Mathematics and Statistics，South-Central MinzuUniversity，Wuhan 430074，China), AuthorCompanyExt(id=1273232769963806974, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232767900209287, companyId=1273232769934446842, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=中南民族大学数学与统计学学院，武汉 430074)])]), Author(id=1273232770148356373, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232767900209287, orderNo=1, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=wwf87487643@163.com, emailSecond=null, emailThird=null, correspondingAuthor=1, authorType=1, ext={EN=AuthorExt(id=1273232770207076636, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232767900209287, authorId=1273232770148356373, language=EN, stringName=Weifeng WANG, firstName=Weifeng, middleName=null, lastName=WANG, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Mathematics and Statistics，South-Central MinzuUniversity，Wuhan 430074，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273232770249019682, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232767900209287, authorId=1273232770148356373, language=CN, stringName=王维峰, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=中南民族大学数学与统计学学院，武汉 430074, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273232769934446842, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232767900209287, xref=null, ext=[AuthorCompanyExt(id=1273232769951224059, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232767900209287, companyId=1273232769934446842, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Mathematics and Statistics，South-Central MinzuUniversity，Wuhan 430074，China), AuthorCompanyExt(id=1273232769963806974, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232767900209287, companyId=1273232769934446842, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=中南民族大学数学与统计学学院，武汉 430074)])])] 陈浩,王维峰. 基于自适应动态规划的约束非线性系统自触发间歇最优控制[J]. 中南民族大学学报（自然科学版）, 2026, 45(01): 110-118 DOI:10.20056/j.cnki.ZNMDZK.20250825

登录浏览全文

4963

注册一个新账户忘记密码

在过去的几十年，自适应动态规划（ADP）作为一种有效的智能控制方法，在寻找最优控制^［1-2］的解决方案方面发挥了重要作用.为了克服传统动态规划方法导致的“维数灾”问题，WERBOS在1977年提出了该方法.通常，对于线性系统可以使用Riccati方程求解^［3］，而对于非线性系统来说，其对应的哈密顿-雅可比-贝尔曼（HJB）方程是一个非线性偏微分方程，其解析解很难得到.因此，运用ADP方法^［4-5］利用函数近似结构来逼近满足HJB方程的最优成本函数和最优控制输入，可以有效地解决此问题，例如使用神经网络（NN）结构.

最优控制作为现代控制系统设计的核心理念，致力于确保在满足系统性能指标的前提下，寻求期望性能指标和可用控制资源之间的最优平衡.对于传统的控制策略^［6］，控制器随着时间连续更新，消耗了大量的通信资源.为缓解该问题，学界内提出了事件触发机制^［7］，该机制是一种非周期性的方式，虽然在一定程度上减少了采样数量，但需要连续检测触发条件，消耗了大量的计算资源.在此基础上，有学者提出了自触发机制^［8］和动态事件触发机制.自触发机制在当前时刻计算出下一触发时刻，有效避免连续检测触发条件，降低了计算的复杂度；相较于传统的事件触发机制，动态事件触发机制引入了一个额外的内部动态变量，可以动态调整触发阈值，使得采样间隔进一步增大.近年来，为了降低控制器的采样数量，且提高采样效率，很多学者将间歇控制方法^［9-11］引入最优控制问题，间歇控制方法将时间区间划分为工作区间和休息区间，在工作区间进行控制，而在休息区间停止控制，这种方式不仅能确保系统性能，还提高了资源的利用率.如LIU等^［12］将事件触发机制和间歇控制结合，提出了事件触发间歇最优控制方法，有效地减少了采样次数；ZHANG等^［13］将动态事件触发机制和间歇控制结合，提出了动态事件触发间歇最优控制方法，使理论得到进一步扩展.在其他领域，该方法同样彰显优越性，如MEI等^［14］将其考虑在空调系统中，体现了间歇控制方法的节能优势.基于上述分析，本文通过将自触发机制和间歇控制方法结合的方式去解决最优控制问题，具有重要的理论价值和实际意义.

近年来，带有输入约束的控制问题在工业界引起广泛关注^［15］，因为在实际应用中，系统不可避免地存在影响内部特性的约束条件，一定程度上阻碍了控制的实行，甚至严重影响到具体方案的实际效果.本文通过引入一种非二次型函数解决此问题，以避免资源的过度消耗.此外，实际的系统中经常出现模型不确定性和外部扰动等因素，为降低这类因素对系统的影响，业内学者们对鲁棒控制问题进行了大量的研究工作，如LIU等^［16］通过设计合适的成本函数实现不确定系统和标称系统之间的等价性；LIU等^［17］将鲁棒控制问题转换为最优控制问题进行求解，极大地保证了系统的性能.在实际的工程背景下，以上描述的限制条件和影响因素需要有效克服，本文综合考虑了输入约束和扰动因素的影响，以满足实际中的真实需求.

基于上述分析，本文基于ADP方法，利用自触发间歇控制机制对带有输入约束的连续非线性系统的最优控制问题进行研究.首先，将原控制问题通过一个带有修改后成本函数的标称系统转换为最优控制问题；另外，由于稳定性理论的进一步发展，本文介绍了半全局实际有限时间稳定性理论^［18-19］（SGPFS）；然后，采用两个NN分别逼近最优成本函数和最优控制输入，保证了系统的稳定性；最后，通过仿真验证该方法的有效性.

1 问题描述

考虑如下连续时间非线性仿射系统：

x ˙ t = f x t + g x t u t + Δ x t,

（1）

其中

x t ∈ R n

为系统的状态，

u (t) = u 1 (t), …,

u i (t), …, u m (t) T ∈ R m

为控制输入，满足

u i t ≤ λ

，

λ > 0

；

f ·

和

g ·

都为连续可微函数，

f · ∈ R n

是有界闭集

Ω

上的

L i p s c h i t z

函数，

f 0 = 0

，

g · ∈ R n × m

是

Ω

上的有界函数；

Δ x ∈ R n

是未知的有界扰动，满足

Δ x ≤ Δ M x

，

Δ M x

是一个已知函数且

Δ M 0 = 0

.假设

Δ 0 = 0

，使得

x = 0

是

Ω

上的唯一平衡点，初始状态为

x 0 = x 0

考虑系统

1

对应的标称系统：

x ˙ t = f x t + g x t u t .

（2）

因未知扰动的影响，受LIU^［16］的启发，为实现系统

1

和标称系统

2

之间的等价性，且将鲁棒控制问题转换为最优控制问题，定义成本函数如下：

V x t = ∫ t ∞ 12 Δ M x s 2 + r x s, u s d s,

（3）

其中

r x, u = x T Q x + ϑ u

，

Q ∈ R n × n

为对称正定矩阵，满足

V 0 = 0

.为简单起见，后续与时间

t

相关的变量或函数在表示时均省略

t

.对于输入约束问题，LIU^［17］引入一种非二次型函数

ϑ u

，定义为：

ϑ u = 2 ∫ 0 u λ t a n h - 1 τ λ d τ = 2 ∑ i = 1 m ∫ 0 u i λ t a n h - 1 τ i λ d τ i .

（4）

定义系统

1

的Hamiltonian如下：

H x, u, ∇ V x = 12 Δ M x 2 + r x, u + ∇ V x T f x + g x u,

（5）

其中

∇ V x = ∂ V x / ∂ x

，根据Bellman最优性原理可以得到连续时间HJB方程：

m i n u ∈ Λ (Ω) H x, u, ∇ V * x = 0,

（6）

其中

Λ Ω

为容许控制域，

V * x

为最优成本函数，对应时刻的最优控制输入

u *

为：

u * = a r g m i n u ∈ Λ (Ω) H x, u, ∇ V * x .

（7）

已知最优控制满足一阶必要性条件，通过求解

∂ H x, u, ∇ V x / ∂ u = 0

，最小化

3

式得：

u * = - λ t a n h υ *,

（8）

其中

υ * = 1 2 λ g T x ∇ V * x

.通过

5

和

8

式，HJB方程

6

可以写成：

12 Δ M x 2 + x T Q x + 2 ∫ 0 u * λ t a n h - 1 τ λ d τ + ∇ V * x T f x + g x u * = 0 .

（9）

本文控制目标为：设计一个满足约束条件的控制策略

u *

使带有扰动的闭环系统

(1)

是稳定的，同时最小化成本函数.

成本函数

3

的设计是为了克服扰动因素的影响和实现输入约束的限制，结合后续的稳定性证明，其首项评估每一时刻的扰动；而

ϑ u

的设计有效地将控制输入约束到指定范围.受LIU^［16］的启发，本文设计的成本函数可以确保在标称系统中实现与原系统的等价性，将鲁棒控制问题转换为最优控制问题，再结合现有理论实现本文的控制目标.

2 自触发间歇控制器设计

本节首先介绍一种周期性间歇控制方法，通过逼近连续时间HJB方程，设计对应的周期性间歇控制器，且保证系统的稳定性.间歇控制的目的在于减少通信资源的浪费，在系统稳定的前提下，减少采样量的同时最小化成本，而周期性提高了采样效率.控制器以间歇方式运行，当系统处于工作区间，控制器运行；当系统处于休息区间，控制器关闭.为了设计周期性间歇控制器，将

0, + ∞

划分为一系列子区间

T i, T i + 1

，

i = 0,1, …

，定义一个周期的长度为

T Δ = T 2 i + 2 - T 2 i

，一个周期内工作区间和休息区间的长度分别为

T 1 = δ T Δ

，

T 2 = 1 - δ T Δ

，其中

0 < δ < 1

，周期性间歇控制器的工作时间为

t ∈ T w = ∪ i = 0 ∞ T 2 i, T 2 i + 1

，休息时间为

t ∈ T r = ∪ i = 0 ∞ T 2 i + 1, T 2 i + 1

.初始时刻为

T 0 = 0

，满足

0 = T 0 < T 1 < T 2 < T 3 ⋯

.而后引入一种自触发机制，其触发时刻序列为

t k i i ∈ N, k ∈ N

，满足

t 0 i = T 2 i

，

t k i ∈ R +

.定义误差：

e = x k - x t, t ∈ t k i, t k + 1 i,

其中

x k = x t k i

考虑如下间歇最优控制器：

u ¯ * = - λ t a n h υ k *, t ∈ t k i, t k + 1 i ⋂ T 2 i, T 2 i + 1 0, t ∈ T 2 i + 1, T 2 i + 1,

（10）

其中

υ k * = 1 2 λ g T x k ∇ V * x k

，根据间歇控制思想将系统

2

写为：

x ˙ = f x + g x u k *, t ∈ t k i, t k + 1 i ⋂ T 2 i, T 2 i + 1 f x, t ∈ T 2 i + 1, T 2 (i + 1),

（11）

其中

u k * = u * x k

接下来给出半全局实际有限时间稳定性的推广引理：

引理1^［11］对于连续时间非线性系统

1

，若存在连续可微的正定函数

V t

，满足以下条件：

V ˙ t ≤ - β 1 V α t + γ, t ∈ T 2 i, T 2 i + 1 β 2 V t + γ, t ∈ T 2 i + 1, T 2 i + 1,

（12）

其中

β 1, β 2, γ > 0

，

α, ϖ ∈ 0,1

，则以下不等式成立：

V 1 - α t ≤ 1 + V 1 - α 0 e β 1 + β 2 1 - α δ t - ϖ β 1 1 - α 1 - δ t, 0 ≤ t ≤ T,

其中

δ ∈ 0,1

为一个周期内工作区间的长度，

T

是一个常数.若满足

e 1 + β 1 + β 2 δ ϖ β 1 1 - α V 1 - α 0 ≤ ϖ β 1 1 - α β 1 + β 2 δ

，设定的时间为

T x 0 = 1 β 1 + β 2 1 - α δ + 1 ϖ β 1 1 - α 1 - δ

，那么系统

1

是SGPFS.

基于间歇控制思想和引理1，定理1给出对应的稳定性证明.在此之前，先介绍如下两个假设：

假设1^［13］假设

f x

在包含原点的有界闭集

Ω ⊆ R n

上是

L i p s c h i t z

连续的，

f 0 = 0

，

g x

在

Ω

上是有界函数，

u *

和

υ *

是

L i p s c h i t z

连续的，且

λ - t a n h ·

是

λ - L i p s c h i t z

连续函数，即满足：

u * - u k * ≤ L u x - x k = L u e,

f x + g x u k * < L f x + L g e,

λ t a n h υ * - λ t a n h υ k * ≤ λ υ * - υ k * ≤ λ L υ e,

其中

L u

、

L f

、

L g

和

L υ

都是正数.

假设2^［13］假设存在3个正数

α 1, α 2, α 3

使得最优成本函数及其导数满足：

α 1 x 2 ≤ V * x ≤ α 2 x 2,

∇ V * x ≤ α 3 x .

定理1 考虑标称系统

2

.在假设1和假设2下，若存在一个满足HJB方程

9

的最优成本函数的导数

∇ V * x

，且有正数

θ, τ ∈ 0,1

满足：

e 2 ≤ 1 - θ 2 1 - τ 2 λ m i n Q x k 2 L a 2 + 1 τ 2 - 1 λ m a x Q = e T,

（13）

其中

L a 2 = 2 λ L u L υ + L g 2 α 32

，那么系统

1

在间歇最优控制器

10

的作用下是SGPFS.

证明选取

L y a p u n o v

函数

L 1

：

L 1 = V * x,

当

t ∈ t k i, t k + 1 i ⋂ T 2 i, T 2 i + 1

时，可得：

L ˙ 1 = ∇ V * x T f x + g x u k * + Δ x .

（14）

根据

8

和

9

式可知满足：

∇ V * x T g x = - 2 λ t a n h - 1 u * λ T,

（15）

∇ V * x T f x + g x u * = - 12 Δ M 2 x - x T Q x - 2 ∫ 0 u * λ t a n h - 1 τ λ d τ,

（16）

另外，由误差定义有：

x T Q x = x k T Q x k - 2 x k T Q e + e T Q e = 1 - τ 2 x k T Q x k - 1 τ 2 - 1 e T Q e + τ x k - 1 τ e T Q τ x k - 1 τ e ≥ 1 - τ 2 x k T Q x k - 1 τ 2 - 1 e T Q e,

将

15

、

16

式代入

14

式，且满足

- ϑ u k * ≤ 0

，结合

13

式可知：

L ˙ 1 = - 12 Δ M x 2 - x T Q x - 2 ∫ 0 u * λ t a n h - 1 τ λ d τ - 2 λ t a n h - 1 u * λ T u k * - u * + ∇ V * x T g x Δ x ≤ - 12 Δ M x 2 - 1 - τ 2 x k T Q x k + 1 τ 2 - 1 e T Q e + 2 λ L u L υ e 2 - 2 ∫ 0 u k * λ t a n h - 1 τ λ d τ + 12 ∇ V * x T g x g x T ∇ V * x + 12 Δ 2 x ≤ - 1 - θ 2 1 - τ 2 λ m i n Q - L g 2 α 32 x k 2 + L a 2 + 1 τ 2 - 1 λ m a x Q e 2 - θ 2 1 - τ 2 λ m i n Q x k 2 - ϑ u k * + 12 Δ 2 x - 12 Δ M x 2 ≤ - η 1 L 1 + η 1 α L 1 α - η 1 α L 1 α ≤ - η 1 α L 1 α + γ 1,

（17）

其中

η 1 = α 1 - 1 θ 2 1 - τ 2 λ m i n Q - L g 2 α 32

，

γ 1 = 1 - α α α 1 - α

，

α > 0

.当

t ∈ T 2 i + 1, T 2 i + 1

时，控制器停止运行，根据系统

11

可得：

L ˙ 1 = ∇ V * x T f x ≤ L f α 3 x 2 ≤ η 2 L 1 + γ 1,

（18）

其中

η 2 = α 1 - 1 L f α 3

因此，基于引理1，有

β 1 = η 1 α

，

β 2 = η 2

，

γ = γ 1

，则选取的

L y a p u n o v

函数

L 1

是满足条件的，结合两种情形可知系统

1

是SGPFS.

3 神经网络的实现

非线性HJB方程是一种偏微分方程，通常难以求解，本节通过应用ADP方法的评价网络和执行网络分别逼近最优成本函数

V * x

和最优控制

u *

(1)

评价网络表示为：

V * x = W c T ϕ c x + ε c,

其中

W c ∈ R N 1

为评价网络的理想权值，

ϕ c x ∈ R N 1

为评价网络的激活函数，

N 1

为隐藏层的神经元数量，

ε c

为评价网络的重构误差.

最优成本函数的导数表示为：

∇ V * = ∇ ϕ c T W c + ∇ ε c,

其中

∇ V * = ∂ V * x / ∂ x

，

∇ ϕ c = ∂ ϕ c x / ∂ x

，

∇ ε c = ∂ ε c x / ∂ x

.将上式代入

8

式，触发时刻的控制器可以表示为：

u c k * = - λ t a n h υ k *,

（19）

其中

υ k * = 1 2 λ g T x k ∇ ϕ c T W c + ∇ ε c

.利用评价网络逼近

V * x

：

V^* x = W^c T ϕ c x,

其中

W^c

为评价网络的估计权值，

V^* x

是

V * x

的估计.

因此，间歇最优控制器

10

的评价网络形式可以表示为：

u ¯^* = - λ t a n h υ^k *, t ∈ t k i, t k + 1 i ⋂ T 2 i, T 2 i + 1 0, t ∈ T 2 i + 1, T 2 i + 1,

（20）

其中

υ^k * = 1 2 λ g T x k ∇ ϕ c T W^c

.由上述形式可知，HJB方程的近似形式可以写成：

H x, u ¯^*, W^c = W^c T ∇ ϕ c f x + g x u ¯^* + x T Q x + ϑ u ¯^* = e c .

以下采用梯度下降法最小化目标函数

E c = 12 e c T e c

，得到评价网络权值更新律.如果控制器处于休息区间，评价网络权值的更新律为

W^˙ c = 0

，当控制器工作时，评价网络权值的更新律为：

W^c + = W^c - α c σ σ T W^c + x T Q x + ϑ u ¯^*,

其中

α c > 0

是评价网络的学习率，

σ = σ 1 / σ 1 T σ 1 + 1

，

σ 1 = ∇ ϕ c f x + g x u ¯^*

，且满足

σ m ≤ σ ≤ σ M

定义评价网络权值的估计误差为

W ˜ c = W c - W^c

，有：

H x, u ¯ *, W c = W c T ∇ ϕ c f x + g x u ¯ * + x T Q x + ϑ u ¯ * = ε H,

其中

ε H = - ∇ ε c f x + g x u ¯ *

，由此可以得出：

W ˜ ˙ c = 0, t ≠ t k i W ˜ c + = W ˜ c - α c σ (σ T W ˜ c + ϑ u ¯ * - ϑ u ¯^* + ε H), t = t k i .

（21）

(2)

执行网络表示为：

u * = W a T ϕ a x + ε a,

其中

W a ∈ R N 2

为执行网络的理想权值，

ϕ a x ∈ R N 2

为执行网络的激活函数，

N 2

为隐藏层的神经元数量，

ε a

为执行网络的重构误差.

利用执行网络逼近

u *

：

u^* = W^a T ϕ a x,

（22）

其中

W^a

为执行网络的估计权值，

u^*

是

u *

的估计.

因此，执行网络的近似误差可以表示为：

e a = W^a T ϕ a x + λ t a n h 1 2 λ g T x ∇ ϕ c T W^c .

以下采用梯度下降法最小化目标函数

E a = 12 e a T e a

，得到执行网络权值更新律.如果控制器处于休息区间，执行网络权值的更新律为

W^˙ a = 0

，当控制器工作时，执行网络权值的更新律为：

W^a + = W^˙ a - α a ϕ a W^a T ϕ a x k - u^c k * T,

其中

u^c k * = - λ t a n h 1 2 λ g T x k ∇ ϕ c T W^c

，

α a > 0

是执行网络的学习率，执行网络权值的估计误差为

W ˜ a = W a - W^a

，则有：

u k * - u c k * = W a T ϕ a x k + ε a + λ t a n h 1 2 λ g T x k ∇ ϕ c T W c + ∇ ε c = 0 .

由此可得：

W ˜ ˙ a = 0, t ≠ t k i W ˜ a + = W ˜ a - α a ϕ a W ˜ a T ϕ a x k + u c k * - u^c k * + ε a T, t = t k i .

（23）

4 稳定性分析

假设3^［4］假设评价网络的理想权值

W c

、激活函数

ϕ c

、激活函数的梯度

∇ ϕ c

、重构误差

ε c

、重构误差的梯度

∇ ε c

、残差

ε H

分别满足

W c ≤ W c M

、

ϕ c ≤ ϕ c M

、

∇ ϕ c ≤ ϕ M

、

ε c ≤ ε c M

、

∇ ε c ≤ ε M

、

ε H ≤ ε H M

；执行网络的参数满足

W a ≤ W a M

、

ϕ a ≤ ϕ a M

、

ε a ≤ ε a M

，即均有界.

定理2 考虑标称系统

2

和HJB方程

9

.在假设1~假设3下，采用间歇最优控制律

20

和权值更新律

21

、

23

，且触发条件满足：

e 2 ≤ 1 - θ 2 1 - τ 2 λ m i n Q x k 2 L b 2 + 1 τ 2 - 1 λ m a x Q = e T,

（24）

其中

L b 2 = 4 λ 2 L u 2 L υ 2

，则系统

2

是SGPFS.

证明首先，分析权值误差

W ˜ c

和

W ˜ a

的收敛性，选取

L y a p u n o v

函数

L

：

L = L 2 + L 3,

其中

L 2 = α c - 1 t r W ˜ c T W ˜ c

，

L 3 = α a - 1 t r W ˜ a T W ˜ a

.当

t = t k i

时，可得：

Δ L = Δ L 2 + Δ L 3 .

（25）

可知

ϑ u ¯ * - ϑ u ¯^*

满足不等式：

ϑ u ¯ * - ϑ u ¯^* = 2 ∫ u ¯^* u ¯ * λ t a n h - 1 τ λ d τ ≤ 2 λ υ k * u ¯ * - u ¯^* ≤ L g ϕ M W c M u ¯ * - u ¯^* ≤ λ L g ϕ M W c M υ * - υ k * ≤ 12 L g 2 ϕ M 2 W c M W ˜ c + ε M,

由此可得：

Δ L 2 = α c - 1 Δ t r W ˜ c T W ˜ c = α c - 1 t r W ˜ c + T W ˜ c + - t r W ˜ c T W ˜ c ≤ - 2 σ σ T W ˜ c + ϑ u ¯ * - ϑ u ¯^* + ε H W ˜ c + α c σ 2 σ T W ˜ c + ϑ u ¯ * - ϑ u ¯^* + ε H 2 ≤ - 1 + 32 α c b 12 + b 12 - b 1 σ - 3 α c σ 2 σ 2 W ˜ c 2 + 3 α c σ 2 + 1 ε H M 2 + 32 α c b 12 σ 2 + 1 ε M 2,

（26）

Δ L 3 = α a - 1 Δ t r W ˜ a T W ˜ a = α a - 1 t r W ˜ a + T W ˜ a + - t r W ˜ a T W ˜ a ≤ - 2 ϕ a W ˜ a ϕ a + u c k * - u^c k * + ε a W ˜ a + α a ϕ a 2 W ˜ c ϕ a + u c k * - u^c k * + ε a 2 ≤ - 1 - 3 α a ϕ a 2 ϕ a 2 W ˜ a 2 + 32 α a b 22 W ˜ c 2 + b 2 W ˜ c W ˜ a + 3 α a ϕ a 2 + 1 ε a M 2 + 32 α a b 22 ε M 2,

（27）

其中

b 1 = L g 2 ϕ M 2 W c M

，

b 2 = L g ϕ M ϕ a M

.根据上述不等式可得：

Δ L ≤ - 1 + 32 α c b 12 + b 12 - b 1 σ - 3 α c σ 2 σ 2 W ˜ c 2 + 3 α c σ 2 + 1 ε H M 2 + 32 α c b 12 σ 2 + 1 ε M 2 - 1 - 3 α a ϕ a 2 ϕ a 2 W ˜ a 2 + 32 α a b 22 W ˜ c 2 + b 2 W ˜ c W ˜ a + 3 α a ϕ a 2 + 1 ε a M 2 + 32 α a b 22 ε M 2 ≤ - 1 + 32 α c + 1 b 12 - b 1 σ - 3 α c σ 2 σ 2 + 32 α a b 12 W ˜ c 2 - 1 - 3 α a ϕ a 2 ϕ a 2 W ˜ a 2 + b 2 W ˜ c W ˜ a + 3 α c σ 2 + 1 ε H M 2 + 3 α a ϕ a 2 + 1 ε a M 2 + 32 α c b 12 σ 2 + 32 α a b 22 + 1 ε M 2 ≤ - χ T A χ + ε 2,

（28）

其中

A = D 3 - b 1 0 1 - 3 α a ϕ a 2 ϕ a 2,

D₃ =

1 + 32 α c + 1 b 12 - b 1 σ - 3 α c σ 2 σ 2 + 32 α a b 12,

χ = W ˜ c,

W ˜ a T

，

ε 2 = 3 α c σ 2 + 1 ε H M 2 + 3 α a ϕ a 2 + 1 ε a M 2 +

32 α c b 12 σ 2 + 32 α a b 22 + 1 ε M 2

，若A的特征值都为正数，且当

χ ≥ ε 2 / λ m a x A

时，

Δ L ≤ 0

.另外，当

t ≠ t k i

时，权值向量保持不变，有

L ˙ = 0

，因此，当满足A的特征值都为正数时，权值误差

W ˜ c

和

W ˜ a

是UUB.

接下来，分析系统状态的收敛性，选取

L y a p u n o v

函数为定理1中的

L 1

，分情况讨论.

情形1：当

t ∈ T 2 i, T 2 i + 1

时，由假设1和杨不等式

2 a T b ≤ q a T a + 1 / q b T b

，

q > 0

，另借助

19

式和

20

式可知：

υ * - υ^k * 2 ≤ υ * - υ k * + υ k * - υ^k * 2 ≤ 2 υ * - υ k * 2 + 2 υ k * - υ^k * 2 ≤ 2 L υ 2 e 2 + 1 2 λ 2 g T (x k) ∇ ϕ c T W ˜ c + ∇ ε c 2 ≤ 2 L υ 2 e 2 + λ - 2 L g 2 ϕ M 2 W ˜ c 2 + λ - 2 L g 2 ε M 2 .

（29）

已知

- ϑ u ¯^* ≤ 0

，满足

24

式和

25

式，则可得：

L ˙ 1 ≤ - 12 Δ M x 2 - x T Q x - 2 ∫ 0 u * λ t a n h - 1 τ λ d τ - 2 λ t a n h - 1 u * λ T u ¯^* - u * ≤ - 12 Δ M x 2 - x T Q x - 2 ∫ 0 u ¯^* λ t a n h - 1 τ λ d τ - 2 ∫ u ¯^* u * λ t a n h - 1 τ λ d τ + 2 ∫ u ¯^* u * λ t a n h - 1 u * λ d τ ≤ - 12 Δ M x 2 - ϑ u ¯^* - 1 - τ 2 x k T Q x k + 1 τ 2 - 1 e T Q e + L b 2 e 2 + 2 L u 2 L g 2 ϕ M 2 W ˜ c 2 + 2 L g 2 ε M 2 ≤ - 1 - τ 2 β 2 λ m i n Q x k 2 - ϑ u ¯^* - 12 Δ M x 2 + 2 L u 2 L g 2 ϕ M 2 W ˜ c 2 + 2 L g 2 ε M 2 ≤ - θ 1 L 1 + θ 1 α L 1 α - θ 1 α L 1 α + 2 L u 2 L g 2 ϕ M 2 W M 2 + 2 L g 2 ε M 2 ≤ - θ 1 α L 1 α + ψ 1,

（30）

其中

θ 1 = α 1 - 1 1 - τ 2 β 2 λ m i n Q

，

ψ 1 = 2 L u 2 L g 2 ϕ M 2 W M 2 + 2 L g 2 ε M 2 + 1 - α α α 1 - α

，

W ˜ c ≤ W M

情形2：当

t ∈ T 2 i + 1, T 2 i + 1

时，接下来有：

L ˙ 1 ≤ ∇ V * x T f x ≤ α 1 - 1 L f α 3 V * x ≤ θ 2 L + ψ 2,

（31）

其中

θ 2 = α 1 - 1 L f α 3

，

ψ 2 = γ 1

综合对上述两种情况的分析和引理1，有

β 1 = θ 1 α

，

β 2 = θ 2

，

γ = m a x ψ 1, ψ 2

，则选取的

L y a p u n o v

函数

L 1

是满足条件的，可知间歇最优控制律

20

能确保系统

2

是SGPFS，定理2得证.

接下来，给出自触发机制的触发规则，并且表明芝诺行为是可以避免的.

x ˙ ≤ f x + g x u k * + Δ x ≤ L f x + L g L u e + λ + L g Δ M ≤ l 1 x + l 2 e + l 3,

其中

l 1 = L f

，

l 2 = L g L u

，

l 3 = L g L u λ + L g Δ M

，且满足

u k * ≤ u * - u k * + u * ≤ L u e + λ

对于

t ∈ t k i, t k + 1 i ⋂ T 2 i, T 2 i + 1

，有：

e ˙ = x ˙ ≤ l 1 x k + l 2 e + l 3,

由比较原理可知：

e ≤ l 1 x k + l 3 l 1 + l 2 e l 1 + l 2 t - t k i - 1,

在触发时刻

t = t k + 1 i

，满足：

l 1 x k + l 3 l 1 + l 2 e l 1 + l 2 t - t k i - 1 ≥ e t k + 1 i > e T,

那么可以得到：

t k + 1 i - t k i > 1 l 1 + l 2 l n 1 + l 1 + l 2 l 1 x k + l 3 e T > 0 .

（32）

基于上述分析，设计的触发规则如下：

t k + 1 i = t k i + 1 l 1 + l 2 l n 1 + l 1 + l 2 l 1 x k + l 3 e T .

（33）

由设计的自触发时刻的关系可知，自触发机制在当前时刻计算下一触发时刻，避免了计算资源的消耗，其触发间隔相较于事件触发机制更加保守，由定理2可知，系统在自触发机制下是满足稳定性要求的，且通过

32

式可知两个相邻触发时刻的差大于零，因此，该机制避免了芝诺行为.以下给出的定理3表明系统在自触发机制下的稳定性，具体证明可通过定理2得出，故省略.另外，图1展示了该方案的框架，增强了理论的可实现性.

定理3 考虑标称系统

2

和HJB方程

9

.在假设1~假设3下，采用间歇最优控制律

20

和权值更新律

21

、

23

，自触发规则设置为

33

式，则系统

2

是SGPFS.

5 仿真结果

考虑如下非线性系统：

x ˙ = f x + g x u + Δ x,

其中

x = x 1 x 2

，

f x = - x 1 + x 2 - 0.5 x 1 - 0.5 x 2 + 0.5 x 2 c o s 2 x 1

+ 2 2

，

g x = 0 c o s 2 x 1 + 2

，

u

为控制输入，满足

u ≤ 6.5

，

Δ x = 0.5 p x 1 s i n x 2

，

p ∈ - 1,1

.仿真中初始值设为

x 0 = 1, - 1 T

，

Q = d i a g 2,2

，

λ = 6.5

，

Δ M x = x

，选取周期

T Δ = 10 s

，工作区间长度

T 1 = 9.5 s

，在自触发间歇机制下得到最优控制策略，且应用到系统.在神经网络中，评价网络的激活函数选择为

ϕ c = x 12 x 1 x 2 x 22 T

，定义其权值

W c = W c 1 W c 2 W c 3 T

且初始权值设置为

1,1, 1 T

.执行网络的激活函数选择

ϕ a = x 12 x 1 x 2 x 22 T

，定义执行网络权值

W a = W a 1 W a 2 W a 3 T

且初始权值的设置使初始控制是容许的.另外，通过在仿真中对相关参数的优化调整，评价网络和执行网络的学习率分别设为

0.5

和

0.5

，触发阈值的设置满足性能需求.

图2中展示了系统状态的收敛过程；带有输入约束的自触发间歇控制收敛过程见图3，其有效地将控制值限制在指定范围，若没有考虑输入约束，控制值将会超过所设范围，就需要将控制值设置为上界；图4和图5分别呈现了评价网络和执行网络权值的变化过程，最终收敛到一个稳定的值；成本函数的变化过程见图6，该图表明成本有限累积到一个固定值；图7对比了连续控制和自触发间歇控制的采样数量，连续控制需要的采样数量为10000，而自触发间歇控制的采样数量为3972，可知所提出的方法减少了约60%的通信资源.本文方法克服了系统中未知扰动的影响和输入约束的限制，减少了控制器的更新数量，提高了采样效率，体现出本文方法的优越性.

6 结论

本文运用ADP方法研究了带有输入约束的连续时间非线性系统的最优控制问题.采用自触发间歇控制器，克服了系统内部扰动的影响，有效地减少了采样数量，提高了采样效率；使用评价网络和执行网络分别逼近最优成本函数和最优控制输入，且在有限时间内使系统稳定；最后，通过仿真测试验证了理论的可行性.在接下来的研究中，可以进一步探索间歇机制在控制理论中的应用，优化自触发机制.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	WANG D， GAO N， LIU D， et al. Recent progress in reinforcement learning and adaptive dynamic programming for advanced control applications［J］. IEEE/CAA Journal of Automatica Sinica， 2023， 11（1）： 18-36.

[2]	WANG K， MU C， NI Z， et al. Safe reinforcement learning and adaptive optimal control with applications to obstacle avoidance problem［J］. IEEE Transactions on Automation Science and Engineering， 2023， 21（3）： 4599-4612.

[3]	BOURDIN L， TRÉLAT E. Linear-quadratic optimal sampled-data control problems： Convergence result and Riccati theory［J］. Automatica， 2017， 79： 273-281.

[4]	ZHANG H， CUI L， ZHANG X， et al. Data-driven robust approximate optimal tracking control for unknown general nonlinear systems using adaptive dynamic programming method［J］. IEEE Transactions on Neural Networks， 2011， 22（12）： 2226-2236.

[5]	XIANG Z， LI P， ZOU W. Event-triggered optimal control for a class of continuous-time switched nonlinear systems［J］. IEEE Transactions on Automation Science and Engineering， 2024， 22： 1620-1630.

[6]	FENG T， ZHANG H， LUO Y， et al. Stability analysis of heuristic dynamic programming algorithm for nonlinear systems［J］. Neurocomputing， 2015， 149： 1461-1468.

[7]	YANG D， LI T， ZHANG H， et al. Event-trigger-based robust control for nonlinear constrained-input systems using reinforcement learning method［J］. Neurocomputing， 2019， 340： 158-170.

[8]	MING Z， ZHANG H， YAN Y， et al. Self-triggered adaptive dynamic programming for model-free nonlinear systems via generalized fuzzy hyperbolic model［J］. IEEE Transactions on Systems， Man， and Cybernetics： Systems， 2022， 53（5）： 2792-2801.

[9]	宋广发，梅俊. 基于PMV的多区域暖通空调事件触发间歇控制研究［J］. 三峡大学学报（自然科学版）， 2024， 46（3）： 99-104.

[10]	LIU C， LIU L， CAO J， et al. Intermittent event-triggered optimal leader-following consensus for nonlinear multi-agent systems via actor-critic algorithm［J］. IEEE Transactions on Neural Networks and Learning Systems， 2021， 34（8）： 3992-4006.

[11]	WANG W， GU H， MEI J， et al. Output information-based intermittent optimal control for continuous-time nonlinear systems with unmatched uncertainties via adaptive dynamic programming［J］. ISA Transactions， 2024， 147： 163-175.

[12]	LIU C， LIU L， WU Z. Intermittent event-triggered optimal control for second-order delayed multiagent systems with input constraints［J］. IEEE Transactions on Systems， Man， and Cybernetics： Systems， 2024， 54（5）： 2698-2710.

[13]	ZHANG C， ZHANG X， XIAO F， et al. Intermittent dynamic event-triggered optimal control for networked control systems with input saturation［J］. International Journal of Robust and Nonlinear Control， 2025， 35（6）： 1935-1949.

[14]	MEI J， LU Z， HU J， et al. Energy-efficient optimal guaranteed cost intermittent-switch control of a direct expansion air conditioning system［J］. IEEE/CAA Journal of Automatica Sinica， 2021， 8（11）： 1852-1866.

[15]	HUO Y， WANG D， QIAO J， et al. Off-policy model-free learning for multi-player non-zero-sum games with constrained inputs［J］. IEEE Transactions on Circuits and Systems I： Regular Papers， 2022， 70（2）： 910-920.

[16]	LIU D， WANG D， WANG F Y， et al. Neural-network-based online HJB solution for optimal robust guaranteed cost control of continuous-time uncertain nonlinear systems［J］. IEEE Transactions on Cybernetics， 2014， 44（12）： 2834-2847.

[17]	LIU S， NIU B， ZONG G， et al. Data-driven-based event-triggered optimal control of unknown nonlinear systems with input constraints［J］. Nonlinear Dynamics， 2022， 109（2）： 891-909.

[18]	RUAN Z， HU J， MEI J. Robust optimal triple event-triggered intermittent control for uncertain input-constrained nonlinear systems［J］. Communications in Nonlinear Science and Numerical Simulation， 2024， 129： 107718.

[19]	LIU M， JIANG H， HU C. Finite-time synchronization of delayed dynamical networks via aperiodically intermittent control［J］. Journal of the Franklin Institute， 2017， 354（13）： 5374-5397.