基于自适应动态规划的约束非线性系统自触发间歇最优控制

陈浩 ,  王维峰

中南民族大学学报(自然科学版) ›› 2026, Vol. 45 ›› Issue (01) : 110 -118.

PDF (1513KB)
中南民族大学学报(自然科学版) ›› 2026, Vol. 45 ›› Issue (01) : 110 -118. DOI: 10.20056/j.cnki.ZNMDZK.20250825
数学与统计学科学

基于自适应动态规划的约束非线性系统自触发间歇最优控制

作者信息 +

Self-triggered intermittent optimal control of constrained nonlinear systems via adaptive dynamic programming

Author information +
文章历史 +
PDF (1548K)

摘要

通过自触发间歇控制机制研究了带有输入约束的连续非线性系统的最优控制问题.将设计出的控制器应用到系统中,并克服系统内部未知扰动的影响;然后,采用评价神经网络和执行神经网络分别逼近最优成本函数和最优控制输入,得到最优控制策略,再利用半全局实际有限时间稳定的推广引理保证系统的稳定性分析;最后,通过数值仿真验证了所提理论的可行性.

Abstract

The optimal control problem of continuous nonlinear systems are investigated with input constraints using a self-triggered intermittent control mechanism. The designed controller is applied to the system to overcome the influence of unknown internal disturbances. Then, the critic and action neural networks are employed to approximate the optimal cost function and the optimal control input, respectively, to obtain the optimal control strategy. The stability of the system is analyzed by using a generalized lemma on semi-global practical finite-time stability. Finally, numerical simulations are conducted to verify the feasibility of the proposed theory.

Graphical abstract

关键词

自适应动态规划 / 连续非线性系统 / 自触发间歇最优控制 / 输入约束 / 神经网络

Key words

adaptive dynamic programming / continuous nonlinear systems / self-triggered intermittent optimal control / input constraint / neural network

引用本文

引用格式 ▾
陈浩,王维峰. 基于自适应动态规划的约束非线性系统自触发间歇最优控制[J]. 中南民族大学学报(自然科学版), 2026, 45(01): 110-118 DOI:10.20056/j.cnki.ZNMDZK.20250825

登录浏览全文

4963

注册一个新账户 忘记密码

在过去的几十年,自适应动态规划(ADP)作为一种有效的智能控制方法,在寻找最优控制1-2的解决方案方面发挥了重要作用.为了克服传统动态规划方法导致的“维数灾”问题,WERBOS在1977年提出了该方法.通常,对于线性系统可以使用Riccati方程求解3,而对于非线性系统来说,其对应的哈密顿-雅可比-贝尔曼(HJB)方程是一个非线性偏微分方程,其解析解很难得到.因此,运用ADP方法4-5利用函数近似结构来逼近满足HJB方程的最优成本函数和最优控制输入,可以有效地解决此问题,例如使用神经网络(NN)结构.
最优控制作为现代控制系统设计的核心理念,致力于确保在满足系统性能指标的前提下,寻求期望性能指标和可用控制资源之间的最优平衡.对于传统的控制策略6,控制器随着时间连续更新,消耗了大量的通信资源.为缓解该问题,学界内提出了事件触发机制7,该机制是一种非周期性的方式,虽然在一定程度上减少了采样数量,但需要连续检测触发条件,消耗了大量的计算资源.在此基础上,有学者提出了自触发机制8和动态事件触发机制.自触发机制在当前时刻计算出下一触发时刻,有效避免连续检测触发条件,降低了计算的复杂度;相较于传统的事件触发机制,动态事件触发机制引入了一个额外的内部动态变量,可以动态调整触发阈值,使得采样间隔进一步增大.近年来,为了降低控制器的采样数量,且提高采样效率,很多学者将间歇控制方法9-11引入最优控制问题,间歇控制方法将时间区间划分为工作区间和休息区间,在工作区间进行控制,而在休息区间停止控制,这种方式不仅能确保系统性能,还提高了资源的利用率.如LIU等12将事件触发机制和间歇控制结合,提出了事件触发间歇最优控制方法,有效地减少了采样次数;ZHANG等13将动态事件触发机制和间歇控制结合,提出了动态事件触发间歇最优控制方法,使理论得到进一步扩展.在其他领域,该方法同样彰显优越性,如MEI等14将其考虑在空调系统中,体现了间歇控制方法的节能优势.基于上述分析,本文通过将自触发机制和间歇控制方法结合的方式去解决最优控制问题,具有重要的理论价值和实际意义.
近年来,带有输入约束的控制问题在工业界引起广泛关注15,因为在实际应用中,系统不可避免地存在影响内部特性的约束条件,一定程度上阻碍了控制的实行,甚至严重影响到具体方案的实际效果.本文通过引入一种非二次型函数解决此问题,以避免资源的过度消耗.此外,实际的系统中经常出现模型不确定性和外部扰动等因素,为降低这类因素对系统的影响,业内学者们对鲁棒控制问题进行了大量的研究工作,如LIU等16通过设计合适的成本函数实现不确定系统和标称系统之间的等价性;LIU等17将鲁棒控制问题转换为最优控制问题进行求解,极大地保证了系统的性能.在实际的工程背景下,以上描述的限制条件和影响因素需要有效克服,本文综合考虑了输入约束和扰动因素的影响,以满足实际中的真实需求.
基于上述分析,本文基于ADP方法,利用自触发间歇控制机制对带有输入约束的连续非线性系统的最优控制问题进行研究.首先,将原控制问题通过一个带有修改后成本函数的标称系统转换为最优控制问题;另外,由于稳定性理论的进一步发展,本文介绍了半全局实际有限时间稳定性理论18-19(SGPFS);然后,采用两个NN分别逼近最优成本函数和最优控制输入,保证了系统的稳定性;最后,通过仿真验证该方法的有效性.

1 问题描述

考虑如下连续时间非线性仿射系统:

x˙t=fxt+gxtut+Δxt,

其中xtRn为系统的状态,u(t)=u1(t),,ui(t),,um(t)TRm为控制输入,满足uitλλ>0f·g·都为连续可微函数,f·Rn是有界闭集Ω上的Lipschitz函数,f0=0g·Rn×mΩ上的有界函数;ΔxRn是未知的有界扰动,满足ΔxΔMxΔMx是一个已知函数且ΔM0=0.假设Δ0=0,使得x=0Ω上的唯一平衡点,初始状态为x0=x0.

考虑系统1对应的标称系统:

x˙t=fxt+gxtut.

因未知扰动的影响,受LIU16的启发,为实现系统1和标称系统2之间的等价性,且将鲁棒控制问题转换为最优控制问题,定义成本函数如下:

Vxt=t12ΔMxs2+rxs,usds,

其中rx,u=xTQx+ϑuQRn×n为对称正定矩阵,满足V0=0.为简单起见,后续与时间t相关的变量或函数在表示时均省略t.对于输入约束问题,LIU17引入一种非二次型函数ϑu,定义为:

ϑu=20uλtanh-1τλdτ=2i=1m0uiλtanh-1τiλdτi.

定义系统1的Hamiltonian如下:

Hx,u,Vx=12ΔMx2+rx,u+VxTfx+gxu,

其中Vx=Vx/x,根据Bellman最优性原理可以得到连续时间HJB方程:

minuΛ(Ω)Hx,u,V*x=0,

其中ΛΩ为容许控制域,V*x为最优成本函数,对应时刻的最优控制输入u*为:

u*=argminuΛ(Ω)Hx,u,V*x.

已知最优控制满足一阶必要性条件,通过求解Hx,u,Vx/u=0,最小化3式得:

u*=-λtanhυ*,

其中υ*=12λgTxV*x.通过58式,HJB方程6可以写成:

 12ΔMx2+xTQx+20u*λtanh-1τλdτ+V*xTfx+gxu*=0.

本文控制目标为:设计一个满足约束条件的控制策略u*使带有扰动的闭环系统(1)是稳定的,同时最小化成本函数.

成本函数3的设计是为了克服扰动因素的影响和实现输入约束的限制,结合后续的稳定性证明,其首项评估每一时刻的扰动;而ϑu的设计有效地将控制输入约束到指定范围.受LIU16的启发,本文设计的成本函数可以确保在标称系统中实现与原系统的等价性,将鲁棒控制问题转换为最优控制问题,再结合现有理论实现本文的控制目标.

2 自触发间歇控制器设计

本节首先介绍一种周期性间歇控制方法,通过逼近连续时间HJB方程,设计对应的周期性间歇控制器,且保证系统的稳定性.间歇控制的目的在于减少通信资源的浪费,在系统稳定的前提下,减少采样量的同时最小化成本,而周期性提高了采样效率.控制器以间歇方式运行,当系统处于工作区间,控制器运行;当系统处于休息区间,控制器关闭.为了设计周期性间歇控制器,将0,+划分为一系列子区间Ti,Ti+1i=0,1,,定义一个周期的长度为TΔ=T2i+2-T2i,一个周期内工作区间和休息区间的长度分别为T1=δTΔT2=1-δTΔ,其中0<δ<1,周期性间歇控制器的工作时间为tTw=i=0T2i,T2i+1,休息时间为tTr=i=0T2i+1,T2i+1.初始时刻为T0=0,满足0=T0<T1<T2<T3.而后引入一种自触发机制,其触发时刻序列为tkiiN,kN,满足t0i=T2itkiR+.定义误差:

e=xk-xt,      ttki,tk+1i,

其中xk=xtki.

考虑如下间歇最优控制器:

u¯*=-λtanhυk*,    ttki,tk+1iT2i,T2i+10,                         tT2i+1,T2i+1,

其中υk*=12λgTxkV*xk,根据间歇控制思想将系统2写为:

x˙=fx+gxuk*,  ttki,tk+1iT2i,T2i+1fx,                     tT2i+1,T2(i+1),

其中uk*=u*xk.

接下来给出半全局实际有限时间稳定性的推广引理:

引理111 对于连续时间非线性系统1,若存在连续可微的正定函数Vt,满足以下条件:

V˙t-β1Vαt+γ,  tT2i,T2i+1  β2Vt+γ,    tT2i+1,T2i+1,

其中β1,β2,γ>0α,ϖ0,1,则以下不等式成立:

V1-αt1+V1-α0eβ1+β21-αδt-ϖβ11-α1-δt,  0tT,

其中δ0,1为一个周期内工作区间的长度,T是一个常数.若满足e1+β1+β2δϖβ11-αV1-α0ϖβ11-αβ1+β2δ,设定的时间为Tx0=1β1+β21-αδ+1ϖβ11-α1-δ,那么系统1是SGPFS.

基于间歇控制思想和引理1,定理1给出对应的稳定性证明.在此之前,先介绍如下两个假设:

假设113 假设fx在包含原点的有界闭集ΩRn上是Lipschitz连续的,f0=0gxΩ上是有界函数,u*υ*Lipschitz连续的,且λ-tanh·λ-Lipschitz连续函数,即满足:

u*-uk*Lux-xk=Lue,fx+gxuk*<Lfx+Lge,
λtanhυ*-λtanhυk*λυ*-υk*λLυe,

其中LuLfLgLυ都是正数.

假设213 假设存在3个正数α1,α2,α3使得最优成本函数及其导数满足:

α1x2V*xα2x2,
V*xα3x.

定理1 考虑标称系统2.在假设1和假设2下,若存在一个满足HJB方程9的最优成本函数的导数V*x,且有正数θ,τ0,1满足:

e21-θ21-τ2λminQxk2La2+1τ2-1λmaxQ=eT,

其中La2=2λLuLυ+Lg2α32,那么系统1在间歇最优控制器10的作用下是SGPFS.

证明 选取Lyapunov函数L1

L1=V*x,

ttki,tk+1iT2i,T2i+1时,可得:

L˙1=V*xTfx+gxuk*+Δx.

根据89式可知满足:

V*xTgx=-2λtanh-1u*λT,
V*xTfx+gxu*=-12ΔM2x-xTQx-20u*λtanh-1τλdτ,

另外,由误差定义有:

xTQx=xkTQxk-2xkTQe+eTQe=1-τ2xkTQxk-1τ2-1eTQe+τxk-1τeTQτxk-1τe1-τ2xkTQxk-1τ2-1eTQe,

1516式代入14式,且满足-ϑuk*0,结合13式可知:

L˙1=-12ΔMx2-xTQx-20u*λtanh-1τλdτ-2λtanh-1u*λTuk*-u*+V*xTgxΔx-12ΔMx2-1-τ2xkTQxk+1τ2-1eTQe+2λLuLυe2-20uk*λtanh-1τλdτ+12V*xTgxgxTV*x+12Δ2x-1-θ21-τ2λminQ-Lg2α32xk2+La2+1τ2-1λmaxQe2-θ21-τ2λminQxk2-ϑuk*+12Δ2x-12ΔMx2-η1L1+η1αL1α-η1αL1α-η1αL1α+γ1,

其中η1=α1-1θ21-τ2λminQ-Lg2α32γ1=1-ααα1-αα>0.当tT2i+1,T2i+1时,控制器停止运行,根据系统11可得:

L˙1=V*xTfxLfα3x2η2L1+γ1,

其中η2=α1-1Lfα3.

因此,基于引理1,有β1=η1αβ2=η2γ=γ1,则选取的Lyapunov函数L1是满足条件的,结合两种情形可知系统1是SGPFS.

3 神经网络的实现

非线性HJB方程是一种偏微分方程,通常难以求解,本节通过应用ADP方法的评价网络和执行网络分别逼近最优成本函数V*x和最优控制u*.

(1)评价网络表示为:

V*x=WcTϕcx+εc,

其中WcRN1为评价网络的理想权值,ϕcxRN1为评价网络的激活函数,N1为隐藏层的神经元数量,εc为评价网络的重构误差.

最优成本函数的导数表示为:

V*=ϕcTWc+εc,

其中V*=V*x/xϕc=ϕcx/xεc=εcx/x.将上式代入8式,触发时刻的控制器可以表示为:

uck*=-λtanhυk*,

其中υk*=12λgTxkϕcTWc+εc.利用评价网络逼近V*x

V^*x=W^cTϕcx,

其中W^c为评价网络的估计权值,V^*xV*x的估计.

因此,间歇最优控制器10的评价网络形式可以表示为:

u¯^*=-λtanhυ^k*,     ttki,tk+1iT2i,T2i+10,                          tT2i+1,T2i+1,

其中υ^k*=12λgTxkϕcTW^c.由上述形式可知,HJB方程的近似形式可以写成:

Hx,u¯^*,W^c=W^cTϕcfx+gxu¯^*+xTQx+ϑu¯^*=ec.

以下采用梯度下降法最小化目标函数Ec=12ecTec,得到评价网络权值更新律.如果控制器处于休息区间,评价网络权值的更新律为W^˙c=0,当控制器工作时,评价网络权值的更新律为:

W^c+=W^c-αcσσTW^c+xTQx+ϑu¯^*,

其中αc>0是评价网络的学习率,σ=σ1/σ1Tσ1+1σ1=ϕcfx+gxu¯^*,且满足σmσσM.

定义评价网络权值的估计误差为W˜c=Wc-W^c,有:

Hx,u¯*,Wc=WcTϕcfx+gxu¯*+xTQx+ϑu¯*=εH,

其中εH=-εcfx+gxu¯*,由此可以得出:

W˜˙c=0,                                                                           ttkiW˜c+=W˜c-αcσ(σTW˜c+ϑu¯*-ϑu¯^*+εH),t=tki.

(2)执行网络表示为:

u*=WaTϕax+εa,

其中WaRN2为执行网络的理想权值,ϕaxRN2为执行网络的激活函数,N2为隐藏层的神经元数量,εa为执行网络的重构误差.

利用执行网络逼近u*

u^*=W^aTϕax,

其中W^a为执行网络的估计权值,u^*u*的估计.

因此,执行网络的近似误差可以表示为:

ea=W^aTϕax+λtanh12λgTxϕcTW^c.

以下采用梯度下降法最小化目标函数Ea=12eaTea,得到执行网络权值更新律.如果控制器处于休息区间,执行网络权值的更新律为W^˙a=0,当控制器工作时,执行网络权值的更新律为:

W^a+=W^˙a-αaϕaW^aTϕaxk-u^ck*T,

其中u^ck*=-λtanh12λgTxkϕcTW^cαa>0是执行网络的学习率,执行网络权值的估计误差为W˜a=Wa-W^a,则有:

uk*-uck*=WaTϕaxk+εa+λtanh12λgTxkϕcTWc+εc=0.

由此可得:

W˜˙a=0,                                                                           ttkiW˜a+=W˜a-αaϕaW˜aTϕaxk+uck*-u^ck*+εaT,t=tki.

4 稳定性分析

假设34 假设评价网络的理想权值Wc、激活函数ϕc、激活函数的梯度ϕc、重构误差εc、重构误差的梯度εc、残差εH分别满足WcWcMϕcϕcMϕcϕMεcεcMεcεMεHεHM;执行网络的参数满足WaWaMϕaϕaMεaεaM,即均有界.

定理2 考虑标称系统2和HJB方程9.在假设1~假设3下,采用间歇最优控制律20和权值更新律2123,且触发条件满足:

e21-θ21-τ2λminQxk2Lb2+1τ2-1λmaxQ=eT,

其中Lb2=4λ2Lu2Lυ2,则系统2是SGPFS.

证明 首先,分析权值误差W˜cW˜a的收敛性,选取Lyapunov函数L

L=L2+L3,

其中L2=αc-1trW˜cTW˜cL3=αa-1trW˜aTW˜a.当t=tki时,可得:

ΔL=ΔL2+ΔL3.

可知ϑu¯*-ϑu¯^*满足不等式:

ϑu¯*-ϑu¯^*=2u¯^*u¯*λtanh-1τλdτ2λυk*u¯*-u¯^*LgϕMWcMu¯*-u¯^*λLgϕMWcMυ*-υk*12Lg2ϕM2WcMW˜c+εM,

由此可得:

ΔL2=αc-1ΔtrW˜cTW˜c=αc-1trW˜c+TW˜c+-trW˜cTW˜c-2σσTW˜c+ϑu¯*-ϑu¯^*+εHW˜c+αcσ2σTW˜c+ϑu¯*-ϑu¯^*+εH2-1+32αcb12+b12-b1σ-3αcσ2σ2W˜c2+3αcσ2+1εHM2+32αcb12σ2+1εM2,
ΔL3=αa-1ΔtrW˜aTW˜a=αa-1trW˜a+TW˜a+-trW˜aTW˜a-2ϕaW˜aϕa+uck*-u^ck*+εaW˜a+αaϕa2W˜cϕa+uck*-u^ck*+εa2-1-3αaϕa2ϕa2W˜a2+32αab22W˜c2+b2W˜cW˜a+3αaϕa2+1εaM2+32αab22εM2,

其中b1=Lg2ϕM2WcMb2=LgϕMϕaM.根据上述不等式可得:

ΔL-1+32αcb12+b12-b1σ-3αcσ2σ2W˜c2+3αcσ2+1εHM2+32αcb12σ2+1εM2-1-3αaϕa2ϕa2W˜a2+32αab22W˜c2+b2W˜cW˜a+3αaϕa2+1εaM2+32αab22εM2-1+32αc+1b12-b1σ-3αcσ2σ2+32αab12W˜c2-1-3αaϕa2ϕa2W˜a2+b2W˜cW˜a+3αcσ2+1εHM2+3αaϕa2+1εaM2+32αcb12σ2+32αab22+1εM2-χTAχ+ε2,

其中A=D3-b101-3αaϕa2ϕa2,D3 =1+32αc+1b12-b1σ-3αcσ2σ2+32αab12,χ=W˜c,W˜aTε2=3αcσ2+1εHM2+3αaϕa2+1εaM2+32αcb12σ2+32αab22+1εM2,若A的特征值都为正数,且当χε2/λmaxA时,ΔL0.另外,当ttki时,权值向量保持不变,有L˙=0,因此,当满足A的特征值都为正数时,权值误差W˜cW˜a是UUB.

接下来,分析系统状态的收敛性,选取Lyapunov函数为定理1中的L1,分情况讨论.

情形1:当tT2i,T2i+1时,由假设1和杨不等式2aTbqaTa+1/qbTbq>0,另借助19式和20式可知:

υ*-υ^k*2υ*-υk*+υk*-υ^k*22υ*-υk*2+2υk*-υ^k*22Lυ2e2+12λ2gT(xk)ϕcTW˜c+εc22Lυ2e2+λ-2Lg2ϕM2W˜c2+λ-2Lg2εM2.

已知-ϑu¯^*0,满足24式和25式,则可得:

L˙1-12ΔMx2-xTQx-20u*λtanh-1τλdτ-2λtanh-1u*λTu¯^*-u*-12ΔMx2-xTQx-20u¯^*λtanh-1τλdτ-2u¯^*u*λtanh-1τλdτ+2u¯^*u*λtanh-1u*λdτ-12ΔMx2-ϑu¯^*-1-τ2xkTQxk+1τ2-1eTQe+Lb2e2+2Lu2Lg2ϕM2W˜c2+2Lg2εM2-1-τ2β2λminQxk2-ϑu¯^*-12ΔMx2+2Lu2Lg2ϕM2W˜c2+2Lg2εM2-θ1L1+θ1αL1α-θ1αL1α+2Lu2Lg2ϕM2WM2+2Lg2εM2-θ1αL1α+ψ1,

其中θ1=α1-11-τ2β2λminQψ1=2Lu2Lg2ϕM2WM2+2Lg2εM2+1-ααα1-αW˜cWM.

情形2:当tT2i+1,T2i+1时,接下来有:

L˙1V*xTfxα1-1Lfα3V*xθ2L+ψ2,

其中θ2=α1-1Lfα3ψ2=γ1.

综合对上述两种情况的分析和引理1,有β1=θ1αβ2=θ2γ=maxψ1,ψ2,则选取的Lyapunov函数L1是满足条件的,可知间歇最优控制律20能确保系统2是SGPFS,定理2得证.

接下来,给出自触发机制的触发规则,并且表明芝诺行为是可以避免的.

x˙fx+gxuk*+ΔxLfx+LgLue+λ+LgΔMl1x+l2e+l3,

其中l1=Lfl2=LgLul3=LgLuλ+LgΔM,且满足uk*u*-uk*+u*Lue+λ.

对于ttki,tk+1iT2i,T2i+1,有:

e˙=x˙l1xk+l2e+l3,

由比较原理可知:

el1xk+l3l1+l2el1+l2t-tki-1,

在触发时刻t=tk+1i,满足:

l1xk+l3l1+l2el1+l2t-tki-1etk+1i>eT,

那么可以得到:

tk+1i-tki>1l1+l2ln1+l1+l2l1xk+l3eT>0.

基于上述分析,设计的触发规则如下:

tk+1i=tki+1l1+l2ln1+l1+l2l1xk+l3eT.

由设计的自触发时刻的关系可知,自触发机制在当前时刻计算下一触发时刻,避免了计算资源的消耗,其触发间隔相较于事件触发机制更加保守,由定理2可知,系统在自触发机制下是满足稳定性要求的,且通过32式可知两个相邻触发时刻的差大于零,因此,该机制避免了芝诺行为.以下给出的定理3表明系统在自触发机制下的稳定性,具体证明可通过定理2得出,故省略.另外,图1展示了该方案的框架,增强了理论的可实现性.

定理3 考虑标称系统2和HJB方程9.在假设1~假设3下,采用间歇最优控制律20和权值更新律2123,自触发规则设置为33式,则系统2是SGPFS.

5 仿真结果

考虑如下非线性系统:

x˙=fx+gxu+Δx,

其中x=x1x2fx=-x1+x2-0.5x1-0.5x2+0.5x2cos2x1+22gx=           0cos2x1+2u为控制输入,满足u6.5Δx=0.5px1sinx2p-1,1.仿真中初始值设为x0=1,-1TQ=diag2,2λ=6.5ΔMx=x,选取周期TΔ=10s,工作区间长度T1=9.5s,在自触发间歇机制下得到最优控制策略,且应用到系统.在神经网络中,评价网络的激活函数选择为ϕc=x12   x1   x2   x22T,定义其权值Wc=Wc1 Wc2 Wc3T且初始权值设置为1,1,1T.执行网络的激活函数选择ϕa=x12   x1   x2   x22T,定义执行网络权值Wa=Wa1  Wa2  Wa3T且初始权值的设置使初始控制是容许的.另外,通过在仿真中对相关参数的优化调整,评价网络和执行网络的学习率分别设为0.50.5,触发阈值的设置满足性能需求.

图2中展示了系统状态的收敛过程;带有输入约束的自触发间歇控制收敛过程见图3,其有效地将控制值限制在指定范围,若没有考虑输入约束,控制值将会超过所设范围,就需要将控制值设置为上界;图4图5分别呈现了评价网络和执行网络权值的变化过程,最终收敛到一个稳定的值;成本函数的变化过程见图6,该图表明成本有限累积到一个固定值;图7对比了连续控制和自触发间歇控制的采样数量,连续控制需要的采样数量为10000,而自触发间歇控制的采样数量为3972,可知所提出的方法减少了约60%的通信资源.本文方法克服了系统中未知扰动的影响和输入约束的限制,减少了控制器的更新数量,提高了采样效率,体现出本文方法的优越性.

6 结论

本文运用ADP方法研究了带有输入约束的连续时间非线性系统的最优控制问题.采用自触发间歇控制器,克服了系统内部扰动的影响,有效地减少了采样数量,提高了采样效率;使用评价网络和执行网络分别逼近最优成本函数和最优控制输入,且在有限时间内使系统稳定;最后,通过仿真测试验证了理论的可行性.在接下来的研究中,可以进一步探索间歇机制在控制理论中的应用,优化自触发机制.

参考文献

[1]

WANG DGAO NLIU Det al. Recent progress in reinforcement learning and adaptive dynamic programming for advanced control applications[J]. IEEE/CAA Journal of Automatica Sinica202311(1): 18-36.

[2]

WANG KMU CNI Zet al. Safe reinforcement learning and adaptive optimal control with applications to obstacle avoidance problem[J]. IEEE Transactions on Automation Science and Engineering202321(3): 4599-4612.

[3]

BOURDIN LTRÉLAT E. Linear-quadratic optimal sampled-data control problems: Convergence result and Riccati theory[J]. Automatica201779: 273-281.

[4]

ZHANG HCUI LZHANG Xet al. Data-driven robust approximate optimal tracking control for unknown general nonlinear systems using adaptive dynamic programming method[J]. IEEE Transactions on Neural Networks201122(12): 2226-2236.

[5]

XIANG ZLI PZOU W. Event-triggered optimal control for a class of continuous-time switched nonlinear systems[J]. IEEE Transactions on Automation Science and Engineering202422: 1620-1630.

[6]

FENG TZHANG HLUO Yet al. Stability analysis of heuristic dynamic programming algorithm for nonlinear systems[J]. Neurocomputing2015149: 1461-1468.

[7]

YANG DLI TZHANG Het al. Event-trigger-based robust control for nonlinear constrained-input systems using reinforcement learning method[J]. Neurocomputing2019340: 158-170.

[8]

MING ZZHANG HYAN Yet al. Self-triggered adaptive dynamic programming for model-free nonlinear systems via generalized fuzzy hyperbolic model[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems202253(5): 2792-2801.

[9]

宋广发, 梅俊. 基于PMV的多区域暖通空调事件触发间歇控制研究[J]. 三峡大学学报(自然科学版)202446(3): 99-104.

[10]

LIU CLIU LCAO Jet al. Intermittent event-triggered optimal leader-following consensus for nonlinear multi-agent systems via actor-critic algorithm[J]. IEEE Transactions on Neural Networks and Learning Systems202134(8): 3992-4006.

[11]

WANG WGU HMEI Jet al. Output information-based intermittent optimal control for continuous-time nonlinear systems with unmatched uncertainties via adaptive dynamic programming[J]. ISA Transactions2024147: 163-175.

[12]

LIU CLIU LWU Z. Intermittent event-triggered optimal control for second-order delayed multiagent systems with input constraints[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems202454(5): 2698-2710.

[13]

ZHANG CZHANG XXIAO Fet al. Intermittent dynamic event-triggered optimal control for networked control systems with input saturation[J]. International Journal of Robust and Nonlinear Control202535(6): 1935-1949.

[14]

MEI JLU ZHU Jet al. Energy-efficient optimal guaranteed cost intermittent-switch control of a direct expansion air conditioning system[J]. IEEE/CAA Journal of Automatica Sinica20218(11): 1852-1866.

[15]

HUO YWANG DQIAO Jet al. Off-policy model-free learning for multi-player non-zero-sum games with constrained inputs[J]. IEEE Transactions on Circuits and Systems I: Regular Papers202270(2): 910-920.

[16]

LIU DWANG DWANG F Yet al. Neural-network-based online HJB solution for optimal robust guaranteed cost control of continuous-time uncertain nonlinear systems[J]. IEEE Transactions on Cybernetics201444(12): 2834-2847.

[17]

LIU SNIU BZONG Get al. Data-driven-based event-triggered optimal control of unknown nonlinear systems with input constraints[J]. Nonlinear Dynamics2022109(2): 891-909.

[18]

RUAN ZHU JMEI J. Robust optimal triple event-triggered intermittent control for uncertain input-constrained nonlinear systems[J]. Communications in Nonlinear Science and Numerical Simulation2024129: 107718.

[19]

LIU MJIANG HHU C. Finite-time synchronization of delayed dynamical networks via aperiodically intermittent control[J]. Journal of the Franklin Institute2017354(13): 5374-5397.

基金资助

湖北省自然科学基金资助项目(2023AFC006)

AI Summary AI Mindmap
PDF (1513KB)

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/