基于多目标规划的MO - MATD3算法的多无人机编队控制

李俊泽 ,  梁成庆 ,  闫冬梅 ,  刘磊

云南民族大学学报(自然科学版) ›› 2025, Vol. 34 ›› Issue (06) : 713 -722.

PDF (1633KB)
云南民族大学学报(自然科学版) ›› 2025, Vol. 34 ›› Issue (06) : 713 -722. DOI: 10.3969/j.issn.1672-8513.2025.06.010
信息与计算机科学

基于多目标规划的MO - MATD3算法的多无人机编队控制

作者信息 +

Multi-UAV formation control based on MO-MATD3 algorithm with multi-objective planning

Author information +
文章历史 +
PDF (1671K)

摘要

针对复杂动态障碍环境下多无人机编队保持与目标导航协同控制问题,提出基于虚拟中心控制架构的多目标多智能体双延迟深度确定性策略梯度算法(multi - objective multi - agent twin delayed deep deterministic policy gradient,MO - MATD3).首先,基于人工势场理论构建连续稠密奖励函数,提升智能体对复杂行为策略的学习效率与训练收敛速度.其次,基于多目标规划的思想设计了编队导航和避障的模式切换,当智能体检测到障碍物时,优先采取避障策略,使得多智能体在同时面对编队、导航和避障等多个相互冲突的目标时能够切换策略,在保证安全的前提下完成编队导航任务.最后,通过对照实验验证算法有效性,利用泛化环境测试算法泛化性,并通过参数扰动验证系统鲁棒性.

Abstract

Aiming at the cooperative control problem of multi - UAV formation maintenance and target navigation in complex dynamic obstacle environments, a multi - objective multi - agent twin delayed deep deterministic policy gradient (MO - MATD3) algorithm based on a virtual center control architecture is proposed. First, a continuous dense reward function is constructed based on artificial potential field theory to improve the learning efficiency of complex behavioral strategies and accelerate training convergence. Second, a mode - switching mechanism for formation navigation and obstacle avoidance is designed using multi - objective planning principles, with agents granting priority to avoidance strategies during obstacle encounters. This enables multi - agent systems to switch strategies amid conflicting objectives including formation maintenance, navigation, and obstacle avoidance, thereby ensuring safe completion of formation navigation tasks. Finally, the effectiveness of the algorithm is verified through comparative experiments, its generalization capability is tested in diverse environments, and system robustness is validated through parameter perturbation.

Graphical abstract

关键词

多智能体强化学习 / 人工势场法 / 多目标规划 / 编队控制 / MATD3

Key words

multi - agent reinforcement learning / artificial potential field method / multi - objective planning / formation control / MATD3

引用本文

引用格式 ▾
李俊泽,梁成庆,闫冬梅,刘磊. 基于多目标规划的MO - MATD3算法的多无人机编队控制[J]. 云南民族大学学报(自然科学版), 2025, 34(06): 713-722 DOI:10.3969/j.issn.1672-8513.2025.06.010

登录浏览全文

4963

注册一个新账户 忘记密码

无人飞行器(UAV)作为一类集低成本、高响应性和敏捷性能力于一体的空中平台,其相关技术在近年来取得了显著发展.特别是多旋翼无人机,凭借其成本低、易于操作和部署便捷等优点,在故障检测、灾害救援,以及包裹和货物的运输与投递等应用中,已成为传统载人飞行器的普遍替代方案.与单一无人机相比,多无人机系统凭借其鲁棒性高、适用性广、弹性好等内在优点,在目标搜索任务中发挥着越来越突出的作用.
多无人机编队控制是无人机集群技术中的关键研究领域之一,其核心目标是协同规划多个无人机的集体行为,使其能够在遵循期望几何构型的前提下,以协调的方式执行复杂任务.为实现此目标,控制系统必须保证所有个体保持相对位置和速度的一致性,同时避开障碍物并稳健地维持编队结构.因此,复杂环境下多无人机编队导航具有重要的研究意义.
在编队控制方面主要有长机 - 僚机法1和虚拟中心法2和人工势场法3等.由于人工势场法依赖于势场函数,有时会陷入局部最优解,导致无人机无法找到全局最优路径,因此不能保证一定能找到问题的解.除了上述编队控制算法之外,还有一致性理论4等基于机理模型的编队控制算法.实现多智能体系统的一致性通常需要求解相关矩阵方程离线设计控制协议5,这要求系统模型精确已知.然而在动态环境中对多智能体系统精确建模十分困难.
强化学习技术凭借其能够利用系统轨迹测量数据进行实时学习,求解控制问题最优解的特性,已成为解决复杂系统最优控制与决策问题的重要手段.深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)作为深度强化学习领域的经典算法,为连续控制问题提供了有效的解决方案.在此基础上发展而来的双延迟深度确定性策略梯度算法(twin delayed deep deterministic policy gradient,TD3)6算法通过引入额外的Critic网络与目标Critic网络,有效缓解了Q值高估问题,相较于DDPG算法,在连续控制任务中展现出更为优异的性能表现.此外,为解决多无人机集群和编队等多智能体控制问题,多智能体强化学习(MARL)算法被广泛应用.Wu等7提出了一种基于注意力机制和自适应学习率的3A - MADDPG方法,来实现多无人机系统的编队控制,使每个智能体能够有选择地关注其他智能体的信息,并具有自适应的学习率来动态学习自己的Critic网络.Xing等8提出一种基于改进MATD3算法的多无人机协同编队轨迹规划方法,将LSTM引入MATD3网络的环境感知端,帮助智能体基于历史数据,有选择地学习过去获得一定奖励的动作序列,并设计改进的稠密奖励函数,同时采用分层深度强化学习训练机制,以提升策略学习效率.但在上述研究中,并未强调多目标规划.
在众多现实场景中,决策任务往往因为具有多个相互冲突的目标,并需要多个智能体协作而变得复杂.这些问题属于多目标多智能体决策问题.这一点在多无人机编队控制中尤为突出,其中智能体必须同时满足编队维持和障碍规避两大目标.这2个目标往往直接冲突:确保安全可能需要采取偏离指定队形的机动,而严格的队形保持则可能导致灾难性的碰撞.这种内在的矛盾要求一个能够智能平衡优先级的复杂策略.然而,关于这一问题的研究较少.现有方法通常只能处理具有单一目标的多智能体决策问题,或是单智能体的多目标决策问题.对于多智能体的多目标决策问题,常见的解决方案是通过构造一个合成奖励函数为每个目标分配一个权重7,表示目标的重要性,从而反映对各目标的偏好,将多目标问题转化为单目标问题.这样,传统的强化学习方法便可以找到对应的策略.然而,这种方法存在以下缺点:(1)只能找到单一策略,该策略仅针对单一目标进行优化;(2)手动寻找最优权重具有挑战性.另一种更鲁棒且灵活的解决方案是是多目标强化学习(MORL)9,它能够针对不同目标学习不同的策略并进行切换.相比于单目标强化学习,MORL框架具有显著优势:可以找到适应不同目标的多种策略.Hu等9采用“集中式训练,分布式执行”的训练框架,将表示对目标偏好的权重向量输入到分散的智能体网络中,作为局部动作值函数估计的条件,并通过具有并行架构的混合网络来估计联合动作值函数.

1 问题描述与准备知识

1.1 问题描述

虚拟中心编队控制方法通过设定一个虚拟中心点,使得编队内的各个无人机围绕该中心进行相对位置的保持和调整,从而实现整体编队的稳定保持与动态重构.虚拟中心是一个假想的参考点,通常位于编队的几何中心或根据任务需求动态调整的位置.它并非实际存在的物理实体,而是通过算法计算得出的动态参考点.由于编队几何中心在数学上具有明确的几何定义和对称性,便于建立相对运动学模型,选取编队几何中心作为虚拟中心.根据所有智能体的位置可以计算出编队的虚拟中心pc(xc,yc),变量定义如式(1)所示.

xc=1/Ni=1Nxi;yc=1/Ni=1Nyi.

虚拟中心编队如图1所示.

基于虚拟中心的编队控制方法即每架无人机根据与虚拟中心及其他无人机的相对位置,计算自身的控制指令,确保在编队中保持预定的相对位置如式(2)所示.

pi-(pc+Δi)=0,i=1,2,,N.

其中,pi为智能体i的位置;pc为编队结构的虚拟中心;Δi是智能体i预定的相对位置偏移量.

四旋翼飞行器的动力学可以分为轨迹动力学和姿态动力学.因此,编队控制可以解耦为内环控制和外环控制.如果编队仅与速度和位置相关,则可以通过内环/外环结构来实现编队控制10.在这种结构中,内环负责表达无人机的姿态,外环使用期望速度将无人机引导至目标位置.内环可以使用PD控制器进行有效控制.本文的编队控制主要集中在外环中调节无人机的位置和速度11.因此,在编队控制层面,无人机可以被视为一个点质量系统.如图2所示,在任务场景中包含1个目标点(红色标记)、由N架无人机组成的机群及M个动态障碍物(黄色标记).避障与编队协同任务要求机群在动态障碍物区域中保持预设编队构型,同时向目标点导航,并根据环境变化实现行为模式的自适应切换.

多智能体系统编队导航的最优路径规划问题可表述为式(3).

mini=1NDis.t.pi-pj>da_s,i,j=1,2,,N;pi-po>dob_s,i=1,2,,N, o=1,2,,M;pi-(pc+Δi)=0,i=1,2,,N.

其中,Di表示智能体i到目标点的欧氏距离;pi为智能体i的位置;da_s为智能体之间的安全距离阈值;po为障碍物的位置;dob_s为智能体和障碍物之间的安全距离阈值;pc为编队虚拟中心.Δi是智能体i预设相对位置偏移量.

1.2 运动学模型

考虑由N架无人机组成的编队系统(恒定飞行高度),第i(i=1,2,,N)架无人机的运动学模型描述为式(4).

vi,xt+1=vi,xt+ai,xtstep;vi,yt+1=vi,yt+ai,ytstep;xit+1=xit+vi,xt+1tstep;yit+1=yit+vi,yt+1tstep.

其中,tstep为时间步长,(vi,xt,vi,yt)为智能体的速度,(xit,yit)为智能体的位置.(ai,x,ai,y)为智能体的加速度,其控制智能体的运动.

假设所有无人机通过分布式通信网络形成全连接拓扑,可实时获取编队内其他成员的位置、速度等状态信息.除非特别说明,仿真实验均基于该理想化通信假设开展.

1.3 MATD3算法

“集中式训练,分布式执行”是目前多智能体强化学习领域广泛采用的一种架构12.基于Actor - Critic框架,MATD3算法引入了集中式价值网络,以帮助多智能体进行协作决策.在训练过程中,采用集中式方法,每个智能体具有独立的Critic网络,用于收集所有智能体的状态和动作信息,从而构建更为完整的联合观测空间和动作空间,这意味着,每个Critic网络可以基于全局信息训练智能体的Actor网络.在测试与部署阶段,各智能体仅依据自身局部状态进行决策,无需访问全局信息,实现分布式执行,从而增强了系统在未知或动态环境中的独立运行能力与可扩展性.

具体而言,对于由N个智能体组成的系统,其状态集合、动作集合和奖励集合可以分别表示为o=(o1,o2,,on)a=(a1,a2,,an)r=(r1,r2,,rn).当每个智能体的Actor网络根据其自身状态oi输出动作ai=μi(oi|θiμ),其中θiμ为Actor网络的参数.随后,其Critic网络基于所有智能体的状态和动作信息计算两个集中式动作价值函数Qij(o,a1,,an;θij),j=1,2.这种输入包含了所有智能体的状态和动作信息,该全局输入方式有效缓解了因环境中其他智能体行为变化所带来的非平稳性问题.

在每次与环境交互时,多智能体系统会收集所有智能体的状态、动作、奖励以及下一时刻的状态信息,并将其存储到经验回放队列中,记为[o,a1,,an,r1,,rn,o'].训练时从经验回放队列中随机抽取N条全局样本经验作为训练数据.对于智能体i,其网络的更新过程如下.

首先目标策略网络μ(o;θiμ')生成动作并加入噪声ε式(5)所示.

aj'=μ(o';θiμ')+ε.

其中,ε ~ clip(N(0,1),- c,c)c为随机噪声参数.

计算2个目标Critic网络的Q值,如式(6) ~ (7)所示.

Qi1*=Qi1*(o',a1',a2',...,an';θi1').
Qi2*=Qi2*(o',a1',a2',...,an';θi2').

计算TD目标如式(8)所示.

yi=ri+γmin(Qi1*,Qi2*).

更新2个Critic网络的参数(θi1,θi2),如式(9)所示.

L(θij)=Eo,a,r,o'yi-Qij(o,a1,,an;θij)2.

延迟更新Actor网络和目标网络,如式(10)所示.

θiμJ=Eo,aθiμμi(aioi)aiQi1(o,a1,,an;θi1)|ai=μi(oi).

目标网络采用软更新策略,以缓慢更新当前网络参数,如式(11)所示.

θij'=τθij+(1-τ)θij',j=1,2;θiμ'=τθiμ+(1-τ)θiμ'.

其中,θij'是目标Critic网络参数,θij是Critic网络参数,θiμ是Actor网络参数,θiμ'是目标Actor网络参数,τ是目标网络更新率.

图4展示了MATD3算法更新框架.

2 基于多目标规划的MO - MATD3算法设计

本文将复杂环境下多无人机的避障与编队协同问题建模为基于马尔可夫决策过程的强化学习任务.在强化学习框架中,智能体通过状态感知、动作执行、奖励反馈与环境进行动态交互,以学习最优策略实现长期累积奖励最大化或特定任务目标.本节系统阐述多智能体强化学习模型的核心要素,包括观测空间构建、动作空间定义、奖励函数设计,以及基于多目标规划的动态行为模式切换机制.

2.1 观测空间

在仿真环境中,设定目标点位置pd(x,y);智能体i能够观测到其相邻智能体j的位置pj(xj,yj);通过对编队中心和目标点的相对位置进行单位化处理,可以得到编队导航方向向量,即pc(xc,yc)pd(x,y)的方向.在此基础上,结合智能体i的速度向量,进一步计算其和编队导航方向的夹角θ.

为确保智能体获取全面且有效的环境信息,智能体i观测到的信息经过结构化处理,其观测空间由6个部分组成:(1)智能体i和目标点的相对位置;(2)智能体i和相邻智能体的相对位置;(3)智能体i和编队几何中心的相对位置;(4)智能体i与观测到的障碍物的相对位置;(5)智能体i自身的位置pi(xi,yi)和速度(vi,x,vi,y);(6)智能体i与编队导航方向的夹角θ.

2.2 动作空间

智能体的动作空间定义为二维平面上的连续加速度控制量(ax,ay).通过对加速度的连续控制,智能体能够实现平滑且精确的运动控制,从而更好地适应动态环境变化与复杂的任务要求.

2.3 奖励函数

2.3.1 编队中心靠近目标点的集体奖励函数

该奖励函数基于编队中心与目标点之间的距离进行设计,驱动智能体优化编队位置以最小化与目标的距离.奖励函数rtarget式(12)所示.

rtarget=-αtargetdtarget.

其中,dtarget表示编队中心与目标点之间的距离,αtarget为可调节的权重参数.

2.3.2 靠近目标边界的奖励函数

在仿真中设定目标边界darr_edge,若智能体i与目标点的距离di小于darr_edge,则给予额外正向奖励.奖励函数rboundary,i式(13)所示.

rboundary,i=10 sin1.25πdi+38π+10, di<darr_edge;0,其他.

通过正弦函数的非线性激励,鼓励智能体在接近目标点时采取平滑且高效的移动策略,避免剧烈动作变化,提高到达目标的稳定性和效率.

2.3.3 成功奖励函数

当编队中心与目标点之间的距离小于0.2时,给予一次性高额奖励,以迅速强化成功行为,提升策略收敛速度如式(14)所示.

rsuccess=3 000,dtarget<0.2;0,其他.

2.3.4 编队方向奖励函数

此奖励函数设计的目的是保持编队整体的运动方向一致,避免编队发生旋转或偏离预定方向.设置的偏离角为20°.奖励函数rθ式(15)所示.

rθ=0,θ<20;(θ-20)2100,其他.

2.3.5 保持编队队形的奖励函数

对于每个智能体i,计算其与编队队形期望位置的距离,并给予惩罚,驱动智能体保持编队的稳定性和一致性.奖励函数rformation式(16)所示.

rformation,i=-pi-(pc+Δi)2.

其中,Δi是智能体i预定的相对位置偏移量.

2.3.6 碰撞惩罚

设定智能体之间的最小安全距离da_s及智能体和障碍物之间的最小安全距离dob_s.若智能体间或智能体与障碍物间距离小于相应安全阈值,则施加惩罚.若发生碰撞,则施加额外惩罚.奖励函数rcollision式(17) ~ (20)所示.

ra_c=-αc_p1di_j-1da_s2,0.04<di_j<da_s
rob_c=-αc_p1di_ob-1dob_s2,0.05<di_ob<dob_s.
rex=-10,di_j0.04;-10,di_ob0.05.
rcollision=ra_c+rob_c+rex.

其中,αc_p是可调节的参数.

2.4 基于多目标规划的模式切换

为了使多智能体在同时面对编队、导航和避障等多个相互冲突的目标时能够在保证安全性的前提下完成编队导航任务.本文根据多目标规划的思想设计了如下的模式切换.

提出一种动态的、双状态的奖励塑形机制,使智能体能根据感知到的环境威胁来调整其行为.当智能体远离障碍物时为正常模式(normal).如果任何一个智能体与检测到的障碍物的距离小于预设阈值dswitch时,则认为存在碰撞风险,将模式切换为避障模式(avoidance).

在正常的无障碍条件下,策略被优化以维持编队的稳定与一致.这通过同时施加编队惩罚和航向惩罚来实现.然而,在避障模式下奖励函数被动态重塑:暂时放宽编队和方向的一致性要求,不施加编队惩罚和航向惩罚,允许智能体优先避开障碍物.

在正常模式下,编队惩罚和方向惩罚保持编队的稳定性和一致性.但在靠近障碍物时,智能体需要根据障碍物的位置快速调整方向,严格遵守编队约束会严重限制智能体的敏捷性,可能阻碍其执行快速的规避机动.因此在切换到避障模式时取消编队惩罚和航向惩罚,允许智能体暂时放宽对编队的严格要求,优先采取避障策略,有助于智能体更加灵活地改变运动方向,以实现安全避障.

无论是在正常模式还是避障模式下,碰撞惩罚都是必须的,确保智能体始终与其他智能体或障碍物保持安全距离,避免碰撞.这种设计确保了在任何情况下,智能体的行为都不会导致系统的损坏.

这种状态感知的奖励函数设计通过动态检测智能体与障碍物的距离,任务模式在“正常”和“避障”之间切换,使得智能体能够根据环境的实时变化调整自身的行为策略,从而更有效地完成任务.

最后,基于多目标规划的总奖励函数设计如式(21)所示.

R=rtarget+i=1Nrboundary,i+rsuccess+rcollision+i=1Nrformation,i+rθ,正常;rtarget+i=1Nrboundary,i+rsuccess+rcollision,避障.

MO - MATD3算法伪代码如表1所示.

3 仿真及实验

为验证MO - MATD3算法的有效性,本节设计了以下3组实验,(1)有无多目标规划的对照实验;(2)障碍物数量增加和运动速度加快的泛化实验以及智能体数量增加的泛化实验;(3)参数扰动的鲁棒性实验.

3.1 仿真环境

实验基于多智能体编队避障导航任务展开,该任务要求智能体在动态障碍物干扰下协同抵达目标位置.软件方面使用Python3.8和Tensorflow2.3.1环境下,基于OpenAI - gym平台设计强化学习环境和多无人机编队任务来验证MO - MATD3算法的有效性.仿真环境为一个二维正方形地图,目标点随机位置生成(黑色标识);若干智能体固定初始位置(红色标识);障碍物(灰色标识)在每回合初始时在固定位置生成,但不同回合的运动速度和运动方向随机变化;生成的速度是一个具有2个值的数组,表示在x轴和y轴上的速度分量.例如[-0.01, 0.015],表示障碍物在x轴上以0.01的速度向左移动,在y轴上以0.015的速度向上移动如图5所示.

在硬件方面,所有实验都是在Windows 11(64位)操作系统、Intel(R) Core i7处理器、32 GB内存和6 GB显存上完成的.仿真环境的具体参数和MATD3算法的训练参数如表2所示.

3.2 对照实验

为验证算法有效性,本文将MO - MATD3算法和MATD3算法设置相同的超参数和训练环境,进行对照实验.图6展示了基于MATD3算法和MO - MATD3算法的多无人机编队奖励曲线.横坐标表示训练回合数,纵坐标表示每回合中3架无人机获得的奖励总和.蓝色曲线和红色曲线分别表示基于MO - MATD3算法和MATD3算法的多无人机奖励.从图中可以看出,在训练初期,2种算法获得的回合奖励均较低.随着训练回合数的增加,回合奖励曲线逐渐上升,表明无人机逐步学习到更智能的策略,最终2种算法均实现收敛.分析表3可知在动态障碍物地图中本文的算法与MATD3算法相比,算法稳定所需回合数减少约23.53%,且算法稳定后的奖励值高于MATD3算法且奖励值收敛后波动更小.这表明MO - MATD3算法在性能上具有明显优势.此外,多无人机奖励的快速收敛也表明MO - MATD3算法的计算复杂度低于MATD3算法.将这一性能扩展到实际应用,可以看出MO - MATD3算法的时延小于MATD3算法,更有利于实际应用场景.

3.3 泛化实验

为验证MO - MATD3算法在更加复杂环境中的泛化性,本节设计了2组实验,分别从智能体数量增加和障碍物数量增加且移动速度加快2个方面验证算法的泛化能力.

3.3.1 智能体数量增加的泛化实验

为验证MO - MATD3算法泛化性,进行了基于智能体数量增加的泛化实验.实验结果如图7所示.从实验结果可以看出MO - MATD3算法依然能在完成实验任务的情况下收敛到良好的结果.这表明,基于MO - MATD3算法训练的多无人机能够应对不同数量的多无人机编队导航任务,并具有良好的泛化能力.

3.3.2 障碍物数量且移动速度加快的泛化实验

为验证多无人机模型在复杂动态环境中的性能将地图中动态障碍物的数量增加为10个,障碍物运动速度范围增大为[-0.04,0.04].进一步,将动态障碍物的数量增加为12个,运动速度范围增大为[-0.06,0.06].实验结果如图8所示.结果表明在更加复杂的环境下,本文提出的算法中仍有很好的训练效果,可以出色地完成任务,具有良好的泛化性.

综上,在更加复杂的动态环境中,本文提出的MO - MATD3算法能够训练多无人机在编队任务执行过程中实现自主避开动态障碍物,并导航到目标点.

3.4 鲁棒性实验

为了验证算法在不同设置下的稳定性和适应性,本节设计了鲁棒性实验,主要针对若干参数进行了调整.具体来说,进行了以下改动:

(1) 作为对照实验,采用了结合多目标规划的MO - MATD3算法.验证其在多种参数设置下的鲁棒性;

(2) 将折扣因子γ由0.95改为0.92;

(3) 将网络学习率lr由0.006改为0.006 01;

(4) 将目标网络的软更新参数τ由0.01改为0.010 1;

(5) 将更新评论家网络时,添加到动作上的噪声的截断范围由[-0.5,0.5]改为[-0.51,0.51].

图9的结果可以看出,算法在不同的参数扰动情况下表现出了很好的鲁棒性和稳定性.在参数扰动下,各设置的奖励值总体呈现出逐渐上升的趋势,虽然前期波动更大,但最终都能趋于收敛.这表明尽管参数配置存在差异,算法依然可以稳定学习,表现出较好的收敛性,显示出算法的强鲁棒性.

4 结语

在MATD3算法的框架下结合MORL思想研究了复杂动态障碍环境下多无人机编队保持与目标导航协同控制问题.首先,基于人工势场理论构建连续稠密奖励函数,提升智能体对复杂行为策略的学习效率与训练收敛速度.其次设计了编队导航和避障的模式切换,使得智能体在同时面对编队、导航和避障等多个目标时能够切换策略;通过对照实验验证算法有效性,利用泛化环境测试算法泛化性,并通过参数扰动验证系统鲁棒性.

参考文献

[1]

DONG XLI YLU Cet al. Time - varying formation tracking for UAV swarm systems with switching directed topologies[J]. IEEE Transactions on Neural Networks and Learning Systems201830(12):3674 - 3685.

[2]

WU ESUN YHUANG Jet al. Multi UAV cluster control method based on virtual core in improved artificial potential Field[J]. IEEE Access20208:131647 - 131661.

[3]

WEN GCHEN C L PLIU Y J. Formation control with obstacle avoidance for a class of stochastic multiagent systems[J]. IEEE Transactions on Industrial Electronics201765(7): 5847 - 5855.

[4]

MU CPENG J. Learning - based cooperative multiagent formation control with collision avoidance[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems202252(12):7341 - 7352.

[5]

李金娜,程薇燃.基于强化学习的数据驱动多智能体系统最优一致性综述[J].智能科学与技术学报20202(4):327 - 340.

[6]

FUJIMOTO SHOOF HMEGER D. Addressing function approximation error in actor - critic methods[C]// International Conference on Machine Learning.PMLR.2018:1587 - 1596.

[7]

WU JLI DYU Yet al. An attention mechanism and adaptive accuracy triple - dependent MADDPG formation control method for hybrid UAVs[J]. IEEE Transactions on Intelligent Transportation Systems202425(8):8945 - 8958.

[8]

XING XZHOU ZLI Yet al. Multi - UAV adaptive cooperative formation trajectory planning based on an improved MATD3 algorithm of deep reinforcement learning[J]. IEEE Transactions on Vehicular Technology202473(7):9456 - 9470.

[9]

HU TLUO BYANG Cet al. MO - MIX: Multi - objective multi - agent cooperative decision - making with deep reinforcement learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence202345(10): 12098 - 12112.

[10]

BAYEZIT IFIDAN B. Distributed cohesive motion control of flight vehicle formations[J]. IEEE Transactions on Industrial Electronics201260(12): 5763 - 5772.

[11]

WANG JHAN LDONG Xet al. Distributed sliding mode control for time - varying formation tracking of multi - UAV system with a dynamic leader[J]. Aerospace Science and Technology2021111:106549.

[12]

孙长银, 穆朝絮. 多智能体深度强化学习的若干关键科学问题[J]. 自动化学报202046(7):1301 - 1312.

基金资助

航空科学基金(2024Z071108001)

中央高校业务费(B240203012)

AI Summary AI Mindmap
PDF (1633KB)

54

访问

0

被引

详细

导航
相关文章

AI思维导图

/