基于MASAC最大熵强化学习的跳波束卫星系统资源适配方案

王译萱 ,  刘军

东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (02) : 9 -17.

PDF (1771KB)
东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (02) : 9 -17. DOI: 10.12068/j.issn.1005-3026.2025.20230252
信息与控制

基于MASAC最大熵强化学习的跳波束卫星系统资源适配方案

作者信息 +

Resource Adaptation Scheme for Beam-Hopping Satellite System Based on MASAC Maximum Entropy Reinforcement Learning

Author information +
文章历史 +
PDF (1813K)

摘要

针对跳波束卫星系统中通信终端多样化的业务需求导致星-地资源供需失配,以及上行传输中机器类终端能量资源受限的挑战,提出一种基于MASAC(multi-agent soft actor-critic)最大熵强化学习的资源适配方案.首先构建了两阶段传输系统模型,在星-地资源供需失配问题的基础上,研究跳波束与非正交多址接入(non-orthogonal multiple access,NOMA)的协同作用.同时,引入能量采集与收集机制,优化了终端设备能量采集与信号传输之间的关系.在此基础上,将上下行传输过程进行整合,建立跳波束图样选择,时隙分配以及速率与功率控制的多目标优化问题,并采用MASAC算法进行优化求解,得到最优联合控制方案.实验结果表明,所提方案能够有效进行资源分配以实现星-地资源供需匹配,并满足能量受限终端的信号传输需求.与基准算法相比,所提算法具有良好的性能.

Abstract

To address the mismatch between space-to-ground resources supply and demand caused by the diversified traffic requirements of communication terminals in the beam-hopping satellite system,as well as the challenge of limited energy resources of machine-type devices in upward transmission,a resource adaptation scheme is proposed based on a multi-agent soft actor-critic(MASAC)approach utilizing maximum entropy reinforcement learning. Firstly,a two-stage transmission system model is constructed to investigate the synergistic effect of beam-hopping and non-orthogonal multiple access(NOMA)on the basis of the space-to-ground resource mismatch problem. Additionally,an energy harvesting and collection mechanism is introduced to optimize the relationship between terminal device energy harvesting and signal transmission. On this basis,a multi-objective optimization problem is established for beam-hopping pattern selection,time slot allocation,and rate and power control by integrating the uplink and downlink transmission processes. MASAC maximum entropy reinforcement learning is employed for optimization,obtaining an optimal joint control strategy. Experimental results show that the proposed scheme can effectively allocate resources for space-to-ground resource matching and meet the signal transmission requirements of energy-constrained machine terminals. Compared with the benchmark algorithm,the proposed algorithm exhibits superior performance.

Graphical abstract

关键词

跳波束卫星 / 非正交多址 / 能量收集 / 资源适配 / 深度强化学习

Key words

beam-hopping satellite / non-orthogonal multiple access(NOMA) / energy harvesting / resource allocation / deep reinforcement learning

引用本文

引用格式 ▾
王译萱,刘军. 基于MASAC最大熵强化学习的跳波束卫星系统资源适配方案[J]. 东北大学学报(自然科学版), 2025, 46(02): 9-17 DOI:10.12068/j.issn.1005-3026.2025.20230252

登录浏览全文

4963

注册一个新账户 忘记密码

随着全球物联网产业进入爆发式的发展时期,第三代合作伙伴计划(3rd generation partnership project,3GPP)已正式开始研究卫星通信与5G新无线电技术之间的集成,包括窄带物联网技术和面向机器类型通信的长期演进(long term evolution,LTE)技术1.基于卫星的机器对机器(machine to machine,M2M)通信引起了越来越多研究者和研究机构的关注2.
然而,基于卫星的M2M通信存在以下2个问题.首先,机器类通信终端具有多样化的业务类型及不同的服务质量需求,导致其所在的卫星波束小区间数据流量请求差异性大,在时间和空间上分布不均衡3,致使卫星无法将所提供的星载容量与波束小区之间的异构请求流量分布相匹配,从而造成星-地资源供需失配4.其次,机器类通信终端主要依赖于嵌入内部的微型电池供能,但在某些实际应用场景中,如智慧城市、环境监测、智能家居等以传感和数据采集为目标的应用场景,电池的更换成本较高或不能更换5.这些能量受限机器类终端的接入,对其信号传输过程中的能量资源供给提出了新要求6.因此,针对上述问题,本文提出一种基于跳波束(beam-hopping,BH)卫星系统的资源适配方案,以实现星-地资源供需匹配,并且满足能量受限的机器类设备的信号传输7需求.

1 相关工作

如何灵活高效地进行卫星资源分配已成为研究热点.传统方法采用固定资源分配方式,难以适应通信需求量动态变化的特性,极易造成资源的浪费.为了克服固定分配的缺点,各种动态资源分配算法应运而生.文献[8]提出了一种两阶段遗传算法和模拟退火算法来分配波束功率.文献[9]针对分布式卫星中资源有限以及能源效率低的问题,建立了功率频谱联合分配模型,提出基于凸优化理论的能效资源分配算法.随着相控阵天线技术的发展,跳波束技术已经被应用到多波束卫星系统中,其具有优越的灵活性、高效的资源利用率以及适应地面业务动态变化的能力10.文献[11]提出了一种启发式算法来提高BH系统的容量;文献[12]根据整体流量需求设计卫星跳波束模式,进而实现BH的联合功率和带宽分配.

为了实现更高的频谱效率和边缘吞吐量,非正交多址(NOMA)接入技术支持在同一频谱/时间资源上多个设备的接入,有望在无线网络中提供高频谱效率和支持大规模连接的海量通信需求13.现有研究将跳波束技术与NOMA相结合,使系统可在功率域进行不同用户的信号复用.文献[14]首次研究了多波束卫星系统NOMA和BH的潜在协同作用.为了缓解卫星提供容量和波束请求流量之间的失配问题,采用贪心算法解决联合BH调度和基于NOMA的功率分配问题.

以上研究主要基于传统算法和智能优化算法对于卫星资源进行分配.然而,随着卫星可用波束增加,存在计算时间长、算法复杂度高的缺点,在需求不断变化的情况下难以实现资源的快速动态分配14-15.

随着人工智能技术的快速发展,深度强化学习(deep reinforcement learning,DRL)在信息领域得到了广泛的应用,为卫星的资源配置提供了一种新的方法.文献[16]提出了一种基于DRL的近端策略优化方法,通过动态分配卫星波束的功率,满足用户请求容量和功率有效利用率的需求.文献[15]研究了卫星系统中的联合跳波束选择和带宽分配问题,利用多智能体DRL解决启发式算法在卫星资源分配方面收敛速度慢和模型泛化能力弱的问题.基于策略梯度的强化学习方法目前成为研究的热点方向,深度确定性策略梯度(deep deterministic policy gradient,DDPG)已被广泛应用于解决资源分配问题17-18.DDPG改进了启发式算法导致的计算复杂度相对较高的情况,提高了模型的泛化能力,但其存在探索能力弱、容易陷入局部最优的缺点,当智能体超过一定数量时,DDPG就不易收敛19.

以上研究方案并不适用于未来大规模、多形态、深覆盖的机器类物联网通信场景.由于机器类通信场景下拥有能量受限类设备的接入,对传输过程中的能量供给提出了新要求,但是现有方案大多只考虑了跳波束模式对带宽、流量等单一因素的影响,并未充分挖掘系统中的能量供给关系,对资源的利用有待进一步地提高.

针对上述问题,本文提出了基于MASAC最大熵强化学习的跳波束卫星系统资源适配方案,整体框架如图1所示.其主要思想是将资源分配问题进行拆解,通过下行跳波束图样选择,速率与功率分配达到星-地供需平衡.在选择好的跳波束下进行终端上行链路能量资源优化.通过分时参数对跳波束时隙进行分割,在分割时隙下进行能量采集与数据传输,满足能量受限终端的通信需求20.最后,本文对优化问题进行整合,采用多智能体最大熵强化学习进行优化求解,得到最优联合控制.

2 系统模型及问题表述

2.1 系统模型

本文考虑跳波束卫星系统下行链路.卫星总功率为P,覆盖区域包括N={n|1,2,,N}个小区,跳波束卫星可产生K={k|1,2,,K}K<N个波束周期性地对地面进行覆盖.1个跳波束周期包含T={t|1,2,,T}个时隙以及H={H1,H2,,Hj,...,HJ}个跳波束图样.在每个时隙选择H的1个子集作为1个跳波束图样Hj,所有波束使用相同的频段B.

为提高频谱利用率,卫星系统终端采用NOMA接入.由于机器类终端具有低功耗、低延迟等特点,因此,将其作为次用户(secondary user,SU)接入网络.同时,采用能量收集技术,收集环境中主用户(primary user,PU)产生的射频能量以供给用户自身通信需求21.假设1个波束下用户数量为L={MN},包括M={m|1,2,,M}个PU和N={n|1,2,,N}个SU.能量存储设备作为能量存储及释放单元被设置在每个波束小区内.由于终端地理分布的不均衡以及时变特性,每个小区的流量需求各不相同,假设跳波束图样Hj下用户的流量需求为Dj={D1,D2,...,Db,...,DK},所构建的系统模型如图2所示.

在跳波束时隙T、波束图样Hj被选定时,其下的波束b中终端用户i的信噪比可表示为

γibtj=hbi2μibtjPIibtjintra+Iibtjinter+σ2 .

其中:hbi为服务用户i的波束b与用户i之间的信道增益;μibtj 为功率分配系数,0<μibtj<1P为卫星发射功率;Iibtjintra为用户i与同一波束内其他用户之间的波束内干扰; Iibtjinter为用户i与其他被照亮波束之间的波束间干扰;σ2为高斯白噪声.

波束内干扰Iibtjintra和波束间干扰Iibtjinter可分别表示如下:

Iibtjintra=i'=1L-1hbi2μi'btjP,
Iibtjinter=a[1,2,...,K]i'=1Lεtahbi2μi'atjP .

其中:εta={0,1}表示在时隙T、跳波束图样Hj下与波束b相邻的波束a是否被照亮.

2.2 问题表述

2.2.1 星-地供需流量失配问题表述

在时隙T跳波束图样Hj中,波束b中终端i可获得的流量(Ribtj)为

Ribtj=εtbBln1+γibtj .

其中,B为卫星带宽.

因此,1个跳波束周期内,卫星提供给波束b中终端i的流量(Rib)及卫星提供给波束b的总流量(Rb)可分别计算如下:

Rib=tTjHRibtj
Rb=i=1LRib .

为了使卫星提供容量与波束请求流量相匹配,消除小区之间不同需求量级的影响,将供需匹配关系(supply and demand matching relationship,SDMR)转化为未匹配的系统容量比与溢出系统容量比的加权值16RSDMR),其表述如下:

RSDMR=minb=1Kmax[Rb-Db,0]Rb+Db+ξmax[Db-Rb,0]Rb+Db.

其中,ξ为调和参数.

2.2.2 终端的能量采集与信号传输关系表述

在跳波束时隙T中,在1-ρtT时间内进行SU的数据传输;在ρtT时间内,通过环境从PU处收集射频能量并存储于能量存储设备中.其中ρt为分时参数,0<ρt<1.能量收集与信号传输过程如图3所示,n1n2为噪声.

假设从PU处收集射频能量时,PU额外的能量消耗忽略不计.在跳波束时隙T、波束b下,SU n 收集的射频能量可计算为

Ent=ηρtTm=1Mhmn2PPUm.

其中:η为能量收集效率;hmn为SU n 与PU m 之间的信道增益;PPUm为PU m 的辐射功率.

SU n 收集完射频能量后,进行信号传输.其信号传输所需能量可表述如下:

En't=1-ρtTαSUntPSUn.

其中:αSUn={0,1}为SU n 的当前状态,αSUn=1表示SU n 当前为活跃状态,否则αSUn=0PSUn为SU n 进行数据传输所需发射功率.

SU n 在跳波束时隙T中经射频能量采集以及数据传输后,能量存储设备的剩余能量为

EnΔt=min{Ent+EnΔt-Δ-En't,Emax} .

其中:EnΔt-Δ为前1个时隙能量存储设备中的剩余能量;Δ为时间间隔;Emax为能量存储上限.在下1个时隙中,SU利用射频能量采集获得的能量以及时隙T中能量存储设备剩余的能量进行数据传输,以此类推.因此,SU n 进行数据传输所需能量满足0<En't<Ent+EnΔt-Δ.

将时隙T收集的射频能量以及前1个时隙T-1能量存储设备的剩余能量转化为SU自身通信所需的功率.在时隙T跳波束图样Hj下,波束小区b中能量存储设备提供的用于SU数据传输总功率为

PbjT'=n=1NEnt+EnΔt1-ρtT.

为保障SU的通信需求,能量存储设备可提供的功率应大于SU进行信号传输所需的发射功率:

PbjT'n=1NPSUn0 .

2.2.3 联合优化问题

将上述星-地供需流量失配问题以及终端能量采集与信号传输关系转化为跳波束图样选择,时隙分配以及速率与功率控制多目标优化数学模型为

P:MaxbK1-RSDMRs.t. C1:b=1Kεtb=K,εtb={0,1}C2:0<μibtj<1C3:b=1KPb<PC4:0<ρt<1C5:0n=1NPSUnPbjT'.

在优化问题(13)中:C1表示跳波束图样选择参数限制因素,每个跳波束时隙下只能有K个波束被照亮;C2表示卫星与波束之间的功率分配参数取值范围应在0,1之间;C3为波束功率限制条件,每个跳波束时隙下被照亮波束所分配的总功率不应大于卫星提供的总功率;C4为分时参数范围;C5保证了SU进行信号传输的通信需求.

3 多智能体最大熵强化学习算法

3.1 基于MASAC的深度强化学习框架

本文将最大熵学习结合到Actor-Critic框架当中,最大化资源分配满意度与流量缺口加权的累积奖励,同时最大化策略的熵.由于MASAC对超参数很敏感,引入熵正则化因子来提高训练过程的稳定性22.将每个波束视为1个智能体,在每个智能体上部署1个参数为Φ的策略网络πΦ,具有参数θ1θ2的2个当前Q网络Qθ1Qθ2以及具有参数θ1'θ2'的2个目标Q网络Qθ1'Qθ2'.所采用的算法架构如图4所示.系统的状态、动作和奖励设定如下.

3.1.1 状态

将观测状态OitO定义为智能体i在时隙T的局部观测信息,主要由时隙T波束i下用户的流量请求Dit、时隙T波束i下用户的信道信息Hit={hi,1t,hi,2t,...,hi,mt}以及波束小区内能量存储设备剩余能量Eit组成:

Oit={Dit,Hit,Eit} .

所有K个智能体的局部观测值的组合即为时隙T整个系统的状态空间Ot.

3.1.2 动作

智能体在观察环境后,通过相应状态Oit确定在该状态下的行为.将aitA定义为智能体i在时隙T中要执行的动作,包括跳波束图样选择参数ai,εt,决定当前时隙波束是否被照亮;分时参数ai,ρt,用于对跳波束时隙T进行划分;功率分配系数ai,μt,决定每个波束的功率分配情况:

ait={ai,εt,ai,ρt,ai,μt} .

所有K个智能体的动作值的组合即为时隙T整个系统的联合动作At.

3.1.3 奖 励

智能体执行动作后获得即时反馈.将智能体在时隙T中完成上述动作后的奖励函数rtR设计为与满意度、流量缺口有关的函数:

rt=1Kb=1KSb-Δbω.

其中: Sb=RbDb为波束的资源分配满意度;Δb为波束的流量缺口,Δb=Db-Rbω为常数,用于标准化Δb.

3.2 MASAC算法实现

3.2.1 初始化阶段

随机初始化网络参数Φθ1θ2,并使用θ1θ2对目标Critic网络参数θ1'θ2'进行赋值;清空经验回放存储器.

3.2.2 智能体训练阶段

每个智能体ii=1,...,K单独观测其局部环境状态oit,并依据当前局部环境状态,随机选择1个动作集aitπΦ|Oit作为输出,并执行联合动作At=a1t,a2t,...,aKt.智能体执行联合动作At后,得到单步奖励rt与策略的熵.在获得单步奖励后,将全局状态更新为Ot+1.将环境全局状态、输出动作及获得单步奖励作为经验{Ot,At,rt,Ot+1}存储于经验回放存储器W中,并提取1个ω̃W的小批经验用于训练神经网络.在后续训练中智能体寻求最大化长期累积折扣奖励,同时最大化策略熵:

ROt+1,At=maxE[t=1γt-1[rtOt,At+
αHπ|Ot] ].

其中:γ为衰变系数;α为熵正则化因子;Hπ|Ot=-logπΦAt|Ot为计算π|Ot的熵;π|Ot为从状态到动作的映射概率分布.

智能体依据长期累积折扣奖励和最大化策略熵输出一组策略向量:

π*=argmaxπRπ .

通过引入Q网络进行迭代,以改进输出策略,并利用当前Critic网络计算对动作的评估值:

QOt,At=E{O,A}~W[ROt,At+γtQOt+1,At+1+αHπ|Ot].

训练柔性Q网络以最小化贝尔曼残差:

JQθ=E{O,A,O'}~W[QθOt,At-yrt,Ot+12] .

其中,

yrt,Ot+1=rt+γπθAt+1|Ot+1T×
        minj=1,2Qθj'Ot+1,At+1-αlogπθAt+1|Ot+1.

3.2.3 参数更新阶段

求解JQθ关于θ的梯度θJQθ,进而对当前Critic网络中的参数θ θi,i=1,2进行更新:

θJQθ=θ1ω̃{O,A,O',A'ω̃}QOt,At-yrt,Ot+12.

更新当前Actor网络参数:

ΦJπΦ=Φ1ω̃{Oω̃}(mini=1,2Q(Ot,At+1)-αlogπθ(At+1|O).

对熵正则化因子进行更新:

αJα=πθAt|OtT[-ααlogπθAt|O+H¯] .

其中H¯表示目标熵的恒定向量.

采用滑动平均方式对目标Critic网络参数θi'进行更新:

θi'τθi+1-τθi' , i=1,2.

其中τ为学习率,τ0,1.

经上述训练后,智能体获得最优联合跳波束图样选择、速率与功率控制策略A*=[Aε*,Aρ*,Aμ*].本文所采用的MASAC具体实现步骤如算法1所示.

算法1 基于MASAC的跳波束卫星系统资源适配算法

输入: 初始化Actor网络参数Φ,Critic网络参数θ1θ2θ1'θ2',熵正则化因子α,经验回放存储器W

1 设置目标Critic网络参数:θ1'θ2'θ1θ2

2 for each episode do

3 重置初始环境;

4 fort←1,…,Tdo

5 fori←1,…,Kdo

6 观测环境Oit=[Dit,hit]并根据策略网络选择策略aitπΦ|Oit

7 end for

8 执行联合动作At=a1t,...aKt

9 获得奖励rt以及下一时刻的环境状态Ot+1

10 将经验元组{Ot,At,rt,Ot+1}存储到经验回放存储器W

11 ifOt+1到达最终状态 then

12 重新初始化环境

13 end if

14 if 网络更新时间步到达 then

15 fori←1,…,Kdo

16 从W中随机抽取一批数据ω̃

17 根据式(22)更新Critic网络参数;

18 根据式(23)更新Actor网络参数;

19 根据式(25)更新目标网络参数;

20 根据式(24)更新熵正则化因子;

21 end for

22 end if

23 end for

24 end for

输出: 最优联合控制策略π*A*

4 仿真验证

4.1 仿真参数

为评估模型和算法的有效性,本文选用Python3.6和TensorFlow1.0对所提方案进行了实验仿真.其场景设计如下:待服务区域被划分成30个规模相等的小区,每个小区内包含1个能量收集单元,用于存储收集的射频能量.假设每个小区的请求流量服从泊松分布,跳波束卫星系统包括5个波束,主要仿真参数设置如表1所示.

本文采用MASAC算法解决跳波束卫星系统中的波束调度、功率与速率分配问题.因此需要对神经网络的参数进行训练,MASAC算法参数设置如表2所示.

4.2 仿真结果

图5对比了前30个被选择的跳波束中,用户需求流量与不同算法的容量供给分布情况.本文将所提算法与MADDPG(multi-agent deep deterministic policy gradient)算法和随机选择策略进行了比较.仿真结果显示,Random算法在某些情况下不能满足用户需求流量或者出现提供容量大于需求流量的情况,其算法的供需匹配误差较大,平均误差约为30.36 Mb/s.相比之下,MASAC算法与MADDPG算法可以较好地满足供需流量匹配.其中,MASAC算法供需流量平均误差约为4.04 Mb/s,远小于MADDPG算法供需流量平均误差11.45 Mb/s.由此可见,本文所提的MASAC算法在供需流量匹配方面更具有优越性,资源利用率较高.

图6验证了MASAC算法与MADDPG算法下SU平均吞吐量与PU辐射功率之间的关系.实验结果表明,随着PU辐射功率的增长,SU能收集更多射频能量,从而增强通信能力,导致吞吐量增加.但当PU辐射功率超过一定值后,由于SU能量存储容量的限制,使得SU吞吐量增长趋于饱和.

为了证明所提方案的性能,图7比较了MASAC,MADDPG以及随机选择策略3种算法的收敛性能与稳定性.实验结果表明,MASAC算法在训练50轮左右趋于收敛,MADDPG算法在训练150轮左右趋于收敛.在训练速度方面,MASAC算法优于MADDPG算法,MASAC算法在训练中也更加稳定.

5 结 语

本文提出了基于MASAC最大熵强化学习的跳波束卫星系统资源适配方案.针对星-地资源供需失配和终端的能量受限问题,本文构建了两阶段传输系统模型,并探讨了资源分配策略.本文建立了跳波束图样选择、时隙分配以及速率与功率控制的多目标优化问题,并将SAC方法拓展到多智能体强化学习领域,采用MASAC框架进行优化问题的求解.实验结果表明,与两种基准方案相比本文所提方案具有良好的收敛性和稳定性.

参考文献

[1]

Euler SFu X THellsten Set al. Using 3GPP technology for satellite communication[J]. Ericsson Technology Review2023,2023(6): 2-12.

[2]

何炬良.卫星通信中基于载波协同的随机多址接入技术研究[D].北京:北京邮电大学,2018.

[3]

He Ju-liang. Random multiple access based on carrier cooperation for satellite communication systerm[D]. Beijing: Beijing University of Posts and Telecommunications, 2018.

[4]

Hu XZhang Y CLiao X Let al. Dynamic beam hopping method based on multi-objective deep reinforcement learning for next generation satellite broadband systems[J]. IEEE Transactions on Broadcasting202066(3): 630-646.

[5]

Wang A YLei LLagunas Eet al. Joint optimization of beam-hopping design and NOMA-assisted transmission for flexible satellite systems[J]. IEEE Transactions on Wireless Communications202221(10): 8846-8858.

[6]

Kamalinejad PMahapatra CSheng Z Get al. Wireless energy harvesting for the Internet of things[J]. IEEE Communications Magazine201553(6): 102-108.

[7]

彭醇陵.基于射频能量收集的双向中继网络传输优化研究[D].重庆: 重庆邮电大学,2019.

[8]

Peng Chun-ling. Research on transmission optimization strategy in two-way relay networks with RF energy harvesting [D]. Chongqing: Chongqing University of Posts and Telecommunications,2019.

[9]

OPPO研究院.零功耗通信白皮书[R/OL].(2022-01-19)[2023-04-18].

[10]

OPPO Research Institute. Zero power communications white paper[R/OL].(2022-01-19)[2023-04-18].

[11]

Aravanis A IBhavani S M RArapoglou P Det al. Power allocation in multibeam satellite systems: a two-stage multi-objective optimization[J]. IEEE Transactions on Wireless Communications201514(6): 3171-3182.

[12]

Wang W LWei JZhao S Het al. Energy efficiency resource allocation based on spectrum-power tradeoff in distributed satellite cluster network[J]. Wireless Networks202026(6): 4389-4402.

[13]

Zhang M YYang X MBu Z Y. Resource allocation with interference avoidance in beam-hopping based LEO satellite systems[C]//The 4th Information Communication Technologies Conference (ICTC). Nanjing,2023: 83-88.

[14]

Zhang TZhang L XShi D Y. Resource allocation in beam hopping communication system[C]// IEEE/AIAA 37th Digital Avionics Systems Conference (DASC). London,2018: 1-5.

[15]

Shi S CLi G XLi Z Qet al. Joint power and bandwidth allocation for beam-hopping user downlinks in smart gateway multibeam satellite systems[J]. International Journal of Distributed Sensor Networks201713(5):155014771770946.

[16]

Wu S WZhang SLi Qet al. Study of non-orthogonal multiple access technology for satellite communications[C]// IEEE 8th International Conference on Computer and Communications (ICCC). Chengdu,2022: 771-775.

[17]

Wang A YLei LLagunas Eet al. Joint beam-hopping scheduling and power allocation in NOMA-assisted satellite systems[C]// IEEE Wireless Communications and Networking Conference (WCNC). Nanjing,2021: 1-6.

[18]

Lin Z YNi Z YKuang L Let al. Dynamic beam pattern and bandwidth allocation based on multi-agent deep reinforcement learning for beam hopping satellite systems[J]. IEEE Transactions on Vehicular Technology202271(4): 3917-3930.

[19]

徐素洁,胡欣,王银,. 基于深度强化学习的卫星动态功率控制技术[J]. 陆军工程大学学报20221(2): 13-20.

[20]

Xu Su-jieHu XinWang Yinet al. Dynamic power allocation technology for satellites based on deep reinforcement learning[J]. Journal of Army Engineering University of PLA20221(2): 13-20.

[21]

Wang X MZhang Y HShen R Jet al. DRL-based energy-efficient resource allocation frameworks for uplink NOMA systems[J]. IEEE Internet of Things Journal20207(8): 7279-7294.

[22]

Zhang H YLiu R KKaushik Aet al. Satellite edge computing with collaborative computation offloading: an intelligent deep deterministic policy gradient approach[J]. IEEE Internet of Things Journal202310(10): 9092-9107.

[23]

张严心,孔涵,殷辰堃,.一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法[J]. 北京工业大学学报202349(4):459-466.

[24]

Zhang Yan-xinKong HanYin Chen-kunet al. Distributed multi-agent soft actor-critic algorithm with probabilistic prioritized experience replay[J]. Journal of Beijing University of Technology202349(4): 459-466.

[25]

Ghosh DHanawal M KZlatanov N. Learning to optimize energy efficiency in energy harvesting wireless sensor networks[J]. IEEE Wireless Communications Letters202110(6): 1153-1157.

[26]

Ding Z GSchober RPoor H V. No-pain No-gain: DRL assisted optimization in energy-constrained CR-NOMA networks[J]. IEEE Transactions on Communications202169(9): 5917-5932.

[27]

Wu D PLiu TLi Z Det al. Delay-aware edge-terminal collaboration in green Internet of vehicles: a multiagent soft actor-critic approach[J]. IEEE Transactions on Green Communications and Networking20237(2): 1090-1102.

基金资助

国家自然科学基金资助项目(61671141)

AI Summary AI Mindmap
PDF (1771KB)

300

访问

0

被引

详细

导航
相关文章

AI思维导图

/