基于MASAC最大熵强化学习的跳波束卫星系统资源适配方案

王译萱; 刘军

doi:10.12068/j.issn.1005-3026.2025.20230252

东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (02) : 9 -17. DOI: 10.12068/j.issn.1005-3026.2025.20230252

信息与控制

基于MASAC最大熵强化学习的跳波束卫星系统资源适配方案

王译萱 ,
刘军

作者信息 +

Resource Adaptation Scheme for Beam-Hopping Satellite System Based on MASAC Maximum Entropy Reinforcement Learning

Yi-xuan WANG ,
Jun LIU

Author information +

文章历史 +

PDF (1813K)

摘要

针对跳波束卫星系统中通信终端多样化的业务需求导致星-地资源供需失配，以及上行传输中机器类终端能量资源受限的挑战，提出一种基于MASAC（multi-agent soft actor-critic）最大熵强化学习的资源适配方案.首先构建了两阶段传输系统模型，在星-地资源供需失配问题的基础上，研究跳波束与非正交多址接入（non-orthogonal multiple access，NOMA）的协同作用.同时，引入能量采集与收集机制，优化了终端设备能量采集与信号传输之间的关系.在此基础上，将上下行传输过程进行整合，建立跳波束图样选择，时隙分配以及速率与功率控制的多目标优化问题，并采用MASAC算法进行优化求解，得到最优联合控制方案.实验结果表明，所提方案能够有效进行资源分配以实现星-地资源供需匹配，并满足能量受限终端的信号传输需求.与基准算法相比，所提算法具有良好的性能.

Abstract

To address the mismatch between space-to-ground resources supply and demand caused by the diversified traffic requirements of communication terminals in the beam-hopping satellite system，as well as the challenge of limited energy resources of machine-type devices in upward transmission，a resource adaptation scheme is proposed based on a multi-agent soft actor-critic（MASAC）approach utilizing maximum entropy reinforcement learning. Firstly，a two-stage transmission system model is constructed to investigate the synergistic effect of beam-hopping and non-orthogonal multiple access（NOMA）on the basis of the space-to-ground resource mismatch problem. Additionally，an energy harvesting and collection mechanism is introduced to optimize the relationship between terminal device energy harvesting and signal transmission. On this basis，a multi-objective optimization problem is established for beam-hopping pattern selection，time slot allocation，and rate and power control by integrating the uplink and downlink transmission processes. MASAC maximum entropy reinforcement learning is employed for optimization，obtaining an optimal joint control strategy. Experimental results show that the proposed scheme can effectively allocate resources for space-to-ground resource matching and meet the signal transmission requirements of energy-constrained machine terminals. Compared with the benchmark algorithm，the proposed algorithm exhibits superior performance.

Graphical abstract

关键词

跳波束卫星 / 非正交多址 / 能量收集 / 资源适配 / 深度强化学习

Key words

beam-hopping satellite / non-orthogonal multiple access（NOMA） / energy harvesting / resource allocation / deep reinforcement learning

引用本文

引用格式 ▾

[Author(id=1261761601771098925, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014456823669252, orderNo=0, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=18742066986@163.com, emailSecond=null, emailThird=null, correspondingAuthor=1, authorType=1, ext={EN=AuthorExt(id=1261761601829819188, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014456823669252, authorId=1261761601771098925, language=EN, stringName=Yi-xuan WANG, firstName=Yi-xuan, middleName=null, lastName=WANG, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Computer Science & Engineering，Northeastern University，Shenyang 110169，China., bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1261761601875956539, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014456823669252, authorId=1261761601771098925, language=CN, stringName=王译萱, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=东北大学计算机科学与工程学院，辽宁沈阳 110169, bio={"content":"

王译萱（1999—），女，河南郑州人，东北大学硕士研究生

"}, bioImg=null, bioContent=

王译萱（1999—），女，河南郑州人，东北大学硕士研究生

, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1261761601699795753, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014456823669252, xref=null, ext=[AuthorCompanyExt(id=1261761601712378666, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014456823669252, companyId=1261761601699795753, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=School of Computer Science & Engineering，Northeastern University，Shenyang 110169，China.), AuthorCompanyExt(id=1261761601729155883, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014456823669252, companyId=1261761601699795753, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=东北大学计算机科学与工程学院，辽宁沈阳 110169)])]), Author(id=1261761601922093889, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014456823669252, orderNo=1, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1261761601980814152, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014456823669252, authorId=1261761601922093889, language=EN, stringName=Jun LIU, firstName=Jun, middleName=null, lastName=LIU, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Computer Science & Engineering，Northeastern University，Shenyang 110169，China., bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1261761602035340112, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014456823669252, authorId=1261761601922093889, language=CN, stringName=刘军, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=东北大学计算机科学与工程学院，辽宁沈阳 110169, bio={"content":"

刘军（1969—），男，辽宁沈阳人，东北大学教授.

"}, bioImg=null, bioContent=

刘军（1969—），男，辽宁沈阳人，东北大学教授.

登录浏览全文

4963

注册一个新账户忘记密码

随着全球物联网产业进入爆发式的发展时期，第三代合作伙伴计划（3rd generation partnership project，3GPP）已正式开始研究卫星通信与5G新无线电技术之间的集成，包括窄带物联网技术和面向机器类型通信的长期演进（long term evolution，LTE）技术^［1］.基于卫星的机器对机器（machine to machine，M2M）通信引起了越来越多研究者和研究机构的关注^［2］.

然而，基于卫星的M2M通信存在以下2个问题.首先，机器类通信终端具有多样化的业务类型及不同的服务质量需求，导致其所在的卫星波束小区间数据流量请求差异性大，在时间和空间上分布不均衡^［3］，致使卫星无法将所提供的星载容量与波束小区之间的异构请求流量分布相匹配，从而造成星-地资源供需失配^［4］.其次，机器类通信终端主要依赖于嵌入内部的微型电池供能，但在某些实际应用场景中，如智慧城市、环境监测、智能家居等以传感和数据采集为目标的应用场景，电池的更换成本较高或不能更换^［5］.这些能量受限机器类终端的接入，对其信号传输过程中的能量资源供给提出了新要求^［6］.因此，针对上述问题，本文提出一种基于跳波束（beam-hopping，BH）卫星系统的资源适配方案，以实现星-地资源供需匹配，并且满足能量受限的机器类设备的信号传输^［7］需求.

1 相关工作

如何灵活高效地进行卫星资源分配已成为研究热点.传统方法采用固定资源分配方式，难以适应通信需求量动态变化的特性，极易造成资源的浪费.为了克服固定分配的缺点，各种动态资源分配算法应运而生.文献［8］提出了一种两阶段遗传算法和模拟退火算法来分配波束功率.文献［9］针对分布式卫星中资源有限以及能源效率低的问题，建立了功率频谱联合分配模型，提出基于凸优化理论的能效资源分配算法.随着相控阵天线技术的发展，跳波束技术已经被应用到多波束卫星系统中，其具有优越的灵活性、高效的资源利用率以及适应地面业务动态变化的能力^［10］.文献［11］提出了一种启发式算法来提高BH系统的容量；文献［12］根据整体流量需求设计卫星跳波束模式，进而实现BH的联合功率和带宽分配.

为了实现更高的频谱效率和边缘吞吐量，非正交多址（NOMA）接入技术支持在同一频谱/时间资源上多个设备的接入，有望在无线网络中提供高频谱效率和支持大规模连接的海量通信需求^［13］.现有研究将跳波束技术与NOMA相结合，使系统可在功率域进行不同用户的信号复用.文献［14］首次研究了多波束卫星系统NOMA和BH的潜在协同作用.为了缓解卫星提供容量和波束请求流量之间的失配问题，采用贪心算法解决联合BH调度和基于NOMA的功率分配问题.

以上研究主要基于传统算法和智能优化算法对于卫星资源进行分配.然而，随着卫星可用波束增加，存在计算时间长、算法复杂度高的缺点，在需求不断变化的情况下难以实现资源的快速动态分配^［14-15］.

随着人工智能技术的快速发展，深度强化学习（deep reinforcement learning，DRL）在信息领域得到了广泛的应用，为卫星的资源配置提供了一种新的方法.文献［16］提出了一种基于DRL的近端策略优化方法，通过动态分配卫星波束的功率，满足用户请求容量和功率有效利用率的需求.文献［15］研究了卫星系统中的联合跳波束选择和带宽分配问题，利用多智能体DRL解决启发式算法在卫星资源分配方面收敛速度慢和模型泛化能力弱的问题.基于策略梯度的强化学习方法目前成为研究的热点方向，深度确定性策略梯度（deep deterministic policy gradient，DDPG）已被广泛应用于解决资源分配问题^［17-18］.DDPG改进了启发式算法导致的计算复杂度相对较高的情况，提高了模型的泛化能力，但其存在探索能力弱、容易陷入局部最优的缺点，当智能体超过一定数量时，DDPG就不易收敛^［19］.

以上研究方案并不适用于未来大规模、多形态、深覆盖的机器类物联网通信场景.由于机器类通信场景下拥有能量受限类设备的接入，对传输过程中的能量供给提出了新要求，但是现有方案大多只考虑了跳波束模式对带宽、流量等单一因素的影响，并未充分挖掘系统中的能量供给关系，对资源的利用有待进一步地提高.

针对上述问题，本文提出了基于MASAC最大熵强化学习的跳波束卫星系统资源适配方案，整体框架如图1所示.其主要思想是将资源分配问题进行拆解，通过下行跳波束图样选择，速率与功率分配达到星-地供需平衡.在选择好的跳波束下进行终端上行链路能量资源优化.通过分时参数对跳波束时隙进行分割，在分割时隙下进行能量采集与数据传输，满足能量受限终端的通信需求^［20］.最后，本文对优化问题进行整合，采用多智能体最大熵强化学习进行优化求解，得到最优联合控制.

2 系统模型及问题表述

2.1 系统模型

本文考虑跳波束卫星系统下行链路.卫星总功率为

P

，覆盖区域包括

N = {n | 1,2, …, N}

个小区，跳波束卫星可产生

K = {k | 1,2, …, K} （ K < N ）

个波束周期性地对地面进行覆盖.1个跳波束周期包含

T = {t | 1,2, …, T}

个时隙以及

H = {H 1, H 2, …, H j, . . ., H J}

个跳波束图样.在每个时隙选择

H

的1个子集作为1个跳波束图样

H j

，所有波束使用相同的频段

B

为提高频谱利用率，卫星系统终端采用NOMA接入.由于机器类终端具有低功耗、低延迟等特点，因此，将其作为次用户（secondary user，SU）接入网络.同时，采用能量收集技术，收集环境中主用户（primary user，PU）产生的射频能量以供给用户自身通信需求^［21］.假设1个波束下用户数量为

L = {M ⋃ N}

，包括

M = {m | 1,2, …, M}

个PU和

N = {n | 1,2, …, N}

个SU.能量存储设备作为能量存储及释放单元被设置在每个波束小区内.由于终端地理分布的不均衡以及时变特性，每个小区的流量需求各不相同，假设跳波束图样

H j

下用户的流量需求为

D j = {D 1, D 2, . . ., D b, . . ., D K}

，所构建的系统模型如图2所示.

在跳波束时隙

T

、波束图样

H j

被选定时，其下的波束

b

中终端用户

i

的信噪比可表示为

γ i b t j = h b i 2 μ i b t j P I i b t j i n t r a + I i b t j i n t e r + σ 2

.（1）

其中：

h b i

为服务用户

i

的波束

b

与用户

i

之间的信道增益；

μ

_ibtj 为功率分配系数，

0 < μ i b t j < 1

；

P

为卫星发射功率；

I i b t j i n t r a

为用户

i

与同一波束内其他用户之间的波束内干扰；

I i b t j i n t e r

为用户

i

与其他被照亮波束之间的波束间干扰；

σ 2

为高斯白噪声.

波束内干扰

I i b t j i n t r a

和波束间干扰

I i b t j i n t e r

可分别表示如下：

I i b t j i n t r a = ∑ i' = 1 L - 1 h b i 2 μ i' b t j P

,（2）

I i b t j i n t e r = ∑ a ∈ [1,2, . . ., K] ∑ i' = 1 L ε t a h b i 2 μ i' a t j P

.（3）

其中：

ε t a = {0,1}

表示在时隙T、跳波束图样

H j

下与波束

b

相邻的波束

a

是否被照亮.

2.2 问题表述

2.2.1 星-地供需流量失配问题表述

在时隙

T

跳波束图样

H j

中，波束

b

中终端

i

可获得的流量（

R i b t j

）为

R i b t j = ε t b B l n （ 1 + γ i b t j ）

.（4）

其中，

B

为卫星带宽.

因此，1个跳波束周期内，卫星提供给波束

b

中终端

i

的流量（

R i b

）及卫星提供给波束

b

的总流量（

R b

）可分别计算如下：

R i b = ∑ t ∈ T ∑ j ∈ H R i b t j

，（5）

R b = ∑ i = 1 L R i b

.（6）

为了使卫星提供容量与波束请求流量相匹配，消除小区之间不同需求量级的影响，将供需匹配关系（supply and demand matching relationship，SDMR）转化为未匹配的系统容量比与溢出系统容量比的加权值^［16］（

R S D M R

），其表述如下：

R S D M R = m i n ∑ b = 1 K m a x [R b - D b, 0] R b + D b + ξ m a x [D b - R b, 0] R b + D b

.（7）

其中，

ξ

为调和参数.

2.2.2 终端的能量采集与信号传输关系表述

在跳波束时隙

T

中，在

（ 1 - ρ （ t ） ） T

时间内进行SU的数据传输；在

ρ （ t ） T

时间内，通过环境从PU处收集射频能量并存储于能量存储设备中.其中

ρ （ t ）

为分时参数，

0 < ρ （ t ） < 1

.能量收集与信号传输过程如图3所示，n₁，n₂为噪声.

假设从PU处收集射频能量时，PU额外的能量消耗忽略不计.在跳波束时隙

T

、波束

b

下，SU _n 收集的射频能量可计算为

E n t = η ρ t T ∑ m = 1 M h m n 2 P P U m

.（8）

其中：

η

为能量收集效率；

h m n

为SU _n 与PU _m 之间的信道增益；

P P U m

为PU _m 的辐射功率.

SU _n 收集完射频能量后，进行信号传输.其信号传输所需能量可表述如下：

E n' （ t ） = （ 1 - ρ （ t ） ） T α S U n （ t ） P S U n

.（9）

其中：

α S U n = {0,1}

为SU _n 的当前状态，

α S U n = 1

表示SU _n 当前为活跃状态，否则

α S U n = 0

；

P S U n

为SU _n 进行数据传输所需发射功率.

SU _n 在跳波束时隙

T

中经射频能量采集以及数据传输后，能量存储设备的剩余能量为

E n Δ （ t ） = m i n {E n （ t ） + E n Δ （ t - Δ ） - E n' （ t ）, E m a x}

.（10）

其中：

E n Δ （ t - Δ ）

为前1个时隙能量存储设备中的剩余能量；

Δ

为时间间隔；

E m a x

为能量存储上限.在下1个时隙中，SU利用射频能量采集获得的能量以及时隙

T

中能量存储设备剩余的能量进行数据传输，以此类推.因此，SU _n 进行数据传输所需能量满足

0 < E n' （ t ） < E n （ t ） + E n Δ （ t - Δ ）

将时隙

T

收集的射频能量以及前1个时隙

T - 1

能量存储设备的剩余能量转化为SU自身通信所需的功率.在时隙

T

跳波束图样

H j

下，波束小区

b

中能量存储设备提供的用于SU数据传输总功率为

P b j T' = ∑ n = 1 N E n （ t ） + E n Δ （ t ） （ 1 - ρ （ t ） ） T

.（11）

为保障SU的通信需求，能量存储设备可提供的功率应大于SU进行信号传输所需的发射功率：

P b j T' ≥ ∑ n = 1 N P S U n ≥ 0

.（12）

2.2.3 联合优化问题

将上述星-地供需流量失配问题以及终端能量采集与信号传输关系转化为跳波束图样选择，时隙分配以及速率与功率控制多目标优化数学模型为

P : M a x ∑ b ∈ K 1 - R S D M R ， s . t . C 1 : ∑ b = 1 K ε t b = K, ε t b = {0,1} ， C 2 : 0 < μ i b t j < 1 ， C 3 : ∑ b = 1 K P b < P ， C 4 : 0 < ρ （ t ） < 1 ， C 5 : 0 ≤ ∑ n = 1 N P S U n ≤ P b j T' .

（13）

在优化问题（13）中：

C 1

表示跳波束图样选择参数限制因素，每个跳波束时隙下只能有

K

个波束被照亮；

C 2

表示卫星与波束之间的功率分配参数取值范围应在

（ 0,1 ）

之间；

C 3

为波束功率限制条件，每个跳波束时隙下被照亮波束所分配的总功率不应大于卫星提供的总功率；

C 4

为分时参数范围；

C 5

保证了SU进行信号传输的通信需求.

3 多智能体最大熵强化学习算法

3.1 基于MASAC的深度强化学习框架

本文将最大熵学习结合到Actor-Critic框架当中，最大化资源分配满意度与流量缺口加权的累积奖励，同时最大化策略的熵.由于MASAC对超参数很敏感，引入熵正则化因子来提高训练过程的稳定性^［22］.将每个波束视为1个智能体，在每个智能体上部署1个参数为

Φ

的策略网络

π Φ

，具有参数

θ 1

和

θ 2

的2个当前Q网络

Q θ 1

和

Q θ 2

以及具有参数

θ 1'

和

θ 2'

的2个目标Q网络

Q θ 1'

和

Q θ 2'

.所采用的算法架构如图4所示.系统的状态、动作和奖励设定如下.

3.1.1 状态

将观测状态

O i t ∈ O

定义为智能体

i

在时隙

T

的局部观测信息，主要由时隙

T

波束

i

下用户的流量请求

D i t

、时隙

T

波束

i

下用户的信道信息

H i t = {h i, 1 t, h i, 2 t, . . ., h i, m t}

以及波束小区内能量存储设备剩余能量

E i t

组成：

O i t = {D i t, H i t, E i t}

.（14）

所有

K

个智能体的局部观测值的组合即为时隙

T

整个系统的状态空间

O t

3.1.2 动作

智能体在观察环境后，通过相应状态

O i t

确定在该状态下的行为.将

a i t ∈ A

定义为智能体

i

在时隙

T

中要执行的动作，包括跳波束图样选择参数

a i, ε t

，决定当前时隙波束是否被照亮；分时参数

a i, ρ t

，用于对跳波束时隙

T

进行划分；功率分配系数

a i, μ t

，决定每个波束的功率分配情况：

a i t = {a i, ε t, a i, ρ t, a i, μ t}

.（15）

所有

K

个智能体的动作值的组合即为时隙

T

整个系统的联合动作

A t

3.1.3 奖励

智能体执行动作后获得即时反馈.将智能体在时隙

T

中完成上述动作后的奖励函数

r t ∈ R

设计为与满意度、流量缺口有关的函数：

r t = 1 K ∑ b = 1 K S b - Δ b ω

.（16）

其中：

S b = R b D b

为波束的资源分配满意度；

Δ b

为波束的流量缺口，

Δ b = D b - R b

；

ω

为常数，用于标准化

Δ b

3.2 MASAC算法实现

3.2.1 初始化阶段

随机初始化网络参数

Φ

，

θ 1

和

θ 2

，并使用

θ 1

和

θ 2

对目标Critic网络参数

θ 1'

和

θ 2'

进行赋值；清空经验回放存储器.

3.2.2 智能体训练阶段

每个智能体

i （ i = 1, . . ., K ）

单独观测其局部环境状态

o i t

，并依据当前局部环境状态，随机选择1个动作集

a i t ∼ π Φ （ ⋅ | O i t ）

作为输出，并执行联合动作

A t = （ a 1 t, a 2 t, . . ., a K t ）

.智能体执行联合动作

A t

后，得到单步奖励

r t

与策略的熵.在获得单步奖励后，将全局状态更新为

O t + 1

.将环境全局状态、输出动作及获得单步奖励作为经验

{O t, A t, r t, O t + 1}

存储于经验回放存储器

W

中，并提取1个

ω ̃ ∈ W

的小批经验用于训练神经网络.在后续训练中智能体寻求最大化长期累积折扣奖励，同时最大化策略熵：

R （ O t + 1, A t ） = m a x E

[∑ t = 1 ∞ γ t - 1 [r t （ O t, A t ） +

α H （ π （ ⋅ | O t ） ）]]

.（17）

其中：

γ

为衰变系数；

α

为熵正则化因子；

H （ π （ ⋅ | O t ） ） = - l o g π Φ （ A t | O t ）

为计算

π （ ⋅ | O t ）

的熵；

π （ ⋅ | O t ）

为从状态到动作的映射概率分布.

智能体依据长期累积折扣奖励和最大化策略熵输出一组策略向量：

π * = a r g m a x π R （ π ）

.（18）

通过引入Q网络进行迭代，以改进输出策略，并利用当前Critic网络计算对动作的评估值：

Q （ O t, A t ） = E {O, A} ~ W [R （ O t, A t ） + γ t （ Q （ O t + 1, A t + 1 ） ） + α H （ π （ ⋅ | O t ） ）] .

（19）

训练柔性Q网络以最小化贝尔曼残差：

J Q （ θ ） = E {O, A, O'} ~ W [（ Q θ （ O t, A t ） - y （ r t, O t + 1 ） ） 2]

.（20）

其中，

y （ r t, O t + 1 ） = r t + γ π θ （ A t + 1 | O t + 1 ） T ×

（ m i n j = 1,2 Q θ j' （ O t + 1, A t + 1 ） - α l o g π θ （ A t + 1 | O t + 1 ） ）

.（21）

3.2.3 参数更新阶段

求解

J Q （ θ ）

关于

θ

的梯度

∇ θ J Q （ θ ）

，进而对当前Critic网络中的参数

θ （ θ i, i = 1,2 ）

进行更新：

∇ θ J Q （ θ ） = ∇ θ 1 ω ̃ ∑ {O, A, O', A' ∈ ω ̃} （ Q （ O t, A t ） - y （ r t, O t + 1 ） ） 2

.（22）

更新当前Actor网络参数：

∇ Φ J π （ Φ ） = ∇ Φ 1 ω ̃ ∑ {O ∈ ω ̃} (m i n i = 1,2 Q (O t, A t + 1) - α l o g π θ (A t + 1 | O) ）

.（23）

对熵正则化因子进行更新：

∇ α J （ α ） = π θ （ A t | O t ） T [- ∇ α α l o g π θ （ A t | O ） + H ¯]

.（24）

其中

H ¯

表示目标熵的恒定向量.

采用滑动平均方式对目标Critic网络参数

θ i'

进行更新：

θ i' ← τ θ i + （ 1 - τ ） θ i', i = 1,2

.（25）

其中

τ

为学习率，

τ ∈ （ 0,1 ）

经上述训练后，智能体获得最优联合跳波束图样选择、速率与功率控制策略

A * = [A ε *, A ρ *, A μ *]

.本文所采用的MASAC具体实现步骤如算法1所示.

算法1 基于MASAC的跳波束卫星系统资源适配算法

输入：初始化Actor网络参数

Φ

，Critic网络参数

θ 1

，

θ 2

，

θ 1'

，

θ 2'

，熵正则化因子

α

，经验回放存储器

W

1 设置目标Critic网络参数：

θ 1'

，

θ 2'

←

θ 1

，

θ 2

2 for each episode do

3 重置初始环境；

4 fort←1，…，Tdo

5 fori←1，…，Kdo

6 观测环境

O i t = [D i t, h i t]

并根据策略网络选择策略

a i t ∼ π Φ （ ⋅ | O i t ）

；

7 end for

8 执行联合动作

A t = （ a 1 t, . . . ， a K t ）

；

9 获得奖励

r t

以及下一时刻的环境状态

O t + 1

10 将经验元组

{O t, A t, r t, O t + 1}

存储到经验回放存储器

W

；

11 if

O t + 1

到达最终状态 then

12 重新初始化环境

13 end if

14 if 网络更新时间步到达 then

15 fori←1，…，Kdo

16 从

W

中随机抽取一批数据

ω ̃

；

17 根据式（22）更新Critic网络参数；

18 根据式（23）更新Actor网络参数；

19 根据式（25）更新目标网络参数；

20 根据式（24）更新熵正则化因子；

21 end for

22 end if

23 end for

24 end for

输出：最优联合控制策略

π * （ A * ）

4 仿真验证

4.1 仿真参数

为评估模型和算法的有效性，本文选用Python3.6和TensorFlow1.0对所提方案进行了实验仿真.其场景设计如下：待服务区域被划分成30个规模相等的小区，每个小区内包含1个能量收集单元，用于存储收集的射频能量.假设每个小区的请求流量服从泊松分布，跳波束卫星系统包括5个波束，主要仿真参数设置如表1所示.

本文采用MASAC算法解决跳波束卫星系统中的波束调度、功率与速率分配问题.因此需要对神经网络的参数进行训练，MASAC算法参数设置如表2所示.

4.2 仿真结果

图5对比了前30个被选择的跳波束中，用户需求流量与不同算法的容量供给分布情况.本文将所提算法与MADDPG（multi-agent deep deterministic policy gradient）算法和随机选择策略进行了比较.仿真结果显示，Random算法在某些情况下不能满足用户需求流量或者出现提供容量大于需求流量的情况，其算法的供需匹配误差较大，平均误差约为30.36 Mb/s.相比之下，MASAC算法与MADDPG算法可以较好地满足供需流量匹配.其中，MASAC算法供需流量平均误差约为4.04 Mb/s，远小于MADDPG算法供需流量平均误差11.45 Mb/s.由此可见，本文所提的MASAC算法在供需流量匹配方面更具有优越性，资源利用率较高.

图6验证了MASAC算法与MADDPG算法下SU平均吞吐量与PU辐射功率之间的关系.实验结果表明，随着PU辐射功率的增长，SU能收集更多射频能量，从而增强通信能力，导致吞吐量增加.但当PU辐射功率超过一定值后，由于SU能量存储容量的限制，使得SU吞吐量增长趋于饱和.

为了证明所提方案的性能，图7比较了MASAC，MADDPG以及随机选择策略3种算法的收敛性能与稳定性.实验结果表明，MASAC算法在训练50轮左右趋于收敛，MADDPG算法在训练150轮左右趋于收敛.在训练速度方面，MASAC算法优于MADDPG算法，MASAC算法在训练中也更加稳定.

5 结语

本文提出了基于MASAC最大熵强化学习的跳波束卫星系统资源适配方案.针对星-地资源供需失配和终端的能量受限问题，本文构建了两阶段传输系统模型，并探讨了资源分配策略.本文建立了跳波束图样选择、时隙分配以及速率与功率控制的多目标优化问题，并将SAC方法拓展到多智能体强化学习领域，采用MASAC框架进行优化问题的求解.实验结果表明，与两种基准方案相比本文所提方案具有良好的收敛性和稳定性.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Euler S， Fu X T， Hellsten S，et al. Using 3GPP technology for satellite communication［J］. Ericsson Technology Review，2023，2023（6）： 2-12.

[2]	何炬良.卫星通信中基于载波协同的随机多址接入技术研究［D］.北京：北京邮电大学，2018.

[3]	He Ju-liang. Random multiple access based on carrier cooperation for satellite communication systerm［D］. Beijing： Beijing University of Posts and Telecommunications， 2018.

[4]	Hu X， Zhang Y C， Liao X L，et al. Dynamic beam hopping method based on multi-objective deep reinforcement learning for next generation satellite broadband systems［J］. IEEE Transactions on Broadcasting，2020，66（3）： 630-646.

[5]	Wang A Y， Lei L， Lagunas E，et al. Joint optimization of beam-hopping design and NOMA-assisted transmission for flexible satellite systems［J］. IEEE Transactions on Wireless Communications，2022，21（10）： 8846-8858.

[6]	Kamalinejad P， Mahapatra C， Sheng Z G，et al. Wireless energy harvesting for the Internet of things［J］. IEEE Communications Magazine，2015，53（6）： 102-108.

[7]	彭醇陵.基于射频能量收集的双向中继网络传输优化研究［D］.重庆：重庆邮电大学，2019.

[8]	Peng Chun-ling. Research on transmission optimization strategy in two-way relay networks with RF energy harvesting ［D］. Chongqing： Chongqing University of Posts and Telecommunications，2019.

[9]	OPPO研究院.零功耗通信白皮书［R/OL］.（2022-01-19）［2023-04-18］.

[10]	OPPO Research Institute. Zero power communications white paper［R/OL］.（2022-01-19）［2023-04-18］.

[11]	Aravanis A I， Bhavani S M R， Arapoglou P D，et al. Power allocation in multibeam satellite systems： a two-stage multi-objective optimization［J］. IEEE Transactions on Wireless Communications，2015，14（6）： 3171-3182.

[12]	Wang W L， Wei J， Zhao S H，et al. Energy efficiency resource allocation based on spectrum-power tradeoff in distributed satellite cluster network［J］. Wireless Networks，2020，26（6）： 4389-4402.

[13]	Zhang M Y， Yang X M， Bu Z Y. Resource allocation with interference avoidance in beam-hopping based LEO satellite systems［C］//The 4th Information Communication Technologies Conference （ICTC）. Nanjing，2023： 83-88.

[14]	Zhang T， Zhang L X， Shi D Y. Resource allocation in beam hopping communication system［C］// IEEE/AIAA 37th Digital Avionics Systems Conference （DASC）. London，2018： 1-5.

[15]	Shi S C， Li G X， Li Z Q，et al. Joint power and bandwidth allocation for beam-hopping user downlinks in smart gateway multibeam satellite systems［J］. International Journal of Distributed Sensor Networks，2017，13（5）：155014771770946.

[16]	Wu S W， Zhang S， Li Q，et al. Study of non-orthogonal multiple access technology for satellite communications［C］// IEEE 8th International Conference on Computer and Communications （ICCC）. Chengdu，2022： 771-775.

[17]	Wang A Y， Lei L， Lagunas E，et al. Joint beam-hopping scheduling and power allocation in NOMA-assisted satellite systems［C］// IEEE Wireless Communications and Networking Conference （WCNC）. Nanjing，2021： 1-6.

[18]	Lin Z Y， Ni Z Y， Kuang L L，et al. Dynamic beam pattern and bandwidth allocation based on multi-agent deep reinforcement learning for beam hopping satellite systems［J］. IEEE Transactions on Vehicular Technology，2022，71（4）： 3917-3930.

[19]	徐素洁，胡欣，王银，等. 基于深度强化学习的卫星动态功率控制技术［J］. 陆军工程大学学报，2022，1（2）： 13-20.

[20]	Xu Su-jie， Hu Xin， Wang Yin，et al. Dynamic power allocation technology for satellites based on deep reinforcement learning［J］. Journal of Army Engineering University of PLA，2022，1（2）： 13-20.

[21]	Wang X M， Zhang Y H， Shen R J，et al. DRL-based energy-efficient resource allocation frameworks for uplink NOMA systems［J］. IEEE Internet of Things Journal，2020，7（8）： 7279-7294.

[22]	Zhang H Y， Liu R K， Kaushik A，et al. Satellite edge computing with collaborative computation offloading： an intelligent deep deterministic policy gradient approach［J］. IEEE Internet of Things Journal，2023，10（10）： 9092-9107.

[23]	张严心，孔涵，殷辰堃，等.一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法［J］. 北京工业大学学报，2023，49（4）：459-466.

[24]	Zhang Yan-xin， Kong Han， Yin Chen-kun，et al. Distributed multi-agent soft actor-critic algorithm with probabilistic prioritized experience replay［J］. Journal of Beijing University of Technology，2023，49（4）： 459-466.

[25]	Ghosh D， Hanawal M K， Zlatanov N. Learning to optimize energy efficiency in energy harvesting wireless sensor networks［J］. IEEE Wireless Communications Letters，2021，10（6）： 1153-1157.

[26]	Ding Z G， Schober R， Poor H V. No-pain No-gain： DRL assisted optimization in energy-constrained CR-NOMA networks［J］. IEEE Transactions on Communications，2021，69（9）： 5917-5932.

[27]	Wu D P， Liu T， Li Z D，et al. Delay-aware edge-terminal collaboration in green Internet of vehicles： a multiagent soft actor-critic approach［J］. IEEE Transactions on Green Communications and Networking， 2023， 7（2）： 1090-1102.