基于跨尺度Transformer全局-局部交互的遥感图像连续超分辨率

熊承义; 王薇; 高志荣

doi:10.20056/j.cnki.ZNMDZK.20250841

中南民族大学学报（自然科学版） ›› 2026, Vol. 45 ›› Issue (03) : 353 -363. DOI: 10.20056/j.cnki.ZNMDZK.20250841

物理与电子信息科学

基于跨尺度Transformer全局-局部交互的遥感图像连续超分辨率

熊承义 ¹^,² ,
王薇 ¹^,² ,
高志荣 ³

作者信息 +

Continuous super-resolution for remote sensing image via cross-scale Transformer with global-local interaction

Chengyi XIONG ¹^,² ,
Wei WANG ¹^,² ,
Zhirong GAO ³

Author information +

文章历史 +

PDF (3901K)

摘要

遥感图像连续超分辨率技术对多尺度地物识别、变化检测与语义分析等任务至关重要.然而，现有方法在复杂背景干扰和大尺度跨度场景下，难以兼顾局部细节重建与全局语义一致性.为此，提出了一种跨尺度Transformer全局-局部交互的遥感图像连续超分辨率方法.设计了结合上下文注意力机制（CAM）的多尺度参数生成器，使之选择性地增强不同尺度下的局部高频特征；构建了一种跨尺度Transformer交互模块，利用自注意力机制实现全局语义建模与局部特征融合；提出双分支全局-局部解析器，联合优化坐标相关的位置编码与上下文依赖的语义解码，提升不同缩放倍数下的重建精度.实验结果表明：所提出方法相比先进的连续超分辨率方法可获得近0.17dB的PSNR增益.

Abstract

Continuous super-resolution technology for remote sensing images is critical for tasks such as multi-scale ground object recognition， change detection and semantic analysis. However， existing methods struggle to balance local detail reconstruction with global semantic consistency under complex background interference and large-scale variations. To address this problem， a continuous super-resolution method for remote sensing image via cross-scale Transformer with global-local interaction is proposed. A multi-scale parameter generator integrated with Contextual Attention Mechanism （CAM） is designed， which selectively enhances local high-frequency features at different scales， builds a cross-scale Transformer interaction module that leverages self-attention mechanism to achieve global semantic modeling and local feature fusion. A dual-branch global-local parser that jointly optimizes coordinate-aware positional encoding and context-dependent semantic decoding to ensure reconstruction accuracy at different scaling factors is proposed. Experimental results demonstrate that the proposed method can achieve a gain of 0.17 dB in PSNR com pared to state-of-the-art continuous super-resolution approaches.

Graphical abstract

关键词

连续超分辨率 / 遥感图像 / 自注意力机制 / Transformer网络 / 全局-局部交互

Key words

continuous super-resolution / remote sensing image / self-attention mechanism / Transformer network / global-local interaction

引用本文

引用格式 ▾

熊承义,王薇,高志荣. 基于跨尺度Transformer全局-局部交互的遥感图像连续超分辨率[J]. 中南民族大学学报（自然科学版）, 2026, 45(03): 353-363 DOI:10.20056/j.cnki.ZNMDZK.20250841

登录浏览全文

4963

注册一个新账户忘记密码

图像超分辨率（Super-Resolution， SR）是计算机视觉领域中的一项重要任务，其目标是从低分辨率（Low-Resolution， LR）图像中重建对应的高分辨率（High-Resolution， HR）图像，广泛应用于医学成像^［1］、视频监控^［2］、遥感图像分析^［3-4］等多个领域.特别是在遥感领域，高分辨率图像包含丰富的纹理细节与空间结构信息，对于地物识别、变化检测等任务具有重要价值^［5］.然而，由于遥感图像的获取通常受限于卫星传感器分辨率、传输带宽等多重因素，高质量遥感图像的获取成本仍然较高.因此，利用超分辨率技术对遥感图像进行重建，是提升图像感知能力、增强下游任务性能的关键手段.

近年来，深度学习方法显著推动了SR技术的发展.与早期的基于边缘检测、稀疏编码等方法相比，CNN、GAN以及Transformer等网络架构在重建精度与表达能力方面均取得了显著提升.早期方法如SRCNN^［6］采用预上采样策略，先通过插值扩大图像再进行处理，存在效率低下的问题.后来的后上采样方法，如反卷积^［7］和亚像素重排^［8］，虽然提升了效率，但通常依赖于具体的放大倍数，难以实现对连续尺度的统一建模.在遥感图像应用中，具备多尺度图像重建能力尤为重要.一方面，不同遥感场景和任务对图像分辨率存在差异化需求；另一方面，图像在不同尺度下呈现的空间结构和层次信息也有显著差异.然而，传统的超分辨率模型大多为固定尺度设计，仅支持预定义的放大因子.这种模式不仅限制了模型的适用范围，而且在面对有多分辨率需求的实际应用中，需要分别训练多个模型，带来额外的计算与存储开销，难以满足实际部署的灵活性要求.为解决这一问题，研究者开始探索任意放大倍数的连续超分方法.Meta-SR^［9］首次将尺度因子作为模型输入，实现了对非整数倍图像的连续放大，但在实际应用中仍受到网络结构的限制，出现尺度选择策略不灵活等问题.

随着隐式神经表示（Implicit Neural Representation， INR）的兴起，连续超分辨率技术进入了新的阶段.INR将图像视作连续函数，使用多层感知器（Multi-Layer Perceptron， MLP）将空间坐标映射到像素值，结合深度特征编码实现坐标到图像的函数拟合.形式上，设I为连续图像，x为图像中的任意二维坐标，结合由深度网络提取的潜在特征向量Z，图像像素值可通过一个隐式函数进行预测，其形式定义为：

I (x) = f (Z, x),

（1）

随后，局部隐式图像函数（Local Implicit Image Function， LIIF^［10］）采用了基于隐式神经表示的方法，把LR图像编码为特征，再将任意查询坐标输入多层感知器，生成对应的RGB值，有效摆脱了固定上采样结构的限制.后续工作如UltraSR^［11］、IPE^［12］和LTE^［13］等进一步引入坐标编码、频域信息和局部纹理估计器，显著提升了连续超分任务中的重建精度与表达能力.此外，注意力机制被引入到连续超分辨率技术中，提升了网络的上下文建模能力.CHEN等^［14］提出了一个级联局部隐式变换器，将注意力机制和频率编码技术集成到局部隐式图像函数中，在任意尺度超分任务中取得了良好效果.CAO等设计了一种隐式注意力网络学习局部特征集合权重并嵌入尺度感知注意力利用非局部信息^［15］.

尽管现有的连续超分方法在自然图像领域取得了显著成效，但在遥感图像场景下仍面临诸多挑战.遥感图像通常具有场景种类繁多、尺度跨度大、背景复杂度高等特性，对模型在不同尺度下的泛化能力、全局结构建模能力与局部细节还原能力提出了更高要求.WU等^［16］引入了动态尺度感知模块与全局隐式函数，以增强模型对多尺度信息的适应性.CHEN等^［5］提出基于上下文交互的连续超分框架，从全局语义层面提升了重建的一致性.这些方法多以全局建模为主，缺乏对局部细节的表达能力.因此，如何设计出一种兼顾全局语义建模与局部高频细节表达的连续超分网络，已成为实现高质量遥感图像重建的关键所在.

基于以上背景，本文提出了一种跨尺度Transformer全局-局部交互的遥感图像连续超分辨率方法CTGI-ConSR（Cross-Scale Transformer with Global-Local Interaction for Continuous Super-Resolution of RSI）.受CoTNet^［17］中上下文注意力思想的启发，本文设计了一种多尺度参数生成器（Multi-Scale Parameter Map Generator， MPMG），通过引入上下文注意力机制（Contextual Attention Mechanism， CAM）以充分挖掘输入特征中相邻位置之间的上下文信息，从而生成多尺度的特征参数图，增强模型对局部高频细节的表达能力.这些参数图被编码为一组局部特征单元（Local Token， T_local），并结合一个可学习的全局特征单元（Global Token， T_global），通过Transformer编码器对所有特征单元进行自注意力交互，实现局部细节与全局结构之间的协同表达.所提出的全局-局部解析器（Global-Local Parser， GP）分别从全局与局部两个层面对任意输入坐标进行解析，并通过1×1卷积与3×3深度卷积进行有效融合，输出高质量的连续放大图像.

1 提出的方法

1.1 模型整体结构

本文模型整体结构如图1所示，包括3个阶段：多尺度特征参数图提取、全局-局部上下文交互以及全局-局部解析.第一阶段通过编码器提取初始低分辨率特征，并构建多尺度参数生成器，生成多个不同尺度的特征参数图；第二阶段将这些多尺度特征参数图编码为一组T_local，并引入一个可学习的T_global，通过Transformer编码器实现T_global与T_local之间的自注意力交互；第三阶段以任意坐标点为输入，利用双分支全局-局部解析器分别从全局语义和局部细节两个层面解析像素值并融合.三者协同工作，实现从低分辨率输入到任意尺度图像输出的连续重建过程.

1.2 多尺度特征参数图提取

该阶段首先通过编码器提取初始低分辨率特征F，这里采用之前工作中的模块作为编码器，包括EDSR、RDN.接着经过多尺度参数生成器得到多个不同尺度的特征参数图

P = {p 1, p 2, p 3, p 4}

：

F = φ e n c o d e r (I L R),

（2）

P = {p 1, p 2, p 3, p 4} = φ M P M G (F),

（3）

其中，

φ e n c o d e r (⋅)

表示编码器提取初始低分辨率特征的操作，

I L R

表示输入的低分辨率图像，

φ M P M G (⋅)

表示多尺度参数生成器用来提取多尺度特征参数图的操作.

1.2.1 多尺度参数生成器

为了增强对局部高频细节的恢复能力，受CSPNet^［18］启发，本文基于跨阶段部分层（Cross-Stage Partial Layer， CSPLayer）设计了一种多尺度参数生成器.CSPLayer将输入特征沿通道划分为两部分，一部分特征经过深度处理提取高级语义特征，另一部分则直接作为残差连接跨过以保留原始信息，这种结构既降低了计算量，又有效兼顾了低层细节和高层语义表达.

MPMG具体结构如图2（a）所示，该结构由3个CSPLayer堆叠而成，每个CSPLayer由多个Darknet瓶颈块（Darknet Bottleneck Block， DBB）、两个1×1卷积以及一个3×3卷积组成，其中CSPLayer1、CSPLayer2和CSPLayer3依次设置DBB数量为2、4、6.

以CSPLayer2为例，其工作流程如下.输入

p 2 ∈ R (H / 2) × (W / 2) × C

首先经过一个1×1卷积操作将维度降为原始的一半，并沿着通道维度划分为两部分

{p 12, p 22 ∈ R (H / 2) × (W / 2) × (C / 4)}

；接着p₂²经过4个DBB操作提取更高层次的特征

F H ∈ R (H / 2) × (W / 2) × (C / 4)

，F_H 再与p₁²沿着通道维度进行拼接得到

H ∈ R (H / 2) × (W / 2) × (C / 2)

；最后H经过一个1×1卷积操作将维度扩展2倍，再经过一个3×3卷积操作得到下采样两倍的特征参数图

p 3 ∈ R (H / 4) × (W / 4) × C

.该过程可表示为：

p 12, p 22 = S p l i t (C o n v 1 × 1 (p 2)),

（4）

H = C o n c a t (D B B 4 (p 22), p 12),

（5）

p 3 = C o n v 3 × 3 (C o n v 1 × 1 (H)),

（6）

其中，

S p l i t (⋅)

表示通道划分操作.最终输入经过3层CSPLayer的逐级下采样处理，生成4组空间分辨率不同的特征参数图

P ∈ R (H / 2 i - 1) × (W / 2 i - 1) × C, i = 1,2, 3,4 .

1.2.2 上下文注意力机制

DBB由两个“卷积层——批量归一化层——激活函数”基本卷积单元和上下文注意力机制（CAM）组成.CAM作为DBB的核心部分，能够利用输入特征中相邻位置之间的上下文信息指导注意力权重的学习，从而提升特征的表达能力.

图2（b）是CAM的具体结构.输入特征图

X ∈ R H × W × C

，其对应的键（key，K）、查询（query，Q）和值（value，V）分别定义为K=X、Q=X以及V=XW_v，其中W_v 表示通过1×1卷积实现的线性映射.CAM首先对K进行3×3卷积操作，得到包含局部上下文信息的特征

K 1 ∈ R H × W × C

；随后将K¹与Q进行通道拼接，通过两个连续的1×1卷积生成权重

A' ∈ R H × W × (C ⋅ k 2)

：

K 1 = C o n v 3 × 3 (K),

（7）

A' = C o n v 1 × 1 (R e L U (C o n v 1 × 1 (K 1, Q))),

（8）

其中，设置局部感受野大小k=3，定义注意力权重的空间范围.

R e L U (⋅)

表示非线性激活函数.将

A'

重塑为

R C × k 2 × H W

，使得每个空间位置的每个通道都关联一个k×k局部注意力核，从而有效捕捉该位置的邻域上下文信息.随后沿邻域维度执行均值操作，得到每个空间位置上每个通道的注意力权重

A ∈ R C × H W

.将softmax归一化后的注意力权重A与V表示进行逐元素相乘，得到注意力特征

K 2 ∈ R C × H W

：

K 2 = S o f t m a x (A) ⊙ V,

（9）

其中，

⊙

表示逐元素相乘.将K²重塑回

R H × W × C

，K¹和K²进行逐元素相加得到最终输出Y：

Y = K 1 ⊕ K 2,

（10）

其中，

⊕

表示逐元素相加.最终得到具有丰富上下文信息的增强特征表示.

1.3 全局-局部上下文交互

本阶段采用三层Transformer编码器架构实现全局与局部信息的交互.具体来说，首先，对4组不同尺度的特征参数图

P i (i = 1,2, 3,4)

分别添加可学习的位置编码（Positional Encoding， PE），并通过双三次下采样将其适配到其余尺度，确保各尺度特征都保留了精确的空间位置信息；接着将增强位置信息的特征参数图展平为多组

T l o c a l i (i = 1,2, 3,4)

，并引入一个可训练的

T g l o b a l ∈ R 1 × C

.该T_global在模型初始化时随机生成，其维度与T_local保持一致，并在训练过程中持续优化；随后，将两者沿特征维度进行拼接得到完整的特征表示T，再通过Transformer编码器的多头自注意力机制进行交互.该过程可表示为：

T l o c a l i = F l a t t e n (P i + φ b i c u b i c (P E)), i = 1,2, 3,4,

（11）

T = C o n c a t ([T g l o b a l, T l o c a l 1, T l o c a l 2, T l o c a l 3, T l o c a l 4]),

（12）

(ω g l o b a l, ω l o c a l) = φ t r a n s f o r m e r (T),

（13）

其中，

φ b i c u b i c (⋅)

表示双三次下采样操作，

F l a t t e n (⋅)

表示将多维张量转换为一维向量的过程.

ω g l o b a l ∈ R 1 × C

表示全局参数向量，该向量从输出的T_global中提取，整合了图像的全局信息.

ω l o c a l ∈ R H × W × C

表示局部参数图，该参数图由输出的T_local重塑而得，与最高多尺度参数图尺度保持一致，负责在局部像素层面精细化地表达特征.

1.4 全局-局部解析

本阶段通过双分支全局-局部解析器的协同作用预测查询坐标的像素值.给定查询坐标

(x i, y i)

，全局解析器直接基于全局参数向量ω_global预测像素值：

I g l o b a l = φ g l o b a l ((x i, y i); ω g l o b a l),

（14）

其中，

φ g l o b a l (⋅)

表示全局解析操作，I_global表示由全局解析器处理后得到的HR图像.接着通过插值操作从局部参数图ω_local中提取查询坐标对应的局部参数向量

ω l o c a l (x i, y i)

，局部解析器利用该参数预测像素值，该过程可表示为：

ω l o c a l (x i, y i) = φ i n t e r p (ω l o c a l, (x i, y i)),

（15）

I l o c a l = φ l o c a l ((x i, y i); ω l o c a l (x i, y i)),

（16）

其中，

φ i n t e r p (⋅)

表示插值操作，

φ l o c a l (⋅)

表示局部解析操作，I_local表示由局部解析器处理后得到的HR图像.在特征融合阶段，首先采用通道拼接的方式整合I_global和I_local，再通过1×1卷积进行跨通道特征重组以建立全局特征与局部特征的关联，最后利用3×3深度可分离卷积在局部邻域内进行空间特征细化，最终实现多层次特征的有效融合.该过程可表示为：

I H R = D W C o n v (C o n v (C o n c a t (I g l o b a l, I l o c a l))),

（17）

其中，

D W C o n v

表示3×3深度可分离卷积，I_HR表示最终重建的高分辨率图像.

双分支全局-局部解析器中全局解析器与局部解析器的网络结构完全相同，均采用了N层MLP结构，并通过正弦激活函数来捕捉图像的高频细节.具体来说，对于查询坐标s，全局解析器结合全局参数向量ω_global解析对应坐标的像素值；局部解析器结合局部参数向量

ω l o c a l (x i, y i)

解析对应坐标的像素值.因此，本文以全局解析器为例介绍具体工作原理.

全局解析器的原理框图如图3所示.首先，第一层MLP将坐标转化为特征.具体来说，将坐标s通过线性变换映射到高维空间，通过正弦激活函数引入高频表达能力.其中对输入的全局参数向量ω_global做线性变换，并通过ReLU激活函数生成调制参数m₁，用来调整正弦激活函数的相位，使网络能适应不同位置的信号特性.该过程可表示为：

m 1 = R e L U (w 1 m ω g l o b a l + b 1 m),

（18）

d 1 = s i n (w 1 d s + m 1),

（19）

其中，w₁^m 、w₁^d 和b₁^m 表示第一层线性变换的权重和偏置.

s i n (⋅)

表示正弦激活函数操作，d₁表示初始输出特征.其次，再通过（N－1）层MLP重复细化特征.经过第i层MLP时，对前一层的输出特征d_i－₁进行线性变换，加上调制参数m_i 后输入正弦激活函数，并残差连接前一层的输出特征d_i－₁保留原始信息，得到该层的输出特征d_i .其中将ω_global、前一层的调制参数m_i－₁和输出特征d_i－₁拼接作为输入，通过线性变换和ReLU激活函数，生成当前层调制参数m_i .该过程可表示为：

m i = R e L U (w i m C o n c a t ([ω g l o b a l, m i - 1, d i - 1]) + b i m),

（20）

d i = s i n (w i d d i - 1 + m i) + d i - 1,

（21）

其中，w_i^m 、w_i^d 和b_i^m 表示第i层线性变换的权重和偏置.后续层重复上述增强特征，最后通过线性变换将最后一层的输出特征映射到坐标s对应的像素值y：

y = w y d d N + b y d,

（22）

其中，w_y^d，b_y^d 表示线性变换的权重和偏置，d_N 表示最后一层的输出特征.

1.5 损失函数

本文使用L1损失函数，结合训练数据集对模型进行优化，具体的损失函数表达式如下：

L = 1 N ⋅ M ∑ i = 0 N ∑ j = 0 M I^H R (x i, y j) - I H R (x i, y j),

（23）

其中，

I^H R

表示模型生成的高分辨率图像，I_HR表示相应的原始高分辨率图像.

(x i, y j)

表示查询像素点的坐标，N和M分别表示图像的宽度和高度.

2 实验结果与分析

2.1 实验设置

2.1.1 数据集

采用UCMecred^［19］和AID^［20］两个公开遥感数据集进行性能验证.UCMerced数据集包含21类遥感场景，每类100张256 × 256像素图像，按6∶2∶2比例将每类图像划分为训练集、验证集和测试集.AID数据集包含30类场景，共10000张600 × 600像素图像，从中随机抽取2000张作为验证集.

2.1.2 实现细节

将Transformer编码器的输入输出通道维度设为256维.全局与局部解析器均采用5层MLP结构.训练开始前，对原始HR图像进行双三次下采样生成LR图像.在训练阶段，采用随机裁剪策略获取48×48的LR-HR图像块对，并通过随机旋转和水平翻转进行数据增强.网络优化采用AdamW优化器，并将损失函数设置为L1函数，初始学习率设置为1×10⁻⁴，并采用余弦退火策略进行动态调整.批量大小设置为8，共训练4000个epoch.实验在PyTorch框架下实现，使用两块NVIDIA GTX 1080Ti GPU，模型性能通过PSNR和SSIM指标进行量化评估.

2.2 对比实验

2.2.1 定量分析

为了验证本文方法的有效性，将其在不同放大倍数（2×-8×）下与现有先进连续放大SR方法作对比.为全面评估模型在连续尺度下的重建能力，本文遵循已有工作中常用的实验设置，将测试放大倍数划分为“分布内”与“分布外”两类；分布内是指训练阶段使用的放大倍数范围，而分布外是指训练中未出现的放大倍数，用于检验模型在未见尺度上的泛化能力.

如表1所示，本文方法在UCMerced数据集的多数放大倍数下均实现了最佳性能.以4×放大为例，采用EDSR编码器时，PSNR指标相较于DIINN、SADN和FunSR分别提升了0.27 dB、0.32 dB和0.17 dB，较其他对比方法有0.4 dB以上的性能优势.此外，尽管与次优方法FunSR在参数量上相当，本文方法的重建效果仍显著更优.从表2可以看出，在更大、场景更复杂的AID数据集上，本文方法同样在大多数放大倍数下保持最优性能.以2×放大为例，采用EDSR和RDN编码器时，PSNR分别较FunSR提升了0.03 dB和0.04 dB，进一步验证了其在复杂场景下的重建能力.

为进一步验证所提方法的有效性，分别对两个数据集上不同场景类别进行评估.如表3所示，在UCMerced数据集的21个类别中，4×放大任务下，本方法在所有类别上均取得了最优的PSNR/SSIM值.根据表4所示，针对更具挑战性的AID数据集，本方法在30个类别中的22个类别上表现最佳.

2.2.2 可视化结果分析

本小节通过视觉对比实验，将本文提出的方法与其他方法的重建结果进行比较，以进一步验证其有效性.图4展示了本文方法采用EDSR编码器时在不同放大倍数下的重建效果.第一行选用UCMerced测试集中包含大量密集车辆的“parkinglot_29”图像，具有典型的复杂背景干扰特征；第二行为AID测试集中的“school_47”图像，涵盖大型校园建筑与微小目标，具有大尺度跨度特性.结果表明，本文方法在各放大倍数下均保持优异的视觉质量，验证了其在复杂背景与大尺度场景中的重建能力.

图5和图6分别展示了UCMerced与AID数据集在4×放大任务下的定性对比结果.其中，airplane_11和bridge_252具有大尺度跨度特征，tenniscourt_93和square_19则包含复杂背景干扰.通过与现有方法的视觉比较，本文方法在重建质量上表现更优.

2.3 消融实验

2.3.1 不同组件的有效性

本节通过一系列消融分析来验证不同组件的有效性.所有实验都是在UCMerced数据集上开展，采用EDSR编码器架构，并保持一致的训练参数配置.设计了4个模型变体：仅保留基础特征提取模块，移除上下文注意力机制（CAM）、Transformer编码器和全局解析器，将此变体记为Base；在Base基础上增加CAM，将此变体记为Base+CAM；进一步集成Transformer编码器，将此变体记为Base+CAM+Trans；再引入全局解析器得到完整模型.

如表5所示，各组件对性能提升均具有显著贡献.在4×放大任务中，Base模型的PSNR为26.16 dB，引入CAM后PSNR提升至26.51 dB，说明该机制能有效增强局部特征提取能力；当加入Transformer编码器时，性能进一步提升至26.65 dB，验证了全局-局部上下文建模的重要性；加入全局解析器后，最终CTGI-ConSR达到26.77dB的最佳性能，表明全局-局部解析器策略能实现更优的特征融合.实验结果充分验证了各组件设计的合理性和必要性.

2.3.2 采用不同编码器的效果

如表1和表2所示，本文方法在采用不同编码器架构时均取得优异性能，且多数放大倍数下优于其他方法，验证了所提结构的鲁棒性.图7进一步展示了UCMerced数据集中图像building_65和AID数据集中图像railwaystation_12在不同编码器架构下的视觉重构效果.结果表明，编码器结构对重建图像的细节恢复能力和边缘清晰度具有显著影响，为实际应用中编码器的选择提供了参考.

3 结论

本文提出了一种基于全局-局部上下文交互的遥感图像连续超分辨率方法（CTGI-ConSR），通过协同优化全局语义一致性与局部细节保真度，显著提升了任意缩放倍数下的重建质量.通过引入动态注意力机制，自适应地挖掘局部邻域的多尺度纹理与结构特征，增强了高频信息的建模能力；基于Transformer编码器构建全局语义表征Token，通过跨尺度长程依赖建模捕捉全局上下文关联，建立空间-语义协同优化机制；设计双分支全局-局部解析器，分别从语义约束与细节回归维度实现坐标到像素值的精细化映射，兼顾结构一致性与高频细节的精准重建.在UCMerced和AID遥感数据集上的实验结果验证了本文方法在改善重构性能方面的有效性.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	QIU D， CHENG Y， WANG X. Medical image super-resolution reconstruction algorithms based on deep learning： A survey［J］. Computer Methods and Programs in Biomedicine， 2023， 238： 107590.

[2]	HSU W Y， YANG P Y. Pedestrian detection using multi-scale structure-enhanced super-resolution［J］. IEEE Transactions on Intelligent Transportation Systems， 2023， 24（11）： 12312-12322.

[3]	JIANG H， PENG M， ZHONG Y， et al. A survey on deep learning-based change detection from high-resolution remote sensing images［J］. Remote Sensing， 2022， 14（7）： 1552.

[4]	WANG P， BAYRAM B， SERTEL E. A comprehensive review on deep learning based remote sensing image super-resolution methods［J］. Earth-Science Reviews， 2022， 232： 104110.

[5]	CHEN K， LI W， LEI S， et al. Continuous remote sensing image super-resolution based on context interaction in implicit function space［J］. IEEE Transactions on Geoscience and Remote Sensing， 2023， 61： 4702216.

[6]	DONG C， LOY C C， HE K， et al. Image super-resolution using deep convolutional networks［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2016， 38（2）： 295-307.

[7]	ZEILER M D， KRISHNAN D， TAYLOR G W， et al. Deconvolutional networks［C］//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco： IEEE， 2010： 2528-2535.

[8]	SHI W， CABALLERO J， HUSZÁR F， et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network［C］//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Las Vegas： IEEE， 2016： 1874-1883.

[9]	HU X， MU H， ZHANG X， et al. Meta-SR： A magnification-arbitrary network for super-resolution［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Long Beach： IEEE， 2020： 1575-1584.

[10]	CHEN Y， LIU S， WANG X. Learning continuous image representation with local implicit image function［C］//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Nashville： IEEE， 2021： 8624-8634.

[11]	XU X， WANG Z， SHI H. UltraSR： Spatial encoding is a missing key for implicit image function-based arbitrary-scale super-resolution［J］. arXiv：

[12]	LIU Y T， GUO Y C， ZHANG S H. Enhancing multi-scale implicit learning in image super-resolution with integrated positional encoding［J］. arXiv：

[13]	LEE J， HWAN J. Local texture estimator for implicit representation function［C］//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. New Orleans： IEEE， 2022： 1919-1928.

[14]	CHEN H W， XU Y S， HONG M F， et al. Cascaded local implicit transformer for arbitrary-scale super-resolution［C］//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Vancouver： IEEE， 2023： 18257-18267.

[15]	CAO J， WANG Q， XIAN Y， et al. CiaoSR： Continuous implicit attention-in-attention network for arbitrary-scale image super-resolution［C］//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Vancouver： IEEE， 2023： 1796-1807.

[16]	WU H， NI N， ZHANG L. Learning dynamic scale awareness and global implicit functions for continuous-scale super-resolution of remote sensing images［J］. IEEE Transactions on Geoscience and Remote Sensing， 2023， 61： 5602315.

[17]	LI Y， YAO T， PAN Y， et al. Contextual transformer networks for visual recognition［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2023， 45（2）： 1489-1500.

[18]	WANG C Y， MARK LIAO H Y， WU Y H， et al. CSPNet： A new backbone that can enhance learning capability of CNN［C］//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops （CVPRW）. Seattle： IEEE， 2020： 1571-1580.

[19]	YANG Y， NEWSAM S. Bag-of-visual-words and spatial extensions for land-use classification［C］//Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems. San Jose California： ACM， 2010： 270-279.

[20]	XIA G S， HU J， HU F， et al. AID： A benchmark data set for performance evaluation of aerial scene classification［J］. IEEE Transactions on Geoscience and Remote Sensing， 2017， 55（7）： 3965-3981.