频率和空间特征融合的轻量级多尺度遥感图像场景分类网络

王威; 孙钰洁; 王新

doi:10.13229/j.cnki.jdxbgxb.20240054

吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (10) : 3361 -3371. DOI: 10.13229/j.cnki.jdxbgxb.20240054

计算机科学与技术

频率和空间特征融合的轻量级多尺度遥感图像场景分类网络

作者信息 +

Lightweight frequency and spatial feature fused multi-scale remote sensing scene classification network

Author information +

文章历史 +

PDF (2723K)

摘要

针对遥感图像分类任务中土地覆盖物尺寸和空间组合多种多样、类间相似性高和类内差异性大的问题，从特征的有效提取和多尺度特征的充分融合出发，设计了一种频率和空间特征融合的轻量级多尺度遥感图像场景分类网络（FS-LMFFNet）。首先，为了结合卷积神经网络（CNN）和Transformer的优点，实现局部和全局特征的充分提取，提出了一种频率和空间多层感知机模块（FS-MLP），该模块通过引入频域分析，补充了传统空间操作在提取全局高频纹理特征方面的不足。其次，针对遥感场景图像的多尺度特性，提出了一种轻量级多层特征融合模块（LMFF），该模块采用轻量级卷积块对前3个阶段的多尺度特征进行有效的融合。最后，基于FS-MLP和LMFF模块构建的FS-LMFFNet在3个公开数据集UC_Merced、RSSCN7和AID上进行实验，准确率分别达到99.10%、96.60%和95.48%。实验结果表明，本文提出的FS-LMFFNet能更好地提取和融合多尺度特征，从而取得优于其他先进模型的性能。

Abstract

To address the issues of diverse land cover sizes and spatial combinations， as well as significant interclass similarity and intraclass variability in remote sensing image classification tasks， a lightweight frequency and spatial feature fused multi-scale remote sensing scene classification network（FS-LMFFNet） is proposed， based on the purpose of effective feature extraction and full integration of multi-scale features. Firstly， to combine the advantages of CNN and Transformer， and achieve an adequate extraction of local and global features， a Frequency and Spatial MLP module（FS-MLP） is proposed， which complements traditional spatial operations in extracting global high-frequency texture features by introducing frequency domain analysis. Secondly， to resolve the multi-scale characteristics of remote sensing scene images， a Lightweight Multi-layer Feature Fusion（LMFF） module is proposed， in which lightweight convolutional blocks are employed to efficiently fuse the multi-scale features in the first three stages. Finally， FS-LMFFNet has been extensively experimented on three publicly available datasets UC_Merced， RSSCN7 and AID datasets and yielded remarkable accuracies of 99.10%， 96.60% and 95.48%， respectively. Experimental results demonstrate the superior multi-scale feature extraction and fusion capability of FS-LMFFNet， which achieves better performance than other state-of-the-art models.

Graphical abstract

关键词

遥感图像 / 深度学习 / 卷积神经网络（CNN） / 快速傅里叶变换（FFT） / 多尺度特征融合

Key words

remote sensing images / deep learning / convolutional neural network（CNN） / fast Fourier transform（FFT） / multi-scale feature fusion

引用本文

引用格式 ▾

[Author(id=1273335576662426075, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, orderNo=0, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=wangwei@csust.edu.cn, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1273335576721146336, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, authorId=1273335576662426075, language=EN, stringName=Wei WANG, firstName=Wei, middleName=null, lastName=WANG, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Computer and Communication Engineering，Changsha University of Science and Technology，Changsha 410114，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273335576763089380, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, authorId=1273335576662426075, language=CN, stringName=王威, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=长沙理工大学计算机与通信工程学院，长沙 410114, bio={"content":"

王威（1974-），男，教授，博士. 研究方向：智能信息处理.E-mail： wangwei@csust.edu.cn

"}, bioImg=null, bioContent=

王威（1974-），男，教授，博士. 研究方向：智能信息处理.E-mail： wangwei@csust.edu.cn

, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273335576591122898, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, xref=null, ext=[AuthorCompanyExt(id=1273335576607900117, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, companyId=1273335576591122898, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=School of Computer and Communication Engineering，Changsha University of Science and Technology，Changsha 410114，China), AuthorCompanyExt(id=1273335576620483030, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, companyId=1273335576591122898, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=长沙理工大学计算机与通信工程学院，长沙 410114)])]), Author(id=1273335576805032423, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, orderNo=1, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1273335576867946989, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, authorId=1273335576805032423, language=EN, stringName=Yu-jie SUN, firstName=Yu-jie, middleName=null, lastName=SUN, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Computer and Communication Engineering，Changsha University of Science and Technology，Changsha 410114，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273335576909890031, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, authorId=1273335576805032423, language=CN, stringName=孙钰洁, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=长沙理工大学计算机与通信工程学院，长沙 410114, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273335576591122898, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, xref=null, ext=[AuthorCompanyExt(id=1273335576607900117, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, companyId=1273335576591122898, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=School of Computer and Communication Engineering，Changsha University of Science and Technology，Changsha 410114，China), AuthorCompanyExt(id=1273335576620483030, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, companyId=1273335576591122898, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=长沙理工大学计算机与通信工程学院，长沙 410114)])]), Author(id=1273335576972804599, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, orderNo=2, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=wangxin@csust.edu.cn, emailSecond=null, emailThird=null, correspondingAuthor=1, authorType=1, ext={EN=AuthorExt(id=1273335577031524861, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, authorId=1273335576972804599, language=EN, stringName=Xin WANG, firstName=Xin, middleName=null, lastName=WANG, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Computer and Communication Engineering，Changsha University of Science and Technology，Changsha 410114，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273335577077662208, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, authorId=1273335576972804599, language=CN, stringName=王新, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=长沙理工大学计算机与通信工程学院，长沙 410114, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273335576591122898, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, xref=null, ext=[AuthorCompanyExt(id=1273335576607900117, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, companyId=1273335576591122898, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=School of Computer and Communication Engineering，Changsha University of Science and Technology，Changsha 410114，China), AuthorCompanyExt(id=1273335576620483030, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273335574875652410, companyId=1273335576591122898, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=长沙理工大学计算机与通信工程学院，长沙 410114)])])] 王威,孙钰洁,王新. 频率和空间特征融合的轻量级多尺度遥感图像场景分类网络[J]. 吉林大学学报(工学版), 2025, 55(10): 3361-3371 DOI:10.13229/j.cnki.jdxbgxb.20240054

登录浏览全文

4963

注册一个新账户忘记密码

0 引　言

遥感图像场景分类是根据图像内容推断出正确的类别，近年来随着成像技术的发展而迅速发展^［1］。遥感图像场景分类是遥感领域的基础研究方向，可用于城市规划、土地资源管理、农业、林业等。然而，与自然图像中物体占据大部分空间不同，遥感场景图像中通常包含尺寸多样的目标，且存在类间相似性高和类内差异性大的问题，使场景分类任务具有挑战性。因此，如何学习具有强辨别力的鲁棒特征表示对遥感图像场景分类至关重要。

在过去的几十年间出现了大量的方法提高遥感图像场景分类性能。早期的场景分类方法主要采用基于研究人员手工设计的低级特征，如灰度值^［2］、平均值^［3］和马尔可夫随机场（MRF）模型^［4］等进行分类，但其对深层语义的抽象能力不足，限制了这些方法在具有挑战性的场景下的适用性。

卷积神经网络（Convolutional neural networks， CNN）通过多个卷积层的叠加和池化层捕获局部表征。自2012年AlexNet^［5］提出以来，CNN在计算机视觉领域得到迅速发展。得益于其捕获深度和抽象特征表示的能力，非常适合处理遥感图像中的空间结构化数据。然而，由于卷积核大小的限制，CNN的感受野有限，缺乏获得长期依赖的能力，不利于捕获遥感图像复杂的多尺度内容^［6］。RepLKNet^［7］和VAN^［8］利用大卷积核弥补局部感受野的缺陷，但效果仍然有限。

近年来，运用于自然语言处理设计的转换器（Transformer）^［9］架构被引入图像分类领域，解决了局部感受野的问题。视觉转换器（Vision transformer，ViT）^［10］将图像分割成小块（patch），并将这些patch的线性嵌入作为自注意力模块（MSA）的输入，从而获得全局感受野。文献［11］将ViT模型应用于遥感场景分类，获得了良好的分类效果。然而，ViT仍然有一些缺点。首先，MSA只学习单一尺度的全局信息，限制了对具有复杂的多尺度空间结构的遥感场景特征的探索。其次，由于MSA操作，Transformer的计算复杂度较高。

最近，一些基于MetaFormer^［12］的方法尝试通过将Transformer中的多头自注意力块替换为精心设计的令牌混合器（Token mixer），以结合CNN和Transformer的优点，并展示了优异鼓舞的效果。ADC-CDANet^［13］具有很好的全局特征和局部特征提取能力，文献［14］提出了一种二维特征表示的二维特征表示（Bidimensional feature representation，BFR）块，在提取空间域全局和局部特征的同时，还融合了通道信息。但这些方法只提取网络最后一层的全局图像级特征用于遥感场景分类，忽略了局部对象级特征，限制了场景分类精度的进一步提升。

在本文中引入频域分析，根据傅里叶变换的频域卷积定理，频域中逐点更新会影响傅里叶变换所涉及的全局特征，可以用来弥补卷积等空间操作在下采样过程中导致高频细节信息的丢失，以构建与MSA相同的全局感受野的神经结构^［15］。此外，快速傅里叶变换（FFT），比MSA的计算效率更高。因此，从空间和频域提取特征的令牌混合器是将CNN和Transformer的优点相结合的有效方法。

随着深度学习网络层数的不断加深，提取到的特征具有不同的特征尺度和语义层次。低层特征通常包含一些浅层信息，如颜色和位置，中间层通常是单个对象，而高层则表示整个场景的语义信息。对于遥感图像场景分类任务，因为遥感图像的土地覆盖物尺寸和空间组合复杂，只考虑全局特征可能出现将背景当成关键特征，导致分类错误的情况，因此需要综合考虑不同层之间的上下文相关性。最近的一些方法（如SAFF^［16］、GLFFNet^［17］），将多层特征简单相加聚合它们之间丰富的上下文信息，这会带来对象大小和位置的混乱。

根据上述分析，为了实现高质量的场景分类，需要解决两个问题：特征的有效提取和多尺度特征的充分融合。针对上述问题，本文提出了一种基于频率和空间特征的多尺度遥感场景分类网络（FS-LMFFNet）。本文的主要贡献如下：

（1）为了结合CNN和Transformer的优势，实现局部和全局特征的充分提取，设计了一种频率和空间多层感知机模块（Frequency and spatial MLP， FS-MLP）。该模块运用深度卷积对图像的空间信息建模，采用可学习的全局滤波器补充卷积等空间操作丢失的全局高频纹理特征，通过多层感知机对空间和频率信息进行整合。

（2）为了解决遥感场景图像的多尺度的问题，提出了一种轻量级多层特征融合模块（Lightweight muti-layer feature fusion， LMFF）。该模块利用两个沙漏-位置注意力块对前3个阶段提取的不同特征尺度和语义层次的上下文特征进行有效融合。

（3）基于FS-MLP模块和LMFF模块设计遥感图像场景分类模型FS-LMFFNet。在RSSCN7、UC-Merced和AID数据集上的实验结果表明，FS-LMFFNet优于其他先进模型。

1 模型结构设计

1.1　频率和空间多层感知机模块(FS-MLP)

遥感图像场景分类的最终效果很大程度上取决于特征提取的能力。当前的很多网络都是在图像的原始空间域对局部特征进行提取，但空间域的卷积、池化等操作会造成高频纹理细节的丢失。为了解决这一问题，本文在遥感图像场景分类中引入频域特征，在频域中学习全局像素之间的相互作用。

遵循MetaFormer的范式，本文设计了频率和空间多层感知机模块，它由频率和空间令牌混合器（Frequency and spatial token mixer， FSTM）和多层感知机（Multilayer perceptron， MLP）组成。MLP由两个全连接层和GELU^［18］激活层组成。FS-MLP的结构如图1（a）所示，公式如下：

C i' = F S T M L N C i + C i

（1）

P i = M L P L N C i' + C i'

（2）

式中：

i = 1 、 2 、 3

；

C i

为FS-MLP的输入；

P i

为FS-MLP的输出；LN表示层归一化（Layer normalization）。

FSTM的架构如图1（b）所示。设FSTM的输入为

x i n ∈ R h × w × c

。首先，采用1×1卷积将输入特征的通道变为

3 c / 2

，然后将其分割成3个平行支路

x 1 、, x 2 、 x 3 ∈ R h × w × c / 2

，3个支路的操作如下：

（1）空间分支：采用7×7深度卷积分支提取空间信息。采用7×7的大卷积核可以获得更大的感受野，而深度卷积更关注空间维度的信息。

f s = D W c o n v 7 x 1

（3）

（2）频率分支：采用频域的可学习全局滤波器学习全局像素之间的相互作用。

f f = G F l a y e r (x 2)

（4）

全局滤波器的流程如图1（c）所示。频域全局可学习滤波器的运算过程如下：

应用二维快速傅里叶变换将输入张量转移到频率域：

R e a l F F T 2 d : R h × w × (c / 2) → R h × (w / 2) × (c / 2)

将实部和虚部连接起来，形成特征张量的额外维度。至此，得到所有空间位置对应于不同频率分量的频率表示：

C o m p l e x T o R e a l : R h × (w / 2) × (c / 2) → R h × (w / 2) × c

为了提取有用的特征并改进频域表示，对频率表示进一步处理为采用可学的权重矩阵

K ∈ C h × w × c / 2

与全局特征相乘：

K ⊙ ℱ x 2 : R h × (w / 2) × c → R h × (w / 2) × c

最后，通过逆傅里叶变换将处理后的频率表示转移回原始空间域：

R e a l T o C o m p l e x : R h × (w / 2) × c → C h × (w / 2) × c

I n v e r s e R e a l F F T 2 d : C h × (w / 2) × c → R h × w × (c / 2)

全局滤波器可以解释为一个捕捉频域关系的深度全局圆卷积，其滤波器大小随着输入特征的大小自适应地变化。同时，得益于快速傅里叶变换，它还十分高效。

（3）原始分支：第三条分支保留了原始特征。

f i = x 3

（5）

不同于简单地将3个分支相加，通过MLP和Softmax激活函数计算3条支路的权重。利用这些步骤，可以互补地将频率特征、空间特征和原始特征进行整合，实现更好的全局和局部场景理解和泛化能力。权重计算公式如下所示：

W = S o f t m a x M L P G A P f s + f f + f i

（6）

式中：GAP为全局平均池化；

W ∈ R 3 × 1 × 1 × c / 2

为3个分支的权重矩阵。重加权后的f为：

f = f s × W 0 + f f × W 1 + f i × W 2

（7）

最后，采用1×1卷积将f的通道恢复到

x o u t ∈ R h × w × c

。

1.2　轻量多层特征融合模块(LMFF)

不同于自然图像分类，遥感图像的地物组成复杂、多尺度性质突出。同时，网络不同深度的特征存在本质的语义差异，对不同层次的上下文进行聚合和对齐可以缓解网络对特征大小的混淆，充分利用不频繁出现的特征。因此，将前3个阶段的输出特征图

F 1 ∈ R H / 4 × W / 4 × 64

、

F 2 ∈ R H / 8 × W / 8 × 96

，

F 3 ∈ R H / 16 × W / 16 × 128

进行池化操作，以获得统一的

H / 32 × W / 32

大小的特征图：

G 1 = M a x P 88 F 1

（8）

G 2 = M a x P 44 F 2

（9）

G 3 = M a x P 22 F 3

（10）

式中：

M a x P a b

为最大池化，步长为a，核大小为b。选择最大池化而不是平均池化，因为它保留了更多的细节，如边缘和纹理。然后将池化后的特征级联，通过1×1卷积，形成特征图

G ∈ R H / 32 × W / 32 × 288

：

G = C o n v 1 [c o n c a t (G 1, G 2, G 3)]

（11）

为了最大限度地利用多尺度特征，采用了两个沙漏-位置注意力块（Sandglass-CA block）进行多尺度特征融合，如图1（e）所示。不同于逆残差块^［19］在两个1×1卷积之间引入深度卷积，沙漏块^［20］在高维度上进行残差映射和深度卷积空间计算，避免1×1卷积导致的空间信息丢失。此外，所有卷积后都有批标准化（Batch normalization， BN）^［21］，激活函数ReLU6仅加在第一个深度卷积与最后一个用于升维的1×1卷积之后，在用于降维的1×1卷积和最后一个深度卷积后不添加激活函数，这是为了避免特征出现零化现象，进而导致信息损失。

坐标注意力^［22］（Coordinate attention， CA），如图2所示。它将通道注意力分解为两个一维特征编码过程，分别沿两个空间方向聚合特征。通过这种方式，可以沿一个空间方向捕获远程依赖关系，同时可以沿另一个空间方向保留精确的位置信息。然后将得到的特征图单独编码成一对方向感知和位置敏感的注意力图，可以将不同语义层次中相同或位置的特征进行对齐。

1.3　FS-LMFFNet

针对遥感图像纹理信息丰富和整体结构复杂的特点，基于FS-MLP和LMFF，设计了一种遥感图像场景分类模型FS-LMFFNet。其结构如表1所示。

FS-LMFFNet包括3个阶段，每个阶段由下采样模块和n个FS-MLP模块。第一阶段的下采样操作用于将图像分割为令牌，称为Tokenizer，包括一个步幅为1的3×3卷积、BN、ReLU激活函数和步幅为2的最大池化。其他两个阶段的下采样操作是一个步幅为2的3×3卷积，因为重叠窗口可以保留更多的空间交集。将3个阶段的输出

F 1 、 F 2 、 F 3

，输入LMFF，并以（H/32）×（W/32） ×288的大小输出。最后一步的分类器包括归一化、全局池化和全连接层。

2 实验结果处理与分析

2.1　数据集处理

为了评估FS-MLFFNet的有效性，本文在3个主流的遥感图像场景分类数据集上进行了实验。

（1） UC_Merced土地利用数据集^［23］（UC_Merced）

该数据集中有2 100张图像，为21个场景类别。每个类由100张图像组成，大小为256×256像素。像素空间分辨率为0.3 m。该数据集的示例如图3所示。

（2） RSSCN7遥感图像数据集^［24］（RSSCN7）

该数据集包含7个类别中的2 800张图像。每个类由400张的图像组成。每个空间图像的大小为400×400像素。

（3） Aerial Image dataset航空图像数据集^［25］（AID）

该数据集包含30类场景的10 000张图像。每个类由220到420张图像组成。每个图像的大小为600×600像素。AID的像素分辨率从大约8 m变化到大约1/2 m，具有很强的多尺度特性。

为了将实验数据的大小统一，在训练之前，将RSSCN7、UC-Merced和AID数据集中的图像裁剪为224×224像素的大小。然后，将每个数据集中的图像随机分成80%用于训练和20%用于测试。数据扩充仅在训练集上执行，包括随机翻转（水平、垂直）和旋转45°。

2.2　实验配置

实验采用计算机图像分类任务中常用的评价标准，即采用参数量（Parameters，Param）、浮点运算次数（Floating point operations， FLOPs）作为模型复杂度的评价指标，采用准确率（Accuracy）作为模型性能的评价标准。设模型预测正确的正样本数量为

T P

，预测错误的正样本数为

F N

，预测正确的负样本数为

T N

，预测错误的负样本数为

F P

，准确率的计算公式如下：

A c c u r a c y = T P + T N T P + T N + F P + F N

（12）

本文所有实验都基于配备NVIDIA A10 GPU的服务器，使用Pytorch 1.3深度学习框架完成。使用AdamW优化器，学习率设置为0.000 5，个别模型如SwinTransformer、GFNet的学习率需要另作调整时将其置为0.000 1。训练集和测试集的批尺寸（Batch size）设置为16。采取的损失函数为标签平滑损失函数LabelSmoothSoftmaxCEV2。为了寻找合适的训练迭代次数（epoch），统计了FS-LMFFNet在3个数据集上的训练损失值，结果如图4所示。当迭代次数为300~350时，所有模型都收敛。将迭代次数设置为400，是为了多一些训练次数使训练更稳定。此外，为了获得稳定的结果，对所有网络进行了5次重复实验，计算平均场景分类准确率（ACC）和标准差（STD）作为最终的总体准确率。

2.3　消融实验

为评估每个模块的有效性，本文在UC_Merced数据集上对FS-LMFFNet进行消融实验。

2.3.1　FS-MLP的消融实验

FS-MLP的关键组件为FSTM，它通过MLP学习3条分支的权重。因此，本文对3条分支和MLP权重计算进行了消融实验，结果如表2所示。

当去掉3条分支的任何一条后，网络的性能都有所下降。特别是当将频域分支去掉时准确率显著降低0.74%。这说明，从频域分析中提取的全局高频信息对场景分类任务是至关重要的，虽然频域分支带来一定的参数量，但这是可以接受的。将空间分支删除之后，网络的准确率降低0.48%，这表明，大卷积核深度卷积是一种非常有效的建模空间信息的方法。

此外，将深度卷积的卷积核大小设置为3后，相比于没有空间信息的情况，此时网络性能提升0.1%，而与卷积核大小为7的性能还是有0.38%的差距，这证明了增加卷积核的大小可以获得更大的感受野，实现捕获更多尺度的空间信息的目的。将原始分支删除后，网络性能降低0.24%，说明原始信息应该被保留。此外，将计算3条支路权重的MLP删除，改为将3条支路简单相加，此时准确率为98.50%。

2.3.2　LMFF的消融实验

在LMFF中通过不同池化核大小的池化层将前3个阶段的输出转换为同一尺寸后，输入沙漏-坐标注意力模块进行多尺度特征聚合。因此，本文评估了不同的下采样策略和多尺度特征聚合方法对遥感图像场景分类的影响。

不同的下采样策略消融实验结果如表3所示。首先，将池化核的大小设为恒定的2，此时

F 1 、 F 2

的步距大于池化核的大小，下采样时无法获取特征图的全部信息，所以网络的性能下降了0.4%。其次，将LMFF的输入变为

F 3

，此时采用步幅为2的3×3卷积下采样块进行下采样，网络性能降低了0.94%。这证明了对多尺度特征进行聚合的重要性。

此外，本文还评估了不同的融合策略对场景分类的影响，结果如表4所示。首先，使用本文提出的FS-MLP进行多尺度特征聚合，相比于沙漏-坐标注意力模块，准确率下降了0.68%，这是因为在经过3个阶段的FS-MLP之后网络对特征的提取已经饱和，所以在网络的最后一个阶段的任务主要是多尺度特征的聚合，此时再使用FS-MLP是冗余的，还会带来更多的计算开销。其次，评估了位置注意力对分类效果的影响，插入位置注意力后网络的性能提升了0.12%。

2.4　对比实验

为了验证FS-LMFFNet的有效性，在本节中设置3类对照实验。第一类包含基于CNN的自然图像分类网络；第二类包括基于MetaFormer架构的自然图像分类模型；第三类是遥感图像场景分类方法。为保证实验结果公平，所有的方法都在没有经过预训练的条件下进行实验。

由表5可知，与上述方法相比，FS-LMFFNet的参数量是最小的，计算量仅高于3个轻量级的分类网络。特别是与其他遥感图像场景分类方法相比，FS-LMFFNet的参数量和计算量都非常低。FS-LMFFNet在UC_Merced、RSSCN7和AID数据集上的准确率分别为99.10%、96.60%、95.48%，除准确率高外，FS-LMFFNet的标准差也较低，这表明本文的网络性能更加稳定。

基于CNN的方法比一些基于MetaFormer的方法准确率更高，是因为CNN的局部特征提取能力更适合目标尺寸多样的遥感图像数据，而Swin Transformer^［26］等方法更适用于数据集样本数量较大的任务。2023年提出的Strip-MLP^［27］有效地增强了令牌交互和局部令牌聚合能力，Strip-MLP较高的准确率也验证了多尺度特征提取的重要性。此外，遥感图像场景分类方法的准确率比自然图像分类方法的准确率普遍要高，得益于它们在网络结构设计时考虑了遥感图像的多尺度特性。但SAFF^［16］的骨干网络为较原始的VGG16^［28］，导致其性能较低。

UC_Merced数据集通过聚合密集特征生成全局图像表示，FS-LMFFNet通过对频率和空间特征的提取和分析，获得比EMTCAL的准确率高0.32%的结果。虽然RSSCN7数据集只有7类，但是其训练样本较少，且类间相似性高和类内差异性大，这增加了分类的难度。得益于FS-LMFFNet中的频率和空间多层感知机能够从频域和空间域互补地对特征进行提取，其在RSSCN7数据集上的分类准确率为96.60%，与分类效果较好的EMTCAL和Strip-MLP相比，准确率高1.28%。AID数据集的图像像素分辨率变化较大，多尺度特性明显。尽管分类难度较大，FS-LMFFNet对前3个阶段提取的不同特征尺度和语义层次的上下文特征进行了有效融合。最终得到比RaNet的准确率高0.1%的实验结果，而RaNet的参数量是FS-LMFFNet的6倍。综上所述，FS-LMFFNet较其他方法具有更高的效率和更好的分类准确率，更适应于数据规模较小、多尺度特性明显的场景。

2.5　可视化

为了进一步研究不同场景类别的分类效果，绘制了AID数据集中准确率最高的一次实验结果的混淆矩阵，如图5所示。在AID数据集的30个类别中，有14个类别的分类准确率较高（≥98%），对于“篮球场”“森林”“草地”“山地”和“河流”等具有明显判别特征的类别，FS-LMFFNet的分类准确率达到100%。对于一些类间差异较小的类，如“密集住宅”（94%）、“中等住宅”（97%）、“稀疏住宅”（100%），土地覆盖物相似但密度不同，得益于从频域对目标出现的频率分析，FS-LMFFNet可以对建筑物出现频率进行分析，从而做出较为准确的判断。主要的混淆发生在“公园”和“度假村”，是因为两个类别土地覆盖物（如游乐设施、绿化带）种类相同、空间分布相似，极大地提高了分类难度。尽管如此，FS-LMFFNet获得较有竞争力的结果。

此外，本文通过GradCAM^［36］绘制热力图进行可视化网络做出判断所关注的区域，如图6所示，从上到下分别是原始图像和不同网络的热力图。可以看出，基于CNN的ResNet倾向于关注特定对象，而基于Transformer的SwinTransformer和使用全局滤波器的GFNet更关注全局特性。相比之下，FS-LMFFNet可以更准确地聚焦于显著的物体，同时保持全局感知的能力。特别是在第一列中，FS-LMFFNet的热力图对河流做出准确的定位，而其他方法有的只关注到河流的局部，有的没有关注到具体目标。这进一步解释了为什么FS-LMFFNet在3个数据集中都能达到最好的结果。

3 结束语

针对遥感图像土地覆盖物尺寸和空间组合多种多样、类间相似性高和类内差异性大的特点，本文从特征的有效提取和多尺度特征的充分融合出发，提出了频率和空间特征融合的多尺度遥感场景分类网络（FS-LMFFNet）。本文通过引入频域分析，结合CNN和Transformer的优点，构建了频率和空间多层感知机模块。同时，为了解决遥感场景图像的多尺度问题，提出了一种轻量级多层特征融合模块。在3个基准测试上的实验结果表明，本文所提出的FS-LMFFNet能为遥感图像场景分类带来显著的性能改进，而且具有更低的计算复杂度。然而，当遥感图像土地覆盖物种类相同、分布相似时，很难提高分类精度。下一步工作将进一步探索其他的频域特征提取方法，如小波变换等，进一步提高模型的表征能力，从而提高遥感图像场景分类的精度。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	徐从安, 吕亚飞, 张筱晗, 等. 基于双重注意力机制的遥感图像场景分类特征表示方法[J]. 电子与信息学报, 2021, 43(3): 683-691.

[2]	Xu Cong-an, Ya-fei Lyu, Zhang Xiao-han, et al. A discriminative feature representation method based on dual attention mechanism for remote sensing image scene classification[J]. Journal of Electronics & Information Technology, 2021, 43(3): 683-691.

[3]	Morell-Monzó S, Sebastiá-Frasquet M T, Estornell J. Land use classification of VHR images for mapping small-sized abandoned citrus plots by using spectral and textural information[J]. Remote Sensing, 2021, 13(4): No.681.

[4]	Liang S, Cheng J, Zhang J. Maximum likelihood classification of soil remote sensing image based on deep learning[J]. Earth Sciences Research Journal, 2020, 24(3): 357-365.

[5]	Fatemighomi H S, Golalizadeh M, Amani M. Object-based hyperspectral image classification using a new latent block model based on hidden Markov random fields[J]. Pattern Anal Applic, 2022, 25: 467-481.

[6]	Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[7]	Dai J, Qi H, Xiong Y, et al. Deformable convolutional networks[C]∥Proceedings of the IEEE International Conference on Computer Vision(ICCV), Venice, Italy, 2017: 764-773.

[8]	Ding X, Zhang X, Han J, et al. Scaling up your kernels to 31×31: revisiting large kernel design in CNNs[C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR), New Orleans, Louisiana, USA,2022: 11953-11965.

[9]	Guo M H, Lu C Z, Liu Z N, et al. Visual attention network[J]. Computational Visual Media, 2022, 9(4):733-752.

[10]	Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]∥Proceedings of 31st Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 6000-6010.

[11]	Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. [2022-10-18].

[12]	Bazi Y, Bashmal L, Rahhal M M A, et al. Vision transformers for remote sensing image classification[J]. Remote Sensing, 2021, 13(3): No. 516.

[13]	Yu W H, Luo M, Zhou P, et al. Meta former is actually what you need for vision[C]∥Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 10809-10819.

[14]	王威, 李希杰, 王新. ADC-CPANet: 一种局部-全局特征融合的遥感图像分类方法[J]. 遥感学报, 2024, 28(10): 2661-2672.

[15]	Wang Wei, Li Xi-jie, Wang Xin. ADC-CPANet:a remote sensing image classification method based on local-global feature fusion[J]. National Remote Sensing Bulletin, 2024, 28(10): 2661-2672.

[16]	Wang W, Hu T, Wang X, et al. BFRNet: bidimensional feature representation network for remote sensing images classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-13.

[17]	Huang Z, Zhang Z, Lan C, et al. Adaptive frequency filters as efficient global token mixers[EB/OL].[2023-03-22].

[18]	Cao R, Fang L, Lu T, et al. Self-attention -based deep feature fusion for remote sensing scene classification[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18(1): 43-47.

[19]	王威, 邓纪伟, 王新, 等. 面向遥感图像场景分类的GLFFNet模型[J]. 测绘学报, 2023, 52(10): 1693-1702.

[20]	Wang Wei, Deng Ji-wei, Wang Xin, et al. GLFFNet model for remote sensing image scene classification[J]. Acta Geodaetica ET Cartographica Sinica, 2023, 52(10): 1693-1702.

[21]	Hendrycks D, Gimpel K. Gaussian error linear units (GELUs)[EB/OL]. [2024-01-10].

[22]	Sandler M, Howard A, Zhu M L, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA,2018:4510-4520.

[23]	Zhou D, Hou Q, Chen Y, et al. Rethinking bottleneck structure for efficient mobile network design[J]. In Computer Vision-ECCV 2020, Lecture Notes in Computer Science, 2020, 12348: 680-697.

[24]	Sergey I, Christian S. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]∥Proceedings of the 32nd International Conference on Machine Learning, Lille, France, 2015:448-456.

[25]	Hou Q, Zhou D, Feng J. Coordinate attention for efficient mobile network design[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Montreal, Canada,2021: 13713-13722.

[26]	Yang Y, Shawn N. Bag-of-visual-words and spatial extensions for land-use classification[C]∥Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems, San Jose California, USA, 2010: 270-279.

[27]	Zou Q, Ni L H, Zhang T, et al. Deep learning based feature selection for remote sensing scene classification[J]. IEEE Geoscience and Remote Sensing Letters, 2015, 12(11): 2321-2325.

[28]	Xia G S, Hu J, Hu F, et al. AID: a benchmark data set for performance evaluation of aerial scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7): 3965-3981.

[29]	Liu Z, Lin Y, Cao Y, et al. Swin transformer: hierarchical vision transformer using shifted windows[C]∥ IEEE/CVF International Conference on Computer Vision(ICCV), Montreal, Canada, 2021: 10012-10022.

[30]	Cao G, Luo S, Huang W, et al. Strip-MLP: efficient token interaction for vision MLP[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), Paris, France,2023: 1494-1504.

[31]	Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL].[2023-03-18].

[32]	He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770-778.

[33]	Qin Z, Zhang P, Wu F, et al. FcaNet: frequency channel attention networks[C]∥Proceedings of the IEEE International Conference on Computer Vision, Xi'an, China, 2020: 763-772.

[34]	Rao Y, Zhao W, Zhu Z, et al. Global filter networks for image classification[J]. Advances in Neural Information Processing Systems, 2021, 2: 980-993.

[35]	Tang Y, Han K, Guo J, et al. An image patch is a wave: phase-aware vision MLP[EB/OL].[2023-03-18].

[36]	Li J, Hassani A, Walton S, et al. ConvMLP: Hierarchical Convolutional MLPs for Vision[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, Vancouver,Canada, 2023: 6307-6316.

[37]	Wang X, Duan L, Ning C, et al. Relation-attention networks for remote sensing scene classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2022, 15: 422-439.

[38]	Tang X, Li M, Ma J, et al. EMTCAL: efficient multiscale transformer and cross-level attention learning for remote sensing scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-15.

[39]	Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM: visual explanations from deep networks via gradient-based localization[C]∥Proceedings of 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 618-626.

基金资助

国家重点行动计划项目(6240XXX0206)

国防科技创新特区项目(2019XXXX0701)

湖南省重点研究开发项目(2020SK2134)

湖南省自然科学基金项目(2019JJ80105)

湖南省自然科学基金项目(2022JJ30625)

长沙市科技计划项目(kq2004071)

AI Summary AI Mindmap

PDF (2660KB)

访问

被引

详细

导航

Received	Accepted	Published
2024-01-15
Issue Date
2026-06-15

摘要

Abstract

Graphical abstract

关键词

Key words

引用本文

0 引 言

1 模型结构设计

1.1 频率和空间多层感知机模块(FS-MLP)

1.2 轻量多层特征融合模块(LMFF)

1.3 FS-LMFFNet

2 实验结果处理与分析

2.1 数据集处理

2.2 实验配置

2.3 消融实验

2.3.1 FS-MLP的消融实验

2.3.2 LMFF的消融实验

2.4 对比实验

2.5 可视化