基于ViT-CNN特征增强的图像超分辨率

高志荣 ,  孙清清 ,  熊承义 ,  李帆 ,  郑瑞华

中南民族大学学报(自然科学版) ›› 2025, Vol. 44 ›› Issue (02) : 253 -259.

PDF (1800KB)
中南民族大学学报(自然科学版) ›› 2025, Vol. 44 ›› Issue (02) : 253 -259. DOI: 10.20056/j.cnki.ZNMDZK.20250215
物理与电子信息科学

基于ViT-CNN特征增强的图像超分辨率

作者信息 +

Image super-resolution based on feature enhancement with ViT-CNN

Author information +
文章历史 +
PDF (1842K)

摘要

卷积神经网络(CNN)可以提取图像的局部相关特征,视觉Transformer(ViT)则侧重于捕获图像的远距离依赖关系,二者有效结合能够改进图像的重构质量.研究了一种基于ViT-CNN特征增强的图像超分辨率(SR)网络.具体来说,网络包含了基于ViT的SR分支与基于CNN的梯度分支,SR分支主要用于提取图像特征域中的全局相关性,而梯度分支则专注于图像梯度域中的局部依赖关系.通过对两种信息的融合与渐进增强,获得高倍放大的重构图像.此外,在网络的学习阶段引入了梯度损失及渐进训练策略,有效降低了网络的训练难度并增强了训练的稳定性.在多个公开数据集上的大量实验结果验证了所提方法在改善重构系统性能方面的有效性.

Abstract

The effective combination of Convolution Neural Network (CNN) which extract the local correlation features of images and Vision Transformer (ViT) which focuses on capturing the remote dependence of images can improve the quality of image reconstruction. A network of image super-resolution based on feature enhancement with ViT-CNN is studied. Specifically, the network includes ViT-based SR branch and CNN-based gradient branch, which extract the global correlation in the image feature domain and the local dependency in the image gradient domain respectively. Through the fusion and gradual enhancement of the two kinds of information, the reconstructed image with large factor is obtained. In addition, by introducing gradient loss and progressive training strategy, the difficulty of training is effectively reduced and the stability of training is enhanced. A large number of experimental results on multiple public datasets demonstrate the effectiveness of the proposed method in improving the performance of the reconstruction system.

Graphical abstract

关键词

图像超分辨率 / 卷积神经网络 / 视觉Transformer / 特征融合

Key words

image super resolution / Convolution Neural Network / Vision Transformer / feature fusion

引用本文

引用格式 ▾
高志荣,孙清清,熊承义,李帆,郑瑞华. 基于ViT-CNN特征增强的图像超分辨率[J]. 中南民族大学学报(自然科学版), 2025, 44(02): 253-259 DOI:10.20056/j.cnki.ZNMDZK.20250215

登录浏览全文

4963

注册一个新账户 忘记密码

图像超分辨率(Super-Resolution,SR)是一种图像处理技术,旨在从退化的低分辨率图像(Low Resolution,LR)中恢复出高分辨率图像(High Resolution,HR).在许多领域中,通过高效且节省成本的SR技术来获得HR图像是很有必要的,例如视频监控1、医疗成像2和卫星成像3等.
近年来,由于深度学习(Deep Learning,DL)和卷积神经网络(Convolutional Neural Network,CNN)表现出的强大学习能力,各类基于CNN的图像SR方法被大量提出4-10.虽然这类方法相比较传统方法在重构性能的提升上显现出了巨大优势,但由于图像和卷积核之间的操作通常与图像内容无关,使得基于固定卷积核运算的特征提取不能自适应于不同的图像.此外,受卷积核大小的约束,基于CNN的方法难以捕获图像中的远距离依赖关系,从而严重限制了其特征表达能力以及在图像重构方面的性能.最近,一种基于自注意力机制的Transformer结构11被提出并在自然语言处理领域中表现突出.受此启发,DOSOVITSKIY等12提出了用于图像处理领域的视觉Transformer(Vision Transformer,ViT),并成为了Transformer在计算机视觉领域应用的里程碑式工作.当前,ViT 在SR领域中也得到了极大的关注13-16,其利用Transformer的自注意力机制,对图像中存在的远距离依赖关系进行建模,有效捕获了图像中的全局相关性,为进一步提升SR性能注入了新的活力.实际上,纯粹的CNN或ViT结构均有其对应的优势与缺陷,前者侧重于捕获图像的局部依赖关系,而后者则更多地关注图像的全局相关性.因此,如何有效地将两者结合并发挥各自优势成为了当前SR领域研究的热点问题.
基于上述背景,本文研究了一种基于ViT-CNN特征增强的图像超分辨率网络.具体来说,本文构建了多级的双分支网络,包括基于ViT的SR分支与基于CNN的梯度分支.SR分支主要用于提取图像特征域中的全局相关性,而梯度分支则专注于图像梯度域中的局部依赖关系.网络还包含了融合特征信息和梯度信息的融合模块,利用梯度分支生成的HR梯度图来指导图像重构过程,更好地保留图像的结构信息,消除伪影缓解结构变形,从而生成视觉效果良好的高倍放大图像.此外,本文还采用了渐进式训练策略以降低高倍放大任务的训练难度,提升训练过程的稳定性.实验结果表明了本文方法在改善重构系统性能方面的有效性.

1 相关工作

1.1 图像超分辨率

近年来,基于深度学习的图像超分辨率方法在计算机视觉领域中取得了显著进展.DONG等4首次将卷积神经网络用于SR任务,提出了一个利用3层卷积实现LR和HR图像对之间非线性映射的超分辨率卷积神经网络(SRCNN).KIM等5提出了极深的超分辨率网络(VDSR),堆叠了20层卷积并使用了跳转连接,进一步改善了SR的重构性能.之后,各类网络通过加深网络深度和设计精巧的网络结构来提高SR的性能.为了进一步改善重构图像的视觉效果,MA等17提出了一种基于梯度指导的结构保留超分辨率方法(SPSR),引入了图像的梯度信息,并用来指导SR的重构过程,改善了重构图像结构失真的问题.对于高倍放大的超分辨率任务,直接地上采样操作一般难以获得满意的效果,而且存在网络训练难以稳定等问题,因此渐进超分辨率策略被广为采用.LAI等6提出了一种渐进式SR方法,上采样遵循拉普拉斯金字塔原理,通过对输入图像每次执行2倍上采样,逐步重建出高倍放大的重构图像.此外,LAI等8进一步改进了他们的方法,采用深度更广的递归结构和多尺度训练.然而在高倍放大任务中,输入图像的特征信息几乎完全丢失,且CNN难以捕获图像中的远距离依赖关系和较弱的纹理细节,使得网络很难有效地恢复出视觉效果良好的重构图像.

1.2 视觉Transformer

最近,Transformer在自然语言处理(Natural Language Processing, NLP)领域中受到了广泛的关注,其核心为自注意力机制,能够有效地捕获句中单词之间的全局相关性.Transformer在NLP领域的突破引发了计算机视觉领域学者的极大兴趣.DOSOVITSKIY等11提出了用于图像分类任务的Vision Transformer(VIT),将切块后的图像转换为序列的形式以适应Transformer的输入,取得了可观的效果.CHEN等13提出了一种适用于低级视觉任务的通用Transformer预训练模型(IPT),对于不同任务连接不同的尾部模型,在图像超分辨率、去噪、去雾等任务中均取得了不错的成绩.不同于文本信息,图像的像素点多,全局自注意力的计算复杂度为像素点数量的平方,庞大的计算成本限制了其在视觉任务中的发展.为了解决该问题,LIU等18提出Swin Transformer(SwinT),使用不重叠的窗口来划分原始尺寸的特征图,只在每个窗口内执行区域自注意力计算,使得计算复杂度降低到了像素点数量的线性比例.然而,Transformer与CNN相比缺少归纳偏置(inductive bias),需要使用大规模的数据集来进行训练.此外,虽然Transformer能够高效地捕获全局信息,但在获取局部信息方面仍存在局限性,可能会阻碍图像中纹理细节的恢复.

2 提出的方法

本文提出了一种基于ViT-CNN特征增强的图像超分辨率,利用基于ViT的SR分支与基于CNN的梯度分支构建多级网络,逐步实现图像的高倍重构.其中,SR分支主要提取图像特征域中的全局相关性,梯度分支则专注于图像梯度域中的局部依赖关系.随后,对两种信息进行融合,利用HR梯度图来指导图像重构的过程,提升重构图像的质量.

2.1 网络结构

图1所示,整体网络结构主要由三部分组成:浅层特征提取模块(Shallow Features Extraction Block,SFEB)、SwinT-CNN混合模块(SwinT-CNN Hybrid Block,STCHB)和重构模块(Reconstruction Block,RB).

首先,浅层特征提取模块(SFEB)包含1个卷积核大小为3 × 3,步长为1,填充为1的卷积层,用于从给定的LR图像ILRRH×W×3H为图像的高度,W为图像的宽度,3为图像的通道数)中提取浅层特征F0RH×W×64

F0=HSFEBILR

其中,HSFEB表示SFEB.

随后,将网络分为三个阶段来实现8倍放大.每个阶段中使用SwinT-CNN混合模块(STCHB)进行深度特征提取,再送入上采样层(UpSample)执行2倍上采样操作:

Fi=HUPiHSTCHBiFi-1

其中:HSTCHBi表示第i个STCHB,HUPi表示第i个上采样层,FiR2iH×2iW×64表示第i个阶段的输出,i=1,2,3.更多关于STCHB的细节将在第2.2节给出.此外,在前两个阶段中,使用卷积核为1 × 1,步长为1,填充为0的卷积层,将上采样后得到的中间特征图转换为对应的RGB图像I2R2H×2W×3I4R4H×4W×3

I2=Hconv1F1I4=Hconv2F2

其中:Hconvi表示第i个1 × 1卷积层, i=1,2.

最后,重构模块(RB)包含了1个卷积核大小为3 × 3,步长为1,填充为1的卷积层,用来获得最终的重构图像ISRR8H×8W×3

ISR=HSRILR=HRBF3

其中:HRB表示 RB,HSR表示整个网络.

2.2 SwinT-CNN混合模块

联合具有捕获全局特征能力的ViT和具有局部归纳特性的CNN可以提高网络的综合实力.提出了SwinT-CNN混合模块(STCHB),如图2(a)所示,通过对图像特征域中与图像梯度域中的信息的增强与融合,提升网络的重构质量.

图像的梯度图揭示了图像中需要突出关注的结构区域17.为了增强重构图像中的纹理细节信息,利用梯度提取模块(Gradient Extraction Block,GEB)计算相邻像素的差值来获得输入图像Fi-1的梯度图Fg

Fhx,y=Fx,y-Fx-1,y
Fvx,y=Fx,y-Fx,y-1
Fg=F=Fh2+Fv2

其中:Fhx,yFvx,y分别表示图像中坐标为x,y的像素点的水平方向和垂直方向的梯度值,表示计算图像的梯度.

由于梯度图中大部分区域的数值都接近于0,只在轮廓边缘具有较大的数值,因此梯度分支(Gradient Branch)中使用更关注于局部依赖关系的CNN对梯度图进行增强.使用4个EDSR[7]中提出的残差块(Residual Block,ResBlock)作为梯度分支的基础模块:

Fc=HGFg=HResiFg

其中:HG表示梯度分支,HResi表示第i个残差块,Fc表示STCHB模块内梯度分支的输出.

除了使用基于CNN的梯度分支在梯度域中捕获局部依赖关系之外,还使用了基于ViT的SR分支在图像特征域中考虑全局信息.受Swin Transformer作用于视觉任务时能够极大降低模型计算复杂度的启发,使用4个Swin Transformer中的Residual Swin Transformer Block (RSTB)作为SR分支的基本模块,用来捕获特征图中的全局依赖关系:

Ft=HSFi-1=HRSTBiFi-1

其中:HS表示SR分支,HRSTBi表示第i个RSTB,Ft表示STCHB模块内SR分支的输出.

随后,使用融合模块(Fusion Block,FB)对两种特征进行融合,使得生成的HR梯度图能够为特征重构过程补充额外的结构信息,如图2(b)所示.首先将两分支的输出FtFc进行拼接,随后使用1 × 1卷积层构建通道融合模块(channel-wise fusion)以专注于通道维度上的融合,最后利用1 × 1卷积层对通道进行调整后得到输出Ffusion

Ffusion=HfusioniHconcatFt,Fc

其中:Hconcat表示通道维度上的拼接,Hfusioni表示第i个通道融合模块.

最后,第i个STCHB的最终输出Fi为:

Fi=HSTCHBiFi-1=Ffusion+Fi-1

其中,HSTCHBi表示第i个SwinT-CNN混合模块.

3 实验

3.1 训练方法

为了生成高质量的8倍放大图像,网络采用了渐进式训练方法.网络总共训练600个epoch,第一阶段训练100个epoch,利用SFEB和STCHB生成2倍放大图像,并将其与目标图像进行比较.第二阶段训练200个epoch,对第一阶段的输出进行处理,获得4倍放大输出后再次与对应的目标图像进行比较.第三阶段训练300个epoch,重复上述过程来获得最终的8倍放大输出图像.该方法允许网络对每个分辨率下的图像都加以损失约束,有效、稳定地恢复出高倍放大重构图像.

3.2 损失函数

为了使网络在梯度域中学习到更多的信息,在像素级损失的基础上增加了梯度损失,因此总的损失函数定义为:

Lall=Lsr+αLgrad

其中:LsrLgrad分别表示像素级损失和梯度损失,α为损失权重.

选择L1损失函数来最优化所提网络.给定N对图像作为训练集,可表示为ILRi,IHRii=1N.每对图像对包含1幅LR图像和对应的HR图像,优化目标LsrLgrad表示为:

Lsr=1Ni=1nHSRILRi-IHRi 1
Lgrad=1Ni=1nHSRILRi-IHRi 1

其中:HSR表示超分辨率网络,表示提取图像梯度.

3.3 实验设置和训练数据

本文所提网络使用的训练集来自DIV2K19数据集中的HR图像,其中的800张用于训练,100张用于验证.在训练阶段,将每幅HR图像随机分割成大小为192 × 192的图像块,再分别进行不同尺度因子(2×、4×和8×)的下采样操作,获得对应的LR图像.随后将所有图像随机旋转90°、180°、270°和水平翻转来增加数据的多样性.每次迭代时将8个大小为24 × 24的LR图像块作为网络的输入.网络的学习率为10-4,损失权重α=0.5,通过Adam来优化,参数为:β1=0.9,β2=0.999,ε=10-8.

在测试阶段,为了评估模型的性能,选用五个标准数据集:Set520,Set1421,BSD10022,Urban10022和Manga10923进行测试.在图像YcbCr颜色空间中的Y通道上计算PSNR和SSIM指标,指标越高表示图像质量越优.所有实验均使用了Pytorch深度学习框架以及两块NVIDIA GTX-1080TI显卡.

3.4 实验结果

在五个标准数据集上将本文方法与其他方法在同等条件下进行比较,包括SRCNN4、VDSR5和EDSR7,采用渐进式网络结构的LapSRN6,引入图像梯度信息的 SPSR17和基于transformer结构的SwinIR16.表1列出了在8倍放大下所有方法的对比结果,最好结果用加粗黑体标出.

表1可以看出,本文所提方法具有较强的可比性.以Set520数据集为例,本文方法与EDSR7和SPSR17相比,在PSNR指标上分别获得了0.48 dB和0.15 dB的性能提升,且参数量分别减少了36.88 M和17.86 M.而相较于SRCNN4、VDSR5和LapSRN6来说,虽然本文方法的参数量有所增加,但是在PSNR上分别获得了1.7、 1.31、 和0.88 dB的性能提升.在其余4个数据集上,本文方法也比上述方法在重构性能上有不同程度的改进.

而相较于SwinIR16,在PSNR指标上,所提方法仅在Manga10923数据集上略低于SwinIR16.为了更好地说明两种方法的区别,在Manga10923数据集上,对两种方法在不同的方面进行了比较.由表2可知,虽然本文方法在性能指标上略低于SwinIR16,但本文方法需要的重构时间更少,且参数量更小.相比较于表2中的其他方法,本文所提方法的PSNR值最高,除LapSRN6外,拥有最短的重构时间和最低的参数量,但PSNR值比LapSRN6高出了1.13 dB.

为了验证两分支中ResBlock和RSTB数量选择的合理性,分别将数量设置为同样的3个、4个和5个并分析对网络性能的影响.如表3所示,随着模型数量的增加, PSNR值更高,这是因为深度网络具有良好的非线性表征能力,但网络的参数也在逐渐增大.相较于使用4个ResBlock和RSTB,使用3个时,网络的性能较差,使用5个时,网络的参数较大且性能仅有轻微的提升.因此决定将模型的数量设定为4.

为了证明本文方法的重构图像视觉效果更佳,给出了不同数据集上本文方法和其他方法得到的8倍放大重构图像,如图3图4图5所示.在图3中,本文方法重构出的图像在鸟喙处更加尖锐,且轮廓更具可辨性.在图4中,本文方法重构出的字符更加清晰,其他方法均有较严重的模糊和重影.在图5中,本文方法得到了分界线更加分明的墙壁图像.

3.5 消融实验及分析

为了验证STCHB组成架构的有效性,本文对STCHB的架构在8倍放大下Set520数据集上进行了消融实验,如表4所示.

表4中可以看出,当STCHB中两分支的基本组成模块全部使用CNN或Transformer时,都造成了网络重构性能不同程度的下降.这是因为此时的网络只侧重于捕获局部信息或全局信息,而忽略了另一部分信息的重要性.而STCHB结合了Transformer和CNN二者的优势,提高了网络的综合实力,重构性能有了明显的提升.

为了验证渐近结构和梯度分支的有效性,本文验证了在8倍放大下Set520数据集上渐进结构和梯度分支对重构性能的影响,如表5所示.从表中可以看出,将渐近放大改为直接放大或移除梯度分支,都造成了网络重构性能不同程度的下降.这是因为渐近结构缓解了网络训练的难度,而梯度分支能够为图像重构过程提供额外的结构信息.基于此,网络将二者都保留,以得到更佳的重构效果.

为了验证梯度损失的有效性,对损失权重α进行不同的取值,在8倍放大下Set520数据集上,验证梯度损失对网络性能的影响,如表6所示.从表中可以看出,相较于仅使用单一像素级损失(α=0),增加梯度损失后重构质量明显提高,并且当α=0.5时,可以获得最优的重构效果.这是因为在梯度域中增加了约束之后,网络能够从中学到更多的局部特征,为重构过程提供额外的结构信息,有助于恢复出视觉效果良好的SR图像.

此外,为了验证梯度信息能够改善重构图像的视觉效果,让梯度分支同样作用于特征域,其他设置保持不变.图6给出了使用梯度信息与不使用梯度信息对Set1421数据集中‘baboon’进行8倍放大后的结果.从图中可以看出,使用梯度信息重构出的图像中皮毛纹理细节更加清晰,伪影较少,且边缘之间更加分明.这表明梯度信息的引入可以帮助改善重构图像的视觉效果.

4 结语

研究了一种基于ViT-CNN特征增强的图像超分辨率方法,得到了高倍放大任务中重构图像质量的较好提升.通过基于ViT的SR分支与基于CNN的梯度分支的特征增强,有效提高了网络的学习能力.SR分支主要用于提取图像特征域中的全局相关性,而梯度分支则专注于图像梯度域中的局部依赖关系.通过引入梯度损失和渐进训练策略进一步提高了重构质量.实验结果验证了本文方法在提升重构性能方面的有效性.当然,本文方法也存在ViT与CNN融合方式较为简单的不足,因此如何更好地改进二者的融合方式以得到更好的效果,成为今后需要进一步深入探究的问题.

参考文献

[1]

ZHANG LZHANG HSHEN Het al. A super-resolution reconstruction algorithm for surveillance images[J]. Signal Processing201090(3): 848-859.

[2]

GREENSPAN H. Super-resolution in medical imaging[J]. The Computer Journal200952(1): 43-63.

[3]

SHERMEYER JVAN ETTEN A. The effects of super-resolution on object detection performance in satellite imagery[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Long Beach: IEEE, 2019: 1432-1441.

[4]

DONG CLOY C CHE Ket al. Learning a deep convolutional network for image super-resolution[C]//European Conference on Computer Vision. Zurich: Springer, 2014: 184-199.

[5]

DONG CLOY C CHE Ket al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence201638(2): 295-307.

[6]

LAI W SHUANG J BAHUJA Net al. Deep Laplacian pyramid networks for fast and accurate super-resolution[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017: 5835-5843.

[7]

LIM B, SON S, KIM Het al. Enhanced deep residual networks for single image super-resolution[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Honolulu: IEEE, 2017: 1132-1140.

[8]

LAI W SHUANG J BAHUJA Net al. Fast and accurate image super-resolution with deep Laplacian pyramid networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence201941(11): 2599-2613.

[9]

PARK SYOO JCHO Det al. Fast adaptation to super-resolution networks via meta-learning[C]//European Conference on Computer Vision. Glasgow: Springer, 2020: 754-769.

[10]

熊承义, 李雪静, 高志荣, . 基于并行反向投影的图像超分辨率[J]. 中南民族大学学报(自然科学版)202443(1): 53-60.

[11]

ASHISH VNOAM SNIKI Pet al. Attention is all you need[C]//Conference on Neural Information Processing Systems. Long Beach: NIPS, 2017: 1,2,4,5.

[12]

DOSOVITSKIY ABEYER LKOLESNIKOV Aet al. An image is worth 16x6 words: Transformers for image recognition at scale[J]. arXiv Preprint arXiv: 2020.

[13]

CHEN HWANG YGUO Tet al. Pre-trained image processing transformer[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville: IEEE, 2021: 12294-12305.

[14]

熊承义, 郑瑞华, 高志荣, . 结合多尺度多注意力的遥感图像超分辨率重构[J]. 中南民族大学学报(自然科学版)202443(5): 692-700.

[15]

Lu ZLi JLiu Het al. Transformer for single image super-resolution[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 456-465.

[16]

LIANG JCAO JSUN Get al. SwinIR: Image restoration using swin transformer[C]//2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). Montreal: IEEE, 2021: 1833-1844.

[17]

MA CRAO YCHENG Yet al. Structure-preserving super resolution with gradient guidance[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2020: 7766-7775.

[18]

LIU ZLIN YCAO Yet al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal: IEEE, 2021: 9992-10002.

[19]

AGUSTSSON ETIMOFTE R. NTIRE 2017 challenge on single image super-resolution: Dataset and study[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Honolulu: IEEE, 2017: 1122-1131.

[20]

BEVILACQUA MROUMY AGUILLEMOT Cet al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding[C]//Electronic Proceedings of the British Machine Vision Conference. Surrey: BMVC, 2012: 1-10.

[21]

ZEYDE RELAD MPROTTER M. On single image scale-up using sparse-representations[C]//Curves and Surfaces. International Conference on Curves and Surfaces. Avignon: Springer, 2010: 711-730.

[22]

MARTIN DFOWLKES C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//IEEE International Conference on Computer Vision. Vancouver: IEEE, 2001: 416-423.

[23]

MATSUI YITO KARAMAKI Yet al. Sketch-based manga retrieval using manga109 dataset[J]. Multimedia Tools and Application201776: 21811-21838.

基金资助

多谱信息处理技术国家重点实验室基金资助项目(6142113210303)

中央高校基本科研业务专项资金资助项目(CZY21013)

AI Summary AI Mindmap
PDF (1800KB)

213

访问

0

被引

详细

导航
相关文章

AI思维导图

/