基于扩散先验的脑部MRI超分辨率重建

熊承义; 曹雨轩; 高志荣

doi:10.20056/j.cnki.ZNMDZK.20250840

中南民族大学学报（自然科学版） ›› 2026, Vol. 45 ›› Issue (02) : 202 -211. DOI: 10.20056/j.cnki.ZNMDZK.20250840

物理与电子信息科学

基于扩散先验的脑部MRI超分辨率重建

熊承义 ¹^,² ,
曹雨轩 ¹^,² ,
高志荣 ³

作者信息 +

Brain MRI super-resolution reconstruction based on diffusion priors

Chengyi XIONG ¹^,² ,
Yuxuan CAO ¹^,² ,
Zhirong GAO ³

Author information +

文章历史 +

PDF (4599K)

摘要

现有基于Transformer的MRI超分辨率方法虽具有良好的全局建模能力，但忽略了深度先验约束建模的重要性.为此，提出了一种基于扩散先验的脑部MRI超分辨率方法，利用潜在扩散模型生成的先验来引导Transformer进行超分辨率重建，以提升MRI细节重建能力.具体而言，采用两阶段协同训练策略：第一阶段通过真实图像潜编码构建内容先验；第二阶段引入扩散模型重构先验，并联合优化去噪与重建过程，实现无监督条件下的图像超分辨率.此外，采用深度可分离卷积与置换自注意力机制，实现编码器的高效建模与感受野扩展.在IXI多模态MRI数据集上的4倍超分辨率实验表明：所提出方法在提升重建图像主客观质量与重建效率方面优于已有方法.

Abstract

Transformer-based MRI super-resolution methods offer strong global modeling capabilities but often overlook the role of deep prior constraints. To address this problem， a brain MRI super-resolution method based on diffusion priors is proposed， where a latent diffusion model generates structural priors to guide the Transformer in restoring fine details. A two-stage training strategy is adopted： the first stage constructs a content prior from ground-truth latent encodings to pretrain the reconstruction network； the second stage introduces diffusion-based priors and jointly optimizes the denoising and reconstruction processes under unsupervised conditions. Additionally， depthwise separable convolutions and permuted self-attention are employed to enhance modeling efficiency and expand the receptive field. Experiments on the IXI multi-modal MRI dataset （4×SR） demonstrate superior reconstruction quality and efficiency of the method over existing methods.

Graphical abstract

关键词

MRI超分辨率 / 扩散先验 / 置换自注意力 / 深度可分离卷积

Key words

MRI super-resolution / diffusion prior / permuted self-attention / depthwise separable convolution

引用本文

引用格式 ▾

熊承义,曹雨轩,高志荣. 基于扩散先验的脑部MRI超分辨率重建[J]. 中南民族大学学报（自然科学版）, 2026, 45(02): 202-211 DOI:10.20056/j.cnki.ZNMDZK.20250840

登录浏览全文

4963

注册一个新账户忘记密码

磁共振成像（Magnetic Resonance Imaging， MRI）是一种广泛应用、无创且无辐射的成像技术，能够提供清晰的软组织结构和纹理信息，因此在临床诊断和医学研究中具有不可替代的重要性.然而在实际应用中，获取高分辨率（High-Resolution， HR）MR图像通常需要较长的扫描时间，这不仅增加了患者的不适感，还容易产生运动伪影，导致图像质量下降.分辨率与采集效率之间的这种权衡在临床实践中构成了一项重大挑战.为此，磁共振图像超分辨率（Super-Resolution， SR）技术^［1-2］应运而生，其目标是通过算法从低分辨率（Low-Resolution， LR）MR图像中恢复出高分辨率图像，从而在保持较短扫描时间的同时提升图像质量^［3］.

早期的超分辨率方法主要基于插值算法（如双三次插值）或稀疏编码理论，但这些传统方法在细节恢复能力和抗噪性能方面存在明显局限，而深度学习方法已在该领域取得了显著进展.其中卷积神经网络（CNN）因其擅长捕捉局部空间特征，在MRI超分辨率重建任务的早期研究中被广泛应用.传统CNN模型如SRCNN^［4］，通过堆叠卷积层直接建立低分辨率图像到高分辨率图像的映射关系.在此基础上，QIU等^［5］针对膝关节MRI设计了基于SRCNN的超分辨率网络.基于CNN的SR方法主要依赖局部卷积操作，难以建模图像中的长程依赖关系，导致其在复杂纹理重建和全局一致性方面存在局限.而Transformer凭借自注意力机制^［6］在自然语言处理领域的成功，在视觉任务中也展现出强大的全局建模能力.视觉Transformer（ViT）^［7］的提出首次将Transformer应用于图像处理任务，但由于其计算复杂度较高，难以直接应用于高分辨率图像处理.为此，Swin transformer^［8］引入了分层结构和移动窗口机制，在保证全局建模能力的同时大幅降低计算成本.近年来，Transformer逐渐被引入MRI超分辨率任务中^［9-10］，例如，FORIGUA等^［11］提出的SuperFormer结合局部自注意力和3D位置编码，以融合多领域信息；TransMRSR^［12］则采用卷积与Transformer块结合的策略，分阶段提取局部特征并捕获全局依赖.尽管这些方法利用了Transformer强大的特征建模能力，但其计算复杂度随窗口尺寸的增大呈平方级增长.为降低计算成本，许多方法选择限制窗口大小，如SwinIR^［13］采用8×8窗口.然而，窗口过小会限制感受野，削弱全局信息建模能力.因此，如何在保持Transformer全局建模能力的同时提高计算效率并增强医学影像的真实细节恢复，仍是一个亟待解决的问题.

与此同时，扩散模型（Diffusion Models， DMs）^［14］作为新一代生成式模型，与依赖对抗训练且易陷入模式崩溃的GAN不同，其采用一种概率生成框架，通过迭代去噪逐步将随机噪声转化为有意义的数据表示，从而实现数据分布的重构.这一过程不仅能够更全面地覆盖数据模式，还能提供更高的图像保真度，使得扩散模型成为高质量图像重建任务的理想选择.例如，CHUNG等^［15］基于反向扩散模型设计了一种MRI去噪和超分辨率联合方法，WU等^［16］则采用去噪扩散概率模型（DDPM）实现脑部MRI超分辨率重建.然而，传统扩散模型仍然面临着计算开销高、推理速度慢的问题.由于扩散模型依赖多次迭代去噪，每次推理通常需要数百步甚至上千步的计算，使其在实际应用中受限.在MRI超分辨率任务中，直接从噪声生成完整图像的方式存在一定冗余，因为目标是增强已有的低分辨率图像，而非无条件从头生成新图像.因此，目前的研究主要聚焦在加速扩散推理，如通过改进采样策略减少推理步骤，或者采用潜在扩散模型（Latent Diffusion Model， LDM）^［17］在低维潜在空间中进行建模，以降低计算开销并提高推理效率.图像恢复模型DiffIR^［18］和图像去噪模型Hi-Diff^［19］将Transformer集成到潜在扩散模型的框架中，利用其作为解码器在扩散先验约束下重建出高质量图像.

针对上述问题和背景，本文基于扩散先验引导的Transformer架构，提出了一种用于脑部MRI超分辨率的高效扩散模型EDM-MSR（Efficient Diffusion Model for MRI Super-Resolution）.通过轻量化的深度可分离卷积重新优化编码器潜在先验提取网络（Latent Prior Extraction Network， LPEN）和条件提取网络（Condition Extraction Network， CEN），用于提取HR和LR图像中的紧凑的潜在特征作为先验表示；受到SRFormer^［20］置换自注意力机制的启发，本文将其嵌入Transformer中设计先验引导动态Transformer （Prior-Guided Dynamic Transformer， PGDformer）.PGDformer包括先验引导动态多头置换自注意力模块（Prior-Guided Dynamic Multi-Head Permuted Self-Attention， PDM-PSA）和先验引导动态前馈网络（Prior-Guided Dynamic Feed-Forward Network， PGD-FFN）两个部分，在保持计算效率的同时有效扩大感受野，并根据先验信息自适应地重组特征表示，从而增强模型对医学图像复杂结构的建模能力和重建质量.

1 提出的超分辨率重建方法EDM-MSR

本文提出的基于扩散先验的脑部MRI超分辨率重建方法，主要利用潜在扩散模型生成的先验来引导Transformer进行超分辨率重建.下文先给出模型的整体结构及算法流程，然后对相应训练阶段和推理阶段进行详细描述.

1.1 模型结构

本文提出的模型EDM-MSR的整体结构如图1所示，分为两个训练阶段.为了在无真实HR图像的情况下实现高质量超分辨率重建，本文采用两阶段协同训练策略，核心在于利用潜在扩散模型生成高质量先验表示以引导PGDformer.第一阶段通过有监督方式预训练PGDformer.首先将真实的HR图像和LR图像在通道维度拼接，并通过像素反混洗操作转换为空间分辨率较低、通道维度更高的结构化特征表示；随后利用LPEN提取融合了细节与全局信息的紧凑先验表示Z，引导PGDformer完成端到端重建.该阶段使PGDformer能够充分利用Z进行高质量重建，为后续无监督优化奠定基础.第二阶段针对无真实HR图像的场景展开无监督建模，以LPEN生成的初始先验为起点，利用条件提取网络获得条件编码C，引导去噪网络迭代优化噪声估计；最终将逆扩散生成的精细化先验

Z ̑

输入PGDformer，实现重建与去噪过程的联合优化，从而进一步提升图像重建质量并减少伪影.

1.2 训练第一阶段

第一阶段（图1（a））主要是联合训练潜在先验提取网络（LPEN）和先验引导动态Transfomer （PGDformer），从而得到更可靠的先验表示Z.LPEN的网络结构如图2（a）所示，PGDformer主要由两个模块组成：先验引导动态多头置换自注意力模块（PDM-PSA）和先验引导动态前馈网络（PGD-FFN）.PDM-PSA和PGD-FFN的网络结构分别如图2（b）和图2（c）所示.

1.2.1 潜在先验提取网络（LPEN）

潜在先验网络由9个残差块和2个线性层堆叠而成，其中每个残差块由“深度可分离卷积——激活——深度可分离卷积”组成，在保证潜在先验提取质量的同时有效降低计算成本.将输入的

I H R

和

I L R

在通道维度上进行拼接，经过像素反混洗操作后输出给LPEN来提取紧凑的潜在先验，从而得到先验表示Z如下：

Z = L P E N P i x e l U n s h u f f l e C o n c a t I H R, I L R

，（1）

在后续超分辨率重建过程中，Z作为动态调制参数来引导PGDformer进行重建.

1.2.2 先验引导动态Transfomer（PGDformer）

在基于Transformer架构的超分辨率模型中，大多数方法为控制计算成本将计算自注意力的窗口尺寸限制在8 × 8.增大多头自注意力（MSA）的窗口尺寸可有效提高超分辨率重建质量，但同时也会导致更大的计算负担.SRFormer提出一种用于单图超分辨率任务的注意力机制——置换自注意力，可以在大窗口中高效计算自注意力，从而在不增加参数量和计算成本的前提下提升超分辨率性能.本文在PGDformer的设计过程中也应用到了这种思想.PGDformer包括两个部分： PDM-PSA和PGD-FFN.

当获得Z后，它将作为动态调节参数输入给PDM-PSA和PGD-FFN来引导重建过程，具体可表示为：

F' = L Z ⊙ N o r m F + L Z

，（2）

F k' = L Z ⊙ N o r m F k + L Z

，（3）

式中，

F'

和

F k'

均为中间输出特征图，

F' ∈ R H × W × C

，

F k' ∈ R H × W × C

，C表示特征图的通道维度，

L

表示线性层，

⊙

表示逐元素相乘，Norm（·）表示层归一化.

具体来说，在PDM-PSA中，输入特征图

F'

将被分割成N个不重叠的平方窗口X，每个窗口的维度

X ∈ R N S 2 × C

，其中S为每个窗口的边长，表示窗口的尺寸，N是窗口的数量，C是通道数.接下来，使用线性层

L Q

，

L K

和

L V

，通过线性变换将每个窗口X嵌入得到

Q ∈ R N S 2 × C

，

K ∈ R N S 2 × C / k 2

以及

V ∈ R N S 2 × C / k 2

.其中，Q保持和窗口X一样的通道维度，而K和V的通道维度被压缩至

C / k 2

（k为token的缩减因子，本文中设置为2）.为了让更多的token参与到自注意力的计算并且避免增加计算开销，本文将K和V的空间信息转换到通道维度，得到置换后的

K p ∈ R N S 2 / k 2 × C

，

V p ∈ R N S 2 / k 2 × C

，在这种方式下，K和V的窗口尺寸将会减少至

S / k × S / k

，但是通道维度没有改变，从而可以保证每个注意力头生成的注意力图的表现力.最后，置换自注意力的计算可表示为：

P S A Q, K p, V p = S o f t m a x Q K p ⊤ d k + B V p,

（4）

式中，B为对齐的相对位置嵌入矩阵，

K p ⊤

为

K p

的转置矩阵，

d k

为标准化因子.PDM-PSA的整个过程可以定义为：

F K = Φ c P S A Q, K p, V p + F,

（5）

在PGD-FFN中，首先使用1 × 1点卷积来聚合来自不同通道的信息，然后使用3 × 3深度可分离卷积来聚合来自空间相邻像素的信息，同时使用门控机制来增强信息编码.PGD-FFN的整个过程可以定义为：

F^= Φ c G E L U Φ c Φ d F k' ⊙ Φ c Φ d F k' + F k

，（6）

式（5）和式（6）中，

Φ c

为1 × 1点卷积，

Φ d

为3 × 3深度可分离卷积.

1.2.3 损失函数

在第一阶段的训练中，为了获得更可靠的先验表示，本文对LPEN和PGDformer同时进行训练优化.由于在超分辨率任务中，基于

L 1

范数的损失函数有助于保留图像的锐度并且降低平滑的现象，故在本文中，重建图像像素级的损失使用基于

L 1

范数的损失函数：

ℒ r e c = I S R - I H R 1

，（7）

式中，

· 1

为

L 1

范数，

I H R

为真实的高分辨率图像，

I S R

为重建后的超分辨率图像.

1.3 训练第二阶段

第二阶段（图1（b））主要是联合训练扩散模型（DM）、条件提取网络（CEN）以及PGDformer，旨在通过训练具备强大数据映射能力的扩散模型来学习真实MR图像的先验知识分布，进而来引导并进一步增强PGDformer的重建过程.扩散模型包括前向扩散和反向去噪两个过程.

1.3.1 前向扩散过程

首先利用第一阶段训练好的LPEN来获得先验表示Z，然后利用其在前向扩散过程中采样

Z T ∈ R 4 C'

，具体表示为：

q Z T | Z = 𝒩 Z T; α ¯ T Z, 1 - α ¯ T I

，（8）

式中，T为总迭代次数，

𝒩

表示高斯分布，

α = 1 - β t

，

α ¯ t = ∏ i = 0 t α i

，其中

t = 1, …, T

，

β 1 : T ∈ 0,1

为控制噪声方差的超参数.

1.3.2 反向去噪过程

反向去噪过程可以定义为从

Z T

到

Z ̑

向后运行的马尔可夫链.由于Z是一种紧凑的先验表示，故在去噪过程中仅需很少的迭代次数就可获得良好的估计.从

Z t

到

Z t - 1

的概率分布可定义为：

q Z t - 1 | Z t, Z 0 = 𝒩 Z t - 1; μ t Z t, Z 0, 1 - α ¯ t - 1 1 - α ¯ t β t I

，（9）

μ t Z t, Z 0 = 1 α t Z t - 1 - α t 1 - α ¯ t є

（10）

式中，

є

表示

Z t

中的噪声，在训练中利用去噪网络

є θ

来预测每一步的噪声

є

.受潜在扩散模型（LDM）的影响，本文利用条件提取网络（CEN）从LR图像中获得紧凑的条件特征，用于引导去噪网络进行去噪，具体表示为：

C = C E N P i x e l U n s h u f f l e I L R

，（11）

式中，CEN是与CPEN具有相同结构的网络.因此，整个去噪网络

є θ

将会利用

Z t

和C来预测噪声，具体表示为：

Z t - 1 = 1 α t y t - 1 - α t 1 - α ¯ t є θ Z t, C, t + 1 - α t є t

，（12）

式中，

є t ~ 𝒩 0, I

.在采样T次后，DM可以生成与原始HR图像分布一致的先验表示

Z ̑

，进而利用

Z ̑

来指导PGDformer进行超分辨率重建，进一步优化其重建性能.

1.3.3 损失函数

在第二阶段的训练中，通过总损失函数

ℒ

来联合训练DM、CEN和PGDformer，具体表示为：

ℒ = ℒ d i f f + ℒ r e c

，（13）

ℒ d i f f = 1 4 C' ∑ i = 1 4 C' Z ̑ i - Z i

，（14）

式中，

ℒ d i f f

为扩散模型的损失，

ℒ r e c

为重建图像像素级的损失.

1.4 推理阶段

在推理阶段，本文仅使用反向去噪过程，具体流程如图3所示.首先利用CEN从

I L R

中获得潜在的条件特征C，然后随机采样高斯噪声

Z T

，去噪网络利用

Z T

和C，在T次迭代后估计出

Z ̑

，进而引导PGDformer重建出最终的SR图像

I S R

2 实验

2.1 实验设置

2.1.1 数据集

本实验采用公共脑部MRI数据集IXI（详见http：//brain-development.org/ixi-dataset/），该数据集包括581个3D T1加权体积、578个3D T2加权体积以及578个3D质子密度（PD）加权体积图像.本实验分别从T1、T2和PD三种模态的数据集中各选取前500个3D体积，并按照7∶1∶2的比例划分为训练集、验证集和测试集；随后，从每个3D图像中提取50张分辨率为256 × 256的高质量2D切片；最终，每种模态的数据集均包含17500张训练切片、2500张验证切片和5000张测试切片.在实际磁共振成像过程中，随着采样点的减少，MR图像的分辨率会显著降低，并受到光学特性等因素的影响，从而出现一定程度的模糊.为了更贴近真实应用场景，本实验采用双三次插值与高斯模糊相结合的双重降质方式来模拟生成低分辨率图像.

2.1.2 训练细节

对于PGDformer，本文采用4层编码-解码结构，用于多尺度特征提取以及动态调整参数.从第1层到第4层，在PDM-PSA中注意力头设置为［1， 2， 4， 8］，通道数为［32， 64， 128， 256］，窗口大小设置为16×16.对于扩散模型，总的时间步长设置为4，扩散系数

β t

从

β 1 = 0.1

线性增长到

β T = 0.99

，去噪网络的线性层数为5.采用Adam优化器来训练整个模型，初始学习率设置为0.0002，使用学习率衰减策略，分别在10万次、20万次、30万次和40万次迭代时衰减至原学习率的一半，总迭代次数为50万次.所有实验均在Pytorch深度学习框架下进行，GPU为两张NVIDIA GTX 1080Ti， Python版本为3.9.

2.2 对比实验

2.2.1 客观指标分析

为了验证本文方法的有效性，与双三次插值法（Bicubic）、SwinIR^［13］、DiffIR^［18］、EDSR^［21］、ESRGAN^［22］、SR3^［23］和SinSR^［24］等7种有代表性的超分辨率方法在不同放大因子（2 ×和4 ×）下进行对比，评价指标采用PSNR和SSIM.

对比结果如表1所示.从表1可以看出，当放大因子为2 ×时，EDM-MSR在PD和T2模态上均取得了最优的PSNR和SSIM结果.在PD模态下，相比于次优方法DiffIR提升了0.09 dB的PSNR，同时SSIM也达到了最高值0.9805；与基于CNN的EDSR和基于Transformer的SwinIR相比，EDM-MSR的PSNR分别提高了1.06 dB和0.62 dB，表明扩散模型和Transformer的融合设计能够更有效地捕捉图像的高频细节；在4 ×放大因子下，EDM-MSR在PD、T1和T2三种模态下均取得了最优结果，PSNR相比于次优方法分别提高了0.35 dB、0.29 dB和0.24 dB，同时SSIM也取得最优值.总体而言，EDM-MSR通过轻量化的潜在空间建模和多头置换自注意力机制实现了更优的重建精度.

为了进一步评估不同扩散模型在MRI超分辨率任务中的计算效率，本文对SR3、SinSR、DiffIR以及本文提出的EDM-MSR进行参数量、步长和推理时间的对比分析.实验基于4 ×放大因子，在T2模态数据上进行推理时间统计，结果如表2所示.可以看出，SR3由于其参数量高达155 M，并且使用1000步的步长，因此推理时间达到92.56 s，计算效率较低.而SinSR采用1步去噪的的方式，推理时间仅为1.51 s，但由于步长过短，对最终重建的图像质量有所影响.DiffIR和EDM-MSR均采用4步去噪，但EDM-MSR的参数量仅为20 M，相比于DiffIR（26 M）更轻量化，并且推理时间进一步缩短至3.75 s，比DiffIR（4.26 s）提升了约12%的推理效率，同时仍能保证高质量的重建结果.

2.2.2 视觉质量分析

为评估不同超分辨率方法在MRI图像重建中的视觉表现，本文在放大因子为4 ×的条件下，分别在PD、T1和T2三种模态数据集上进行了定性对比分析.图4-图6展示了各方法在不同模态下的重建结果：第1行为整体重建图像，第2行为感兴趣区域的局部放大图，第3行为对应的误差图.误差图颜色越接近蓝色表示重建误差越小，即重建效果越好；颜色越亮则说明误差较大，图像质量较差.

从图中可以看出，传统插值方法在细节恢复方面存在明显不足，生成的图像边缘模糊，纹理信息丢失严重.基于扩散模型的方法（如DiffIR、SinSR以及EDM-MSR）在恢复结构信息方面表现较优，能够更准确地重建组织细节.值得注意的是，本文提出的方法EDM-MSR在多个模态下均展现出更优的视觉质量.在局部放大区域中，相比于基于CNN和基于Transformer的SR方法，EDM-MSR生成的图像具有更清晰的边缘和更丰富的纹理信息，并且误差较小，表明该方法在医学图像的高频信息方面具有更好的表现.

2.3 消融实验

为了验证本文提出的EDM-MSR模型中各个关键组件对MRI超分辨率重建任务的有效性，设计了一系列消融实验，主要针对扩散先验表示、条件信息、联合训练策略、置换自注意力以及扩散模型的反向去噪过程中的迭代次数进行分析.不同的变体均采用相同的训练策略，完成训练后在放大因子为4×的T2数据集上进行测试.

2.3.1 扩散先验的有效性

在本研究的完整模型中，利用紧凑的扩散先验表示来指导PGDformer进行超分辨率重建，以增强重建性能.为了验证扩散先验的作用，在对照组中仅保留第一阶段的训练，去除第二阶段的条件信息提取网络和PGDformer重建模块，将此变体记为Baseline.实验结果如表3中第1行所示，可见有明显下降，PSNR从31.13 dB下降至30.06 dB，SSIM从0.9135下降至0.8997.由于没有了包含高频细节的先验表示的引导，故对最终的纹理细节重建产生了较大的影响.这表明扩散模型可以有效捕捉脑部MR图像的先验分布，并为超分辨率重建提供关键的高频信息引导.

2.3.2 条件信息的有效性

在完整模型中，第二阶段的训练中加入了条件信息提取模块，以充分利用低分辨率图像的特征信息.为验证该部分的贡献，在对照组实验中去除了条件提取网络，并保持模型其他组件不变，将此变体记为w/o CEN.实验结果如表3中第2行所示，PSNR和SSIM均有下降，这表明条件信息提取网络可以为扩散模型提供更准确的引导信息，从而提升最终的重建质量.

2.3.3 联合训练策略的有效性

传统的两阶段训练方法首先独立训练自动编码器，进而在固定编码器参数的基础上训练解码器.本文的联合训练策略则通过在第二阶段中同时优化自动编码器（CEN）和解码器（PGDformer），以实现更紧密的特征融合和信息利用.为了验证联合训练策略的有效性，在第二阶段实验中只训练CEN和扩散模型，并且仅利用扩散损失来优化网络，完成训练后将其和第一阶段的PGDformer直接结合起来重建图像，将此变体记为w/oJoint.实验结果如表3中第3行所示，PSNR由31.13 dB下降至30.56 dB，SSIM从0.9135下降至0.9032.这表明，在分开训练的情况下，扩散模型和PGDformer无法充分协同，导致模型在重建过程中对细节的恢复能力下降.因此，联合训练策略可以实现端到端优化，从而有效提升了模型的整体性能.

2.3.4 置换自注意力的有效性

在PGDformer中引入了置换自注意力机制，在保持计算复杂度可控的同时，有效扩大了感受野，从而增强了全局信息的建模能力.为验证置换自注意力机制的有效性，在对照组实验中将置换自注意力替换成普通的3×3深度卷积，将此变体记为w/o PSA.实验结果如表3中第4行所示，PSNR和SSIM相比于完整模型均有下降，表明在大窗口范围内执行注意力计算能够更充分地捕捉全局上下文信息，从而提升重建质量.

2.3.5 扩散模型的迭代次数

扩散模型的反向去噪过程通常需要多次迭代，以逐步恢复高质量图像.为探讨不同迭代次数对重建性能的影响，本文设置了6种迭代次数T=｛1，2，4，8，16，32｝，对PSNR变化趋势进行分析，实验结果如图7所示.当T=1时，反向过程生成的先验表示不足，导致PSNR显著偏低；随着T的增加，重建性能明显提升，当T=4时已接近饱和，此后继续增加迭代次数对性能提升的作用趋于减弱（如从T=4增加至T=32，PSNR提升不足0.01 dB）.这说明在高度压缩的潜在空间中，仅需较少的反向步骤即可获得稳定有效的先验表示.综合考虑性能提升与计算开销，本文最终选取T=4作为去噪步数，以在精度与效率之间取得平衡.

3 结论

本文提出了一种面向脑部MRI的超分辨率重建方法，利用潜在扩散模型生成的先验来引导动态Transformer （PGDformer）进行重建.通过深度可分离卷积实现先验提取的轻量化设计，引入置换自注意力机制实现在大窗口中高效计算自注意力，从而提升全局特征建模能力，有效提升了重建图像的结构表达与高频纹理细节还原能力.IXI多模态MRI数据集上的实验结果表明：本文方法在重建图像主客观质量和重建效率等方面均展现出较好的结果.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	LI Y， SIXOU B， PEYRIN F. A review of the deep learning methods for medical images super resolution problems［J］. IRBM， 2021， 42（2）： 120-133.

[2]	WANG Z， CHEN J， HOI S C H. Deep learning for image super-resolution： A survey［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2021， 43（10）： 3365-3387.

[3]	JI Z， ZOU B， KUI X， et al. Deep learning-based magnetic resonance image super-resolution： A survey［J］. Neural Computing and Applications， 2024， 36（21）： 12725-12752.

[4]	DONG C， LOY C C， HE K， et al. Learning a deep convolutional network for image super-resolution［C］//Computer Vision-ECCV 2014. Cham： Springer， 2014： 184-199.

[5]	QIU D， ZHANG S， LIU Y， et al. Super-resolution reconstruction of knee magnetic resonance imaging based on deep learning［J］. Computer Methods and Programs in Biomedicine， 2020， 187： 105059.

[6]	VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need［J］. Advances in Neural Information Processing Systems， 2017， 30： 5998-6008.

[7]	DOSOVITSKIY A， BEYER L， KOLESNIKOV A， et al. An image is worth 16 × 16 words：Transformers for image recognition at scale［J］. arXiv： 2020，2010.11929.

[8]	LIU Z， LIN Y， CAO Y， et al. Swin transformer： Hierarchical vision transformer using shifted windows［C］//2021 IEEE/CVF International Conference on Computer Vision （ICCV）. Montreal：IEEE， 2022： 9992-10002.

[9]	YAN C， SHI G， WU Z. SMIR： A Transformer-Based Model for MRI super-resolution reconstruction［C］//2021 IEEE International Conference on Medical Imaging Physics and Engineering （ICMIPE）. Hefei：IEEE， 2022： 1-6.

[10]	FENG C M， YAN Y， FU H， et al. Task transformer network for joint MRI reconstruction and super-resolution［C］//Medical Image Computing and Computer Assisted Intervention-MICCAI 2021. Cham： Springer， 2021： 307-317.

[11]	FORIGUA C， ESCOBAR M， ARBELAEZ P. SuperFormer： Volumetric transformer architectures for MRI super-resolution［C］//Simulation and Synthesis in Medical Imaging. Cham： Springer， 2022： 132-141.

[12]	HUANG S， LIU X， TAN T， et al. TransMRSR： Transformer-based self-distilled generative prior for brain MRI super-resolution［J］. The Visual Computer， 2023， 39（8）： 3647-3659.

[13]	LIANG J， CAO J， SUN G， et al. SwinIR： Image restoration using swin transformer［C］//2021 IEEE/CVF International Conference on Computer Vision Workshops （ICCVW）.Montreal：IEEE， 2021： 1833-1844.

[14]	HO J， JAIN A， ABBEEL P. Denoising diffusion probabilistic models［C］//Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver：ACM， 2020： 6840-6851.

[15]	CHUNG H， LEE E S， YE J C. MR image denoising and super-resolution using regularized reverse diffusion［J］. IEEE Transactions on Medical Imaging， 2023， 42（4）： 922-934.

[16]	WU Z， CHEN X， XIE S， et al. Super-resolution of brain MRI images based on denoising diffusion probabilistic model［J］. Biomedical Signal Processing and Control， 2023， 85： 104901.

[17]	ROMBACH R， BLATTMANN A， LORENZ D， et al. High-resolution image synthesis with latent diffusion models［C］//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.New Orleans： IEEE， 2022： 10674-10685.

[18]	XIA B， ZHANG Y， WANG S， et al. DiffIR： Efficient diffusion model for image restoration［C］//2023 IEEE/CVF International Conference on Computer Vision （ICCV）. Paris：IEEE， 2024： 13049-13059.

[19]	CHEN Z， ZHANG Y， LIU D，et al.Hierarchical integration diffusion model for realistic image deblurring［J］// arXiv： 2023，2305.12966.

[20]	ZHOU Y， LI Z， GUO C L， et al. SRFormer： Permuted self-attention for single image super-resolution［C］//2023 IEEE/CVF International Conference on Computer Vision （ICCV）.Paris：IEEE， 2024： 12734-12745.

[21]	LIM B， SON S， KIM H， et al. Enhanced deep residual networks for single image super-resolution［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops （CVPRW）.Honolulu：IEEE， 2017： 1132-1140.

[22]	WANG X， YU K， WU S， et al. ESRGAN： Enhanced super-resolution generative adversarial networks［C］//Computer Vision-ECCV 2018 Workshops. Cham： Springer， 2019： 63-79.

[23]	SAHARIA C， HO J， CHAN W， et al. Image super-resolution via iterative refinement［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2023， 45（4）： 4713-4726.

[24]	WANG Y， YANG W， CHEN X， et al. SinSR： Diffusion-based image super-resolution in a single step［C］//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Seattle：IEEE， 2024： 25796-25805.