用于3D医学图像分割的空间通道并行网络

谌潼 ,  谢勤岚

中南民族大学学报(自然科学版) ›› 2026, Vol. 45 ›› Issue (01) : 69 -76.

PDF (2637KB)
中南民族大学学报(自然科学版) ›› 2026, Vol. 45 ›› Issue (01) : 69 -76. DOI: 10.20056/j.cnki.ZNMDZK.20250827
物理与电子信息科学

用于3D医学图像分割的空间通道并行网络

作者信息 +

A parallel spatial-channel network for 3D medical image segmentation

Author information +
文章历史 +
PDF (2699K)

摘要

获取更深层次和更多维度的图像特征有助于3D医学图像分割网络更精确、更稳定地分割图像.现有的3D医学图像分割方法通过提取图像空间特征和通道特征来获取非局部的图像特征的能力有限.为了提取更全面的图像特征,提出了SC-UNet模型.该模型通过外部空间通道注意力块不仅可以捕获图像的空间特征和通道特征,还可以提取图像空间特征与通道特征之间的强相关性.通过并行卷积注意力块能从空间和通道的角度自动学习和获取空间和通道特征.将外部空间通道注意力块和并行卷积注意力块使用拼接的方式进行结合.实验使用MSD数据集进行评估,结果表明SC-UNet模型的DSC为85.51%,比基线模型UNETR++高0.85%,比nn-UNet高1.41%.

Abstract

Obtaining deeper, more multi-dimensional image features facilitates more precise and stable segmentation in 3D medical image segmentation networks. Existing 3D medical image segmentation methods exhibit limited capability in extracting non-local image features through spatial and channel feature extraction. To acquire more comprehensive image features, the SC-UNet model is proposed. This model employs an External Spatial Channel Attention(ESCA) to not only capture spatial and channel features but also extract strong correlations between spatial and channel characteristics. Through the Parallel Convolutional Attention Block (PCAB), the network automatically learns and acquires spatial-channel features from dual perspectives. The ESCA and PCAB are integrated through concatenation. Experimental evaluations on the Medical Segmentation Decathlon(MSD) dataset demonstrate that the proposed SC-UNet achieves a Dice Similarity Coefficient(DSC) of 85.51%, surpassing the baseline model by 0.85% and outperforms nn-UNet by 1.41%.

Graphical abstract

关键词

3D医学图像分割 / 空间通道注意力 / 外部注意力 / 混合结构

Key words

3D medical image segmentation / spatial-channel attention / external attention / hybrid architecture

引用本文

引用格式 ▾
谌潼,谢勤岚. 用于3D医学图像分割的空间通道并行网络[J]. 中南民族大学学报(自然科学版), 2026, 45(01): 69-76 DOI:10.20056/j.cnki.ZNMDZK.20250827

登录浏览全文

4963

注册一个新账户 忘记密码

3D医学图像相对于2D医学图像具有更丰富的图像信息,同时可训练图像少、学习难度高,具有大范围的对象和尺度、多类与不平衡标签、小对象和边界模糊等难点.为了克服以上难点,获取3D医学图像中丰富的特征信息,ÇICEK等在U-Net1的基础上提出了3D U-Net2,该网络沿用编码器-解码器的U型结构,使用跳跃连接将编码器和解码器联系在一起.但由于卷积算子本身的局限性,基于CNN的分割方法擅长提取图像的局部特征,且随着网络的加深,卷积核逐渐关注整个图像中的一个子区域,使得其聚合全局信息的能力不断下降,无法建立远距离依赖关系.
目前有两种主流方法解决以上限制.第一种方法是将卷积层堆叠,进行下采样,或者使用更大的卷积核获得更大的视野范围3-4;第二种方法是使用注意力模块来获取全局特征并建立远距离依赖关系4-5,如MedT6、Swin-UNet7、DS-TransUNet8、D-Former9等.
最近的一些研究中,许多方法使用CNN和注意力机制相结合的策略,既可以提取局部特征又可以提取全局特征,如TransUNet10、UNETR11、CT-Net12、HmsU-Net13等.这种策略逐渐成为3D医学图像分割的热门方法之一.但是这些工作主要侧重于提高分割精度而忽略了模型规模的大小.DAE-former14、SSCFormer15在空间特征和通道特征两个方面来提取3D医学图像的特征,增加了从3D医学图像中获取到的信息量,实现更好的性能效果.但这些方法忽略了空间特征与通道特征之间的相关性.
为了解决以上的问题,本文受到UNETR++[16]和CBAM17的启发,提出了SC-UNet,一种能提取空间特征与通道特征之间相关依赖性的3D医学图像分割网络.该网络具有编码器-解码器的U型结构,通过空间通道联合注意力模块捕获图像的空间与通道之间的强依赖关系,学习整个数据集的空间和通道特征,从而提高模型的泛化能力.

1 网络模型介绍

首先概述SC-UNet的总体结构,之后对其关键模块结构进行详细的介绍.

1.1 总体结构

SC-UNet是编码器-解码器结构的U型网络,总体结构如图1所示.编码器分为4个阶段,每一阶段都使用了空间通道联合注意力模块(Space Channel Union Attention, SCUA).在第一个阶段使用嵌入层对输入的3D医学图像XRH×W×D×C进行切割,分割的数量为N=H/h×W/w×D/d,之后图像进入SCUA中.其余阶段每一层都先通过下采样层使图像分辨率降低为原来的一半,通道扩大为原来的两倍,之后再进入SCUA中.通过外部空间通道注意力(External Spatial Channel Attention, ESCA)进行外部注意力计算,获取图像全局特征,并捕获通道和空间之间的强依赖关系.通过并行卷积注意力块(Parallel Convolutional Attention Block, PCAB)进行卷积注意力计算,自适应地学习图像的空间和通道特征,获取图像的局部特征.最后将两者提取到的图像特征相互融合,通过跳跃连接与解码器相对应的阶段相连,使图像恢复由下采样造成的信息损失.编码器也分为4个阶段,先经过上采样后与编码器的图像特征进行融合,然后进入SCUA中,其处理步骤与编码器类似.

1.2 空间通道联合注意力

空间通道联合注意力(SCUA)的结构如图2所示,它的主要作用是提取图像的空间和通道特征信息、捕获空间与通道之间的强依赖关系以及融合特征信息.SCUA主要由外部空间通道注意力(ESCA)和并行卷积注意力(PCAB)组成.ESCA使用点积注意力的方法,通过查询矩阵和键记忆单元的权重在空间分支和通道分支之间共享,捕获单张图片中空间与通道之间的相关性,其中参与运算的记忆单元可以捕获数据集中每张图片的空间和通道特征信息,并随着训练过程的进行建模整个数据集不同样本间的联系.PCAB使用缩放注意力的方法,对图像分别进行空间卷积注意力计算和通道卷积注意力计算,学习使用全局信息来选择性地强调信息特征并抑制不重要的特征.

缩放注意力与点积注意力是两组不同的技术且提取特征目标也不相同18.缩放注意力是通过对各个特征点分配相对应的权重来表示不同特征点的重要性;点积注意力侧重于关注同个图像内的各个特征点,计算每个特征点之间的相互重要性,通过相互重要性得到注意力权重.由于两种注意力方法的原理不相同,获得的图像特征信息也不同,因此ESCA和PCAB捕获的图像特征信息可以相互补充与融合.

假设输入图像为Xi,图像进入SCUA后,首先通过位置嵌入层添加位置信息,然后将图像分别送入ESCA和PCAB,经过它们处理后将两者融合,最后通过残差卷积后得到Xo.具体公式如下:

Xi'=PositionXi
Xf'=ESCAXi'+PCABXi'
F=Xf'+Xi'
Xo=ConvResF+F

其中,Xi为SCUA的输入图像,Xo为SCUA的输出图像.ESCA(·)PCAB(·)Position(·)分别代表ESCA、PCAB和位置嵌入层.Res(·)为使用3×3×3卷积核的残差卷积块.Conv(·)为使用1×1×1卷积核的卷积块.

1.2.1 外部空间通道注意力

外部空间通道注意力(ESCA)的结构如图3所示.ESCA通过共享QK获取通道和空间相互依赖关系.在通道分支中,Q与键记忆单元Mk计算出相似度Ac,再由Ac与通道值记忆单元Mcv计算出图像的通道特征;在空间分支中,相似度计算方法与通道部分基本一致,区别是Mk需要经线性投影层后与Q计算出相似度As.之后As与空间值记忆单元Msv计算出图像的空间特征信息.由于McvMsvMk是独立于输入的可学习参数,可记忆每张经过处理的图像的特征,所以会随着训练过程的进行逐渐记忆整个数据集中每张图像的空间特征和通道特征.结合以上方法,实现捕获数据集中每一张图像的空间与通道的相互依赖,从而提升模型性能.

具体来说,当图像进入ESCA后,首先通过线性投影生成共享的查询QRB×h×N×d.然后Q与键记忆单元Mk计算出注意力图Ac.之后与通道值记忆单元Mcv计算出图像的通道特征.Mk经过线性映射后得到Mk'QMk'计算出注意力图As,之后与空间值记忆单元Msv计算出图像的空间特征.最后将空间特征和通道特征进行融合,得到最终输出的图像.具体公式如下:

Q=Linearxie
Ac=αci,j=NormQΤMk
Mk'=LinearMk
As=αsi,j=NormQMK'Τ
xoe=AsMsv+AcMcv

其中,xie表示ESCA的输入图像,xoe表示ESCA的输出图像.MkMv分别表示键记忆单元和值记忆单元,Mk'Mk映射产生.(α)i,j表示是第i个特征与MRd×s的第j行之间的相似度.A是通道注意力图,As是空间注意力图.

1.2.2 并行卷积注意力块

并行卷积注意力(PCAB)块的结构如图4(a)所示,它主要由通道注意力和空间注意力两个分支组成.通道注意力分支结构如图4(b)所示,通过平均池化层将图像空间信息压缩为1,由两个不同通道参数的卷积层组成的压缩和激发块提取图像空间特征信息.最后归一化给各个通道特征分配对应的权重来表示不同通道特征的重要性,为每个通道的特征图乘上对应的权重来获得不同的关注度.空间注意力分支结构如图4(c)所示,该分支由一层通道为1的卷积层组成.通过卷积层将图像通道压缩为1,通过归一化给各个空间特征分配对应的权重来表示不同空间特征的重要性.

具体来说,当图像进入PCAB后,先将输入图像xipRB×H×W×D×C转化为xipRB×N×C,其中N=H×W×D.之后图像分别进入空间和通道两分支中进行处理.在通道分支中,图像先经过平均池化层处理,将图像空间压缩为1,即xcRB×1×C,再由两个1×1卷积核的卷积层进行压缩和激发操作.第一个卷积层将通道压缩为C/2,第二个卷积层将通道恢复为C.之后,进行归一化处理,对通道特征进行权重分配得到图像的通道注意力图.最后将原图像与权重相乘得出相应的图像通道特征.在空间分支中,图像进入1×1卷积核的卷积层将图像通道压缩为1,即xsRB×N×1,再通过归一化处理,对空间特征进行权重分配得到图像的空间注意力图.最后将原图像与权重相乘得出对应的图像空间特征.

具体公式如下:

Fs=xip·NormConv1xip
Fc=xip·NormConvCConvC/2AvgPoolxip
xop=Fc+Fs

其中,FsFc分别表示空间特征和通道特征.xipxop分别表示PCAB的输入图像和输出图像.Conv1(·)ConvC/2(·)ConvC(·)分别表示输出通道为1、C/2C的卷积层.AvgPool(·)表示平均池化层.

2 实验

2.1 实验数据集

本文使用了医学分割十项全能数据集(The Medical Segmentation Decathlon, MSD)19进行实验.该数据集包括来自不同器官和成像模式的10项分割任务,这些任务旨在针对医学图像中的常见困难,如不平衡类、小训练集和小对象等.MSD提供了在多场景下衡量分割算法的普遍金标准.实验中选取了其中的脑肿瘤分割任务作为实验数据集.

脑肿瘤分割任务的数据集由484个多模态多部位并带有真实标签的MRI图像组成.每张图像由4种脑部MRI扫描模态构成,即native T1-weighted(T1w),post-contrast T1-weighted(T1ce),T2-weighted(T2w)和Fluid Attenuated Inversion Recovery(FLAIR).每个模态的体积为240 × 240 × 155.体素的空间分辨率为1.0 × 1.0 × 1.0 mm3.所有样本按16∶3∶1的比例随机分为训练集、验证集和测试集.脑肿瘤任务可以归纳为具有4通道输入的4类分割任务.

2.2 评价指标

实验测试基于两个指标进行:Dice Similarity Coefficient(DSC)和95%的Hausdorff Distance(HD95).DSC是一种集合相似度的度量指标,通常用于计算两个样本之间的相似度,值的范围为0~1,具体公式如下:

DSCT,P=2i=1lTiPii=1lTi+i=1lPi

其中,TP分别表示体素的真实值和预测值.

HD95是衡量边界重合程度的指标,预测分割区域边界与真实区域边界之间的最大距离.其值越小代表边界分割误差越小,分割的质量越好.设XY是度量空间的两个非空子集,则定义它们的HD95为:

HD95X,Y=maxmaxxXminyYdx,y,maxyYminxXdx,y×95%.

为了保持整体数值的稳定性,因此滤除5%的离群点,以免造成不合理的距离.一般选择从小到大排名前95%的距离作为实际Hausdorff Distance,计算值越小,表示两个集合的相似度越高.

2.3 实验环境

实验在Python 3.7、Pytorch 1.7.1和Windows10系统环境中进行.使用带有24GB RAM的NVIDIA TITAN RTX GPU对模型进行训练.为了与UNETR++[16]和nn-UNet20等高性能网络进行对比,本文使用相同的预测策略和数据增强方法,并且不进行预训练.初始学习率设置为0.01,并使用“poly”策略衰减学习率.使用SGD优化器对模型进行优化,将动量和衰减权重分别设置为0.99和0.00003,进行1000轮训练.

2.4 损失函数

损失函数是由dice损失函数与交叉熵损失函数之和组成,以同时利用这两种损失函数的优势,其表达式为:

Ldice=1-i=1I2×v=1VYv,i·Pv,iv=1VYv,i2+v=1VPv,i2
Lce=-i=1Iv=1VYv,ilogPv,i
Lall=Ldice+Lce

其中,LallLdiceLce分别表示总损失、dice损失和交叉熵损失;I表示类别;V表示像素数量;Yv,i表示像素v是否属于i类;Pv,i表示像素v属于i类的概率.

3 实验结果及分析

本节首先展示SC-UNet在Tumor数据集上的分割结果,之后对模型的参数量进行对比和分析,并通过消融实验验证SC-UNet的有效性.

3.1 Tumor数据集上的分割结果

表1展示了Tumor数据集上的实验结果,最好的结果用蓝色表示.SC-UNet的平均DSC值为85.51%,HD95的值为3.59mm.在该两项数值上,DSC值比UNETR++[16]高0.85%,HD95仅仅比UNETR++[16]高0.03mm.值得注意的是,SC-UNet在所有的项目中都取得了最高的DSC值.

图5中可以直观地看出Tumor数据集中的分割目标的边界存在不规则、模糊的问题.得益于SC-UNet可以捕获整个数据集的空间与通道之间相互依赖的方法,大大提升了处理此类问题时的性能;另外还能发现,nnU-Net20对Tumor图像分割时出现大量的添加、遗漏等错误.UNETR++[16]对复杂边界无法做出准确的分割.

3.2 模型参数量对比

为了公平起见,实验中使用的样本Patch大小均为160 × 160 × 16.表2中展示了不同的基于自注意力机制方法的网络和不同的模块的参数,最好的结果用蓝色表示.从表中可以看出,SC-UNet的参数量相对于UNETR++[16]减少了9.07 M.这些结果表明了SC-UNet在计算参数方面具有明显的优势.同时,从只使用ESCA的参数量相对于UNETR++减少了9.09 M,这表示SC-UNet主要是通过ESCA达到减少模型参数的目的.

ESCA参数更少的主要原因是ESCA的参数主要是由3个记忆单元、1个生成Q的线性层和一个映射层构成.记忆单元的参数量总量为2Nd+Sd,线性层和映射层的参数量为NS+C2,总参数量为NS+2Nd+Sd+C2C=h×dh是头的数量).UNETR++[16]中使用的EPA模块的参数主要由4个分别生成QKVsVC的线性层和两个映射层构成.线性层的参数量为4C2,映射层的参数量为2NS,总参数量为4C2+2NS.因为NS远大于2Nd3C2大于Sd,所以EPA的总参数量远大于ESCA的参数量.

3.3 消融实验

为了验证模型的各个基本组件的有效性,本文在Tumor数据集上进行消融实验,设置了4组实验,DSC和HD95作为评估指标,第1组实验是基线方法(UNETR++[16]),第2组实验使用ESCA,第3组实验是在UNETR++[16]中加入PCAB,第4组实验是同时使用ESCA和PCAB.实验结果如表3所示,最好的结果用蓝色表示.

在第2组实验中,平均HD95结果要略好于第3组实验,而平均DSC比第1组实验提升0.14%,这可能是由于ESCA更擅长处理单模态信息;第3组实验的平均DSC提升了0.34%,而且WT、ET的DSC都高于第1组实验.对比第2组实验,PCAB通过自适应学习方法提取图像的空间特征和通道特征,在多模态数据集中表现出更好的稳定性和鲁棒性;在第4组实验中,平均DSC达到了85.51%,比第2组实验高0.71%,比第3组实验高0.51%.实验结果表明,在ESCA和PCAB的共同作用下,平均DSC得到了提升.

3.4 讨论

本文从捕获3D医学图像的空间与通道之间的相互依赖关系入手,提出了SC-UNet网络.其关键组件SCUA由ESCA和PCAB两部分组成,ESCA实现了捕获图像的空间和通道之间的相互依赖,同时还降低了计算的复杂度,PCAB捕获图像的空间特征和通道特征,提取重要的信息,抑制不重要的信息.在Tumor数据集中,SC-UNet的DSC比基线模型UNETR++[16]提升了0.85%,同时参数量降低了9.07 M.

本文提出的分割方法还有进一步的提升空间,虽然SC-UNet可以通过捕获数据集的空间特征和通道特征之间的相互依赖来提升分割性能,但在实验中可以看出,SC-UNet的HD95并没有比UNETR++[16]好,对多模态图像和组织间分界线模糊的图像表现出了边界分割适应性不足的现象.从表3中可以看出,ESCA处理分割边界不规则、模糊和杂糅的图像时DSC提升很有限,这是因为ESCA处理带有干扰的图像能力较弱.PCAB擅长滤除干扰信息,但会导致HD95指标偏高.当ESCA与PCAB结合后DSC和HD95都有稳定的提升,说明两者可以有效结合;同时,医学图像的空间特征和通道特征不仅仅局限于3D医学图像,而本文并没有在其他类型的医学图像中验证该方法.

4 结语

SC-UNet是一种可以捕获整个数据集的空间特征、通道特征以及空间特征与通道特征之间的相互依赖信息的新型3D医学图像分割网络.该网络使用CNN与注意力相结合的方法,其主要结构SCUA由ESCA和PCAB组成,用于捕获整个数据集的空间信息和通道信息.ESCA通过记忆模块进行空间和通道的注意力计算,并通过记忆模块学习整个数据集的相关信息,降低了参数量并提升了对3D医学图像的分割性能;PCAB可以学习有效信息并抑制无效信息.消融实验证明了ESCA和PCAB可以相辅相成.由ESCA与PCAB构成的SCUA使SC-UNet拥有了出色的3D医学图像分割能力.

参考文献

[1]

RONNEBERGER OFISCHER PBROX T. U-Net: Convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015. Cham: Springer, 2015: 234-241.

[2]

ÇIÇEK ÖABDULKADIR ALIENKAMP S Set al. 3D U-Net: Learning dense volumetric segmentation from sparse annotation[C]//Medical Image Computing and Computer-Assisted Intervention-MICCAI 2016. Cham: Springer, 2016: 424-432.

[3]

CHEN L CPAPANDREOU GSCHROFF Fet al. Rethinking atrous convolution for semantic image segmentation[J]. ArXiv: 2017, 1706.05587.

[4]

SZEGEDY CVANHOUCKE VIOFFE Set al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 2818-2826.

[5]

LIU ZLIN YCAO Yet al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). MontreaL: IEEE, 2021: 9992-10002.

[6]

VALANARASU J M J, OZA P, HACIHALILOGLU Iet al. Medical transformer: Gated axial-attention for medical image segmentation[C]//Medical Image Computing and Computer Assisted Intervention-MICCAI 2021. Cham: Springer, 2021: 36-46.

[7]

CAO HWANG YCHEN Jet al. Swin-unet: Unet-like pure transformer forMedical image segmentation[C]//Computer Vision-ECCV 2022 Workshops. Cham: Springer, 2023: 205-218.

[8]

LIN ACHEN BXU Jet al. DS-TransUNet: Dual swin transformer U-Net for medical image segmentation[J]. IEEE Transactions on Instrumentation and Measurement202271: 4005615.

[9]

WU YLIAO KCHEN Jet al. D-former: A U-shaped Dilated Transformer for 3D medical image segmentation[J]. Neural Computing and Applications202335(2): 1931-1944.

[10]

CHEN JLU YYU Qet al. TransUNet: Transformers make strong encoders for medical image segmentation[J]. ArXiv: 2021, 2102.04306.

[11]

HATAMIZADEH ATANG YNATH Vet al. UNETR: Transformers for 3D medical image segmentation[C]//2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Waikoloa: IEEE, 2022: 1748-1758.

[12]

ZHANG NYU LZHANG Det al. CT-Net: Asymmetric compound branch Transformer for medical image segmentation[J]. Neural Networks2024170: 298-311.

[13]

FU BPENG YHE Jet al. HmsU-Net: A hybrid multi-scale U-Net based on a CNN and transformer for medical image segmentation[J]. Computers in Biology and Medicine2024170: 108013.

[14]

AZAD RARIMOND RAGHDAM E Ket al. DAE-former: Dual attention-guided efficient transformer forMedical image segmentation[C]//Predictive Intelligence in Medicine. Cham: Springer, 2023: 83-95.

[15]

XIE QCHEN YLIU Set al. SSCFormer: Revisiting ConvNet-transformer hybrid framework from scale-wise and spatial-channel-aware perspectives for volumetric medical image segmentation[J]. IEEE Journal of Biomedical and Health Informatics202428(8): 4830-4841.

[16]

SHAKER AMAAZ MRASHEED Het al. UNETR++: Delving into efficient and accurate 3D medical image segmentation[J]. IEEE Transactions on Medical Imaging202443(9): 3377-3390.

[17]

WOO S, PARK JLEE J Yet al. CBAM: Convolutional Block attention module[M]//Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.

[18]

SHEN ZZHANG MZHAO Het al. Efficient attention: Attention with linear complexities[C]//2021 IEEE Winter Conference on Applications of Computer Vision (WACV). Waikoloa: IEEE, 2021: 3530-3538.

[19]

ANTONELLI MREINKE ABAKAS Set al. The medical segmentation decathlon[J]. Nature Communications202213: 4128.

[20]

ISENSEE FJAEGER P FKOHL S A Aet al. nnU-Net: A self-configuring method for deep learning-based biomedical image segmentation[J]. Nature Methods202118(2): 203-211.

[21]

OKTAY OSCHLEMPER JLE FOLGOC Let al. Attention U-Net: Learning where to look for the pancreas[J]. ArXiv: 2018, 1804.03999.

[22]

XIE YZHANG JSHEN Cet al. CoTr: Efficiently bridging CNN and transformer for 3D medical image segmentation[C]//Medical Image Computing and Computer Assisted Intervention-MICCAI 2021. Cham: Springer, 2021: 171-180.

[23]

WEN X WCHEN CMENG Det al. Transbts: Multimodal brain tumor segmentation using transformer[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Strasbourg: Springer, 2021: 109-119.

基金资助

湖北省自然科学基金资助项目(2016CFB489)

2024年中南民族大学研究生教研资助项目“人工智能时代生物医学工程类专业学位硕士培养改革研究”

AI Summary AI Mindmap
PDF (2637KB)

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/