基于优化下采样与特征融合的肺结节分割方法

张心莹 ,  姚为 ,  张承胜 ,  杨滨铭 ,  徐胜舟

中南民族大学学报(自然科学版) ›› 2025, Vol. 44 ›› Issue (05) : 712 -720.

PDF (2724KB)
中南民族大学学报(自然科学版) ›› 2025, Vol. 44 ›› Issue (05) : 712 -720. DOI: 10.20056/j.cnki.ZNMDZK.20250517
医学影像处理专栏

基于优化下采样与特征融合的肺结节分割方法

作者信息 +

Lung nodule segmentation method based on optimized downsampling and feature fusion

Author information +
文章历史 +
PDF (2788K)

摘要

肺结节类型多样,其复杂的影像特征使精确分割肺结节成为一大挑战. 因此,提出了一种基于优化下采样与特征融合的肺结节分割方法(DFNet). 针对最大池化导致细节信息丢失的问题,结合SPD-Conv和锐化卷积核思想,提出了空间到深度下采样(SPDD),以减少下采样过程中信息丢失的同时增强特征提取能力. 由于编码器和解码器特征之间存在语义差距,简单拼接的跳跃连接可能导致特征融合不充分. 设计了双支路融合模块(DPFM),通过增强编码器和解码器的特征融合,提升了模型的分割能力. 该模型在LIDC-IDRI数据集上取得了90.59%的Dice相似系数,相比原始U-Net提升了1.89%. 与其他分割方法相比,该模型有更好的分割性能.

Abstract

Lung nodules have various types, and their complex imaging features make accurate segmentation of lung nodules a major challenge. Therefore, a lung nodule segmentation method based on optimized downsampling and feature fusion (DFNet) is proposed. To address the issue of detail information loss caused by max pooling, combining the idea of SPD-Conv and a sharpening convolution kernel, Space-to-Depth Downsampling (SPDD) is proposed to reduce the information loss during downsampling and at the same time enhance the feature extraction capability. Due to the semantic gap between encoder and decoder features, simple concatenated skip connections may result in insufficient feature fusion. Dual-Path Fusion Module (DPFM) is designed to enhance the feature fusion between the encoder and decoder, thereby improving the segmentation performance of the model. The proposed model achieved a Dice Similarity Coefficient of 90.59% on the LIDC-IDRI dataset, which is an improvement of 1.89% compared to the original U-Net. Compared to other segmentation methods, the proposed model has better segmentation performance.

Graphical abstract

关键词

肺结节 / 图像分割 / 特征融合 / 下采样

Key words

lung nodule / image segmentation / feature fusion / downsampling

引用本文

引用格式 ▾
张心莹,姚为,张承胜,杨滨铭,徐胜舟. 基于优化下采样与特征融合的肺结节分割方法[J]. 中南民族大学学报(自然科学版), 2025, 44(05): 712-720 DOI:10.20056/j.cnki.ZNMDZK.20250517

登录浏览全文

4963

注册一个新账户 忘记密码

在中国,肺癌是癌症发病率和致死率之首1. 肺癌的生存率与分期密切相关,分期越早,预后越好,因此肺癌筛查和早期诊断对改善患者预后和降低肺癌死亡率有积极意义2. 早期肺癌的主要表现是肺结节3. 肺结节是一种小于30 mm的、局部的、具有明显放射性密度的,且完全被肺组织包围的病灶4.
肺结节类型多样,具有多种影像学特征. 如图1所示,粘连胸膜型肺结节与胸膜相连,且两者灰度相似;粘连血管型肺结节紧贴血管,或中间有血管穿过;囊腔型肺结节内部一般为含气囊腔,且囊壁较薄;磨玻璃肺结节边缘模糊,形状不规则. 这些复杂的影像特征增加了精确分割肺结节的难度.
低剂量计算机断层扫描(Computed Tomography,CT)有助于及时发现早期肿瘤并降低肺癌死亡率5. 随着CT筛查的普及,放射科医生面临处理大量影像的挑战. 计算机辅助诊断(Computer-Aided Diagnosis,CAD)技术可以帮助医疗专业人员更精准地识别和评估病变区域,提高诊断的效率和准确性.
随着深度学习的迅速发展,卷积神经网络(Convolutional Neural Network,CNN)在计算机视觉领域的应用日益广泛,现已成为目标检测、图像分割等任务中不可或缺的技术. RONNEBERGER等6提出了U-Net,该模型结构简单、易于实现,因此被广泛应用于图像分割任务. 随着应用的深入,U-Net的局限性逐渐显现. 为此,许多研究者对其架构进行了优化. ZHOU等7提出了UNet++,通过引入嵌套的密集跳跃连接,减少编码器和解码器之间的语义差距. HUANG等8提出的UNet3+设计了全尺度的跳跃连接,将不同尺度的低级细节特征与高级语义特征相结合. WANG等9提出的UCTransNet,采用了Channel Transformer(CTrans)模块替代传统的跳跃连接,进一步缩小了语义差距. LI等10提出的FusionU-Net通过两轮融合模块,充分考虑了相邻编码器输出之间的局部相关性以及跨多层双向信息交换的需求,减少了语义差距.
目前,大多数分割模型在下采样时采用池化层或跨步卷积,这容易导致细粒度信息丢失和学习到低效的特征表示,从而影响分割精度. 此外,基于直接拼接的跳跃连接未充分考虑编码器与解码器之间的语义差距,可能导致两者融合不充分,削弱了模型的分割性能. 过于复杂的架构在一定程度上能增强信息处理能力,但也会增加计算成本. 针对上述问题,本文在U-Net的基础上,提出了一种基于优化下采样与特征融合的肺结节分割方法(Optimized Downsampling and Feature Fusion Network,DFNet),其主要贡献如下:
(1)设计了空间到深度下采样(Space-to-Depth Downsampling,SPDD),SPDD采用空间到深度层和非跨步卷积层的思想,减少了下采样过程中的信息丢失,尽可能保留更多的信息. 同时,SPDD引入锐化卷积核初始化思想,增强边缘和细节信息,提升特征提取能力,从而提高分割精度;
(2)提出了双支路融合模块(Dual-Path Fusion Module,DPFM),将编码器的输出和对应的解码器上采样后的输出通过DPFM进行融合,充分结合编码器的浅层特征和解码器的深层特征,增强同层编码器和解码器之间的特征融合;
(3)提出的DFNet架构简洁,在LIDC-IDRI肺结节数据集上取得了90.59%的Dice相似系数,优于经典和主流的分割网络模型.

1 相关工作

传统的图像分割算法包括阈值分割、边缘检测、区域生长等. 如SOLTANI-NABIPOUR等11针对肺肿瘤提出了一种改进的区域生长算法. 传统的分割方法往往依赖于先验知识和基于特定领域知识设计的定制数学模型12.

随着计算机技术的发展,深度学习被逐渐应用于医学图像领域,其中基于深度学习的图像分割算法得到了广泛应用. 针对肺结节分割任务,许多研究者在U-Net的基础上进行了多项改进. 例如,HOU等13提出的SMR-UNet,用残差单元替换原始U-Net的卷积单元以加快收敛,引入Transformer增强全局建模能力,利用PixelShuffle恢复细节信息,在上采样前通过多尺度特征融合扩大感受野,从而提升肺结节分割精度. JI等14提出的ResDSda_U-Net将深度过参数化卷积层(DO-Conv)与简单的无参数注意模块(SimAM)相结合设计了ResDS块,引入密集空洞空间金字塔池化(DASPP)提取多尺度特征,此外通过卷积和通道注意力(CCA)以及卷积和空间注意力(CSA)来捕获上下文信息. SELVADASS等15提出的SAtUNet,通过引入一系列串联的空洞卷积块,增大感受野并增强特征提取能力.

尽管这些方法都取得了较好的分割效果,但它们普遍存在下采样过程中丢失信息的问题. 此外,这些方法大多采用直接拼接的跳跃连接,未考虑到编码器与解码器之间存在语义差距,这可能导致浅层特征和深层特征融合不充分. 为此,本文提出了用于肺结节分割的DFNet,该模型采用SPDD替代传统下采样,减少下采样过程中的信息丢失,并通过DPFM更有效地整合编码器和解码器的特征,进一步提升肺结节的分割精度.

2 方法与材料

2.1 数据集

本文使用的数据集来自LIDC-IDRI16,该数据集共收录了1018个病例,每个病例都包含临床胸部CT图像和相关的XML文件,每个标注文件记录了由4位经验丰富的胸部放射科医师进行两阶段的诊断结果.

本文选取了LIDC-IDRI中肺结节直径大于等于3 mm并由4位医生共同标注的CT图像作为研究对象. 考虑到不同医生的标注会存在些许差异,故本文遵循50%一致性原则,即当该区域被至少两位医生视为肺结节时,则将其判定为肺结节金标准. 经过筛选之后最终得到4104张CT图像,然后按照8∶2的比例将图像划分为训练集和测试集. 随后再将训练集按照8∶2的比例划分为训练集和验证集.

由于数据集的原始CT图像大小为512×512像素,而肺结节在其中仅占很小的比例,过大的背景区域会对训练产生较大的干扰. 为此,研究者常通过对肺结节数据集进行裁剪以提取感兴趣区域,如SMR-UNet13. 本文同样通过对原始CT图像进行裁剪,以减少无关信息的干扰. 具体而言,本文使用的数据集是根据金标准将原始CT图像裁剪为包含肺结节的64×64大小的感兴趣区域. CT图像预处理过程如图2所示.

2.2 DFNet

DFNet结构图如图3所示,主要由左侧的编码器、右侧的解码器和中间的跳跃连接组成. DFNet的编码器主要由卷积块和SPDD构成.每个卷积块(3 ×3 ConvBlock)包含一个3 × 3卷积、BN(Batch Normalization)层和ReLU激活函数,其中,3 × 3卷积用于提取特征信息,BN层有助于加快收敛速度,ReLU激活函数则增强了网络模型的非线性表达能力. SPDD用于下采样,旨在降低特征图尺寸的同时,减少下采样过程中的信息丢失,尽可能地保留信息.

在跳跃连接处引入了DPFM,该模块接收来自编码器和对应解码器的特征,并对两者进行融合. 与传统的拼接方法相比,DPFM能够更有效地融合浅层特征和深层特征.

解码器部分首先使用反卷积操作进行上采样,将特征图的通道数减半,并将特征图的尺寸增加一倍. 随后,将上采样后的输出与对应编码器部分的输出通过DPFM进行融合. 接着,将DPFM得到的特征图输送回解码器,通过两个卷积块进行特征提取. 以上操作重复4次,与左侧的编码器部分形成对称结构. 最后,通过1 × 1卷积降低通道数,并利用Sigmoid激活函数计算每个像素的类别概率,从而得到最终结果.

2.2.1 SPDD

U-Net通过最大池化降低图像分辨率,但最大池化可能导致细节信息丢失,从而影响分割精度. 因此,本文设计SPDD以替换原始的池化层,减少信息丢失.

SPDD基于SPD-Conv17的设计思想,SPD-Conv由空间到深度(Space-to-Depth,SPD)层和非跨步卷积(Non-strided Convolution,即stride=1的情况)层组成. 具体而言,首先经过SPD层对输入特征图进行重新排列,减少空间维度的信息,增加通道维度的信息,在降低特征图分辨率的同时避免信息丢失,接着通过非跨步卷积层在降低通道数的同时尽可能保留更多的信息.

SPDD模块将SPD层的比例因子(scale)设定为2,如图4所示,得到4个尺寸均为原始特征图一半的子特征图,并将它们沿通道维度进行拼接. 随后,特征图通过基于非跨步深度卷积(Depthwise Convolution)的锐化块(SharpeningBlock)进行处理,旨在增强边缘和细节信息,从而提高特征提取能力. 锐化块的主要思想是将锐化卷积核K调整至符合深度卷积的形状,使每个输入通道都独立使用一个锐化卷积核,并将其作为深度卷积的初始化权重. 实验中使用的锐化卷积核K如下:

K=0-10-15-10-10.

最后使用1×1的非跨步卷积进一步提取特征并降低通道数. 为了提高训练效率并增强非线性表达能力,该模块在整个过程中引入了BN层和ReLU激活函数.

2.2.2 DPFM

U-Net的跳跃连接是将编码器与同层解码器的特征直接进行拼接,然而由于两者之间存在语义差距,简单的拼接往往难以充分融合特征. 为此,本文设计了DPFM,旨在有效整合浅层特征和深层特征,从而增强模型的表达能力.

图5所示,DPFM首先将来自编码器的特征X1和来自相应阶段解码器的特征X2通过加法操作进行初步融合,融合后的特征通过两个支路进行处理,以进一步提取特征和优化特征融合. 左支路采用残差块,通过常规的3 × 3卷积和深度可分离卷积(Depthwise Separable Convolution,DSC)有效提取特征. 右支路先通过深度可分离卷积提取特征,然后通过全局最大池化(Global Max Pooling,GMP)获取1 × 1 × C大小的输出. 接着,通过1 × 1卷积将特征的通道数减半,再经过ReLU激活函数,随后利用1 × 1卷积将通道数恢复至原先输入特征的通道数. 在此之后,将Sigmoid激活函数处理后的结果与输入该支路的特征相乘,以提高特征表示能力. 最后,将左右支路的输出相乘,得到最终的融合结果,从而获得更丰富更有效的特征表示.

3 实验与结果

3.1 实验环境与训练参数设置

本文采用Pytorch深度学习框架,CUDA版本为11.7,编程语言为Python,模型训练在NVIDIA RTX3080 GPU上进行,操作系统为Windows 11.

训练过程中,本文使用Dice损失函数,并采用Adam优化器进行优化. Batch Size过小可能导致梯度估计的方差较大,使收敛不稳定;而Batch Size过大则可能降低模型的泛化能力. 基于实验的实际情况,本文将Batch Size设置为32. 结合损失曲线的收敛情况,设置Epoch为60. 初始学习率设为0.001,衰减系数为0.99,以平衡训练初期的较快收敛与后期的稳定优化.

3.2 评价指标

本文采用交并比(Intersection over Union,IoU)、Dice相似系数(Dice Similarity Coefficient)、精确率(Precision)和召回率(Recall)四个指标来评估模型性能,其中Dice相似系数是医学图像分割中的重要指标.

IoU是金标准和预测结果的交集和并集之比. IoU越大,图像分割效果越好. 假设G表示肺结节的金标准(即真实值),P表示模型的预测结果,∩表示取交集,∪表示取并集,具体公式为:

IoU=PGPG.

Dice相似系数用于衡量模型预测结果和金标准的相似度. Dice相似系数的值越大,表示模型的分割结果越接近金标准,具体公式为:

Dice=2PGP+G.

Precision表示模型正确预测为肺结节的像素占预测结果中为肺结节的像素总数的比例,具体公式如下:

Precision=TPTP+FP,

其中TP表示真阳性(True Positive),FP表示假阳性(False Positive).

Recall表示模型正确预测为肺结节的像素占金标准中肺结节像素总数的比例,具体公式如下:

Recall=TPTP+FN,

其中FN表示假阴性(False Negative).

3.3 实验

3.3.1 对比实验

为了验证DFNet的性能,本文与U-Net6、UNet++[7]、UNet3+[8]、UCTransNet9和FusionU-Net10五个网络模型进行对比,结果如表1所示,其中Parameters表示网络模型的参数量. 从表1可以看出,DFNet在IoU、Dice相似系数和Precision上优于其他网络模型,同时DFNet保持了较为合理的参数量.

图6展示了表1中不同方法的肺结节分割结果图,图像下方的数值表示对应的Dice相似系数. 为了更直观地分析模型的效果,图6的分割结果中用红色表示肺结节的金标准,绿色表示模型的预测结果,黄色则是金标准与预测结果的重叠部分. 对于粘连胸膜型肺结节,如图6第1行所示,由于其与胸膜紧密相连,容易导致胸膜和肺结节的误判,例如在UNet++和FusionU-Net的分割结果图中,部分胸膜被错误地包含在预测的肺结节区域内,而本文提出的DFNet在区分胸膜和肺结节方面表现优异. 对于粘连血管型肺结节,如图6第2行所示,由于血管与肺结节相互交织,容易将部分血管错误地纳入肺结节区域,本文的DFNet在肺结节边界分割方面优于其他模型,取得了较高的Dice相似系数. 对于囊腔型肺结节,如图6第3行所示,由于其囊壁一般较薄,分割难度较大,相较于其他模型只能预测到肺结节的部分区域,DFNet能够更准确地确定其形状. 对于磨玻璃肺结节,如图6第4行所示,由于其结节边缘模糊,增加了分割难度,相较于其他模型,本文的DFNet能够更精确地判断其大小与形状,获得较高的分割精度.

本文通过统计测试集中图像分割结果的Dice相似系数分布,对各模型在肺结节分割任务中的表现进行评估. 如图7所示,本实验将Dice相似系数划分为3个区间:[0,0.5]为低精度区间,(0.5,0.8]为中精度区间,(0.8,1]为高精度区间,并统计各模型在不同区间内的图像数量. 具体而言,在低精度区间[0,0.5]中,如图7(a)所示,DFNet的图像数量显著低于其他对比模型;而在高精度区间(0.8,1]中,如图7(c)所示,DFNet的图像数量明显高于其他对比模型,说明DFNet在大多数测试图像上获得了较好的分割效果. 综上所述,相较于U-Net、UNet++、UNet3+、UCTransNet和FusionU-Net,DFNet的Dice相似系数更集中于高精度区间,进一步表明其在肺结节分割任务中具有更为优越的性能表现.

3.3.2 消融实验

表2展示了各模块对模型的影响,由表中数据可知,SPDD和DPFM都能提升模型的Dice相似系数,两者的结合进一步增强了模型的分割性能.

图8展示了各模块对肺结节分割的可视化结果,并在图像下方附带了相应的Dice相似系数. 对于与其他组织粘连的肺结节,如图8第1行的粘连胸膜型肺结节和第2行的粘连血管型肺结节,单独引入SPDD或DPFM均能在一定程度上提升分割效果,但二者结合能更精细地划分肺结节边界. 对于囊腔型肺结节,如图8第3行所示,U-Net分割效果较差,仅能预测到极小部分的肺结节区域. 引入SPDD或DPFM后,Dice相似系数得到明显提升,两者结合则大幅提升了该类型肺结节的分割效果. 对于磨玻璃肺结节,如图8第4行所示,SPDD能够进一步预测肺结节的范围,DPFM有助于确定肺结节的大致形状,两者结合能够进一步提升分割效果.

4 讨论

本文提出了用于肺结节分割的DFNet模型,该模型通过引入SPDD和DPFM,更精确地划分了肺结节的边界,有效提高了肺结节的分割精度. 其中,SPDD基于SPD-Conv的思想和锐化卷积核初始化操作,减少了原始U-Net模型因最大池化导致的信息丢失,同时增强了特征提取能力. 此外,DPFM通过增强编码器与解码器的特征融合,提升了模型的分割性能.

图9对比了U-Net与DFNet在肺结节分割任务中的热力图. 在热力图中,红色表示模型的高关注度区域,蓝色则表示低关注度区域. 模型对某一区域的关注度越高,则该区域对分割结果的影响越大. 图9中第1行为肺结节的轮廓图,第2行为U-Net的热力图,第3行为DFNet的热力图.

对于粘连胸膜型肺结节,如图9第1列所示,U-Net错误地关注了非目标区域,即肺结节右下方的胸膜区域,而DFNet能够更精准地区分肺结节与胸膜. 对于粘连血管型肺结节,如图9第2列所示,DFNet能够有效减少对无关区域的关注,使模型聚焦于肺结节区域. 对于囊腔型肺结节,如图9第3列所示,U-Net仅关注了右上角的较小区域,而DFNet则能够覆盖肺结节的大部分区域,显著提高了该类型肺结节的分割效果. 对于磨玻璃肺结节,如图9第4列所示,DFNet能够扩大关注区域,较为全面地捕捉肺结节区域.

本文提出的DFNet在对粘连型肺结节、囊腔型肺结节以及磨玻璃肺结节的分割任务中表现优异,特别是在囊腔型肺结节的分割上,相比于U-Net,DFNet能够更好地捕捉其特征,显著提升分割精度. 未来的研究可以通过增加训练数据的多样性,帮助模型更全面地学习不同类型的肺结节特征,从而进一步提升分割性能.

5 结语

肺结节分割在医学影像诊断中具有重要的现实意义,其精度的提升有助于提高诊断的效率和准确性. 为此,本文提出了基于优化下采样与特征融合的肺结节分割方法DFNet. DFNet通过引入SPDD以减少下采样过程中的信息丢失并增强特征提取能力,同时利用DPFM增强编码器和解码器之间的特征融合. 实验结果表明:在LIDC-IDRI数据集上,DFNet相比于其他网络模型获得了更高的Dice相似系数,展现出良好的分割性能.

参考文献

[1]

赵文静, 尹周一, 王裕新, . 2024美国癌症统计报告解读及中美癌症流行情况对比[J]. 肿瘤防治研究202451(8): 630-641.

[2]

范亚光, 周清华, 乔友林, . 中国肺癌低剂量CT筛查指南(2023年版)[J]. 中国肺癌杂志202326(1): 1-9.

[3]

ZHOU ZGOU FTAN Yet al. A cascaded multi-stage framework for automatic detection and segmentation of pulmonary nodules in developing countries[J]. IEEE Journal of Biomedical and Health Informatics202226(11): 5619-5630.

[4]

MAZZONE P JLAM L. Evaluating the patient with a pulmonary nodule: A review[J]. JAMA2022327(3): 264-273.

[5]

ABERLE D RADAMS A MBERG C Det al. Reduced lung-cancer mortality with low-dose computed tomographic screening[J]. The New England Journal of Medicine2011365(5): 395-409.

[6]

RONNEBERGER OFISCHER PBROX T. U-Net: Convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015. Munich: Springer, 2015: 234-241.

[7]

ZHOU ZRAHMAN SIDDIQUEE M MTAJBAKHSH Net al. UNet++: A nested U-Net architecture for medical image segmentation[C]//Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Granada: Springer, 2018: 3-11.

[8]

HUANG HLIN LTONG Ret al. Unet 3+: A full-scale connected unet for medical image segmentation[C]//2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Barcelona: IEEE, 2020: 1055-1059.

[9]

WANG HCAO PWANG Jet al. UCTransNet: Rethinking the skip connections in U-Net from a channel-wise perspective with transformer[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Palo Alto: AAAI Press, 2022: 2441-2449.

[10]

LI Z, LYU H, WANG J. FusionU-Net: U-Net with enhanced skip connection for pathology image segmentation[C]//Asian Conference on Machine Learning. Istanbul: PMLR, 2024: 694-706.

[11]

SOLTANI-NABIPOUR JKHORSHIDI ANOORIAN B. Lung tumor segmentation using improved region growing algorithm[J]. Nuclear Engineering and Technology202052(10): 2313-2319.

[12]

BIANCONI FFRAVOLINI M LPIZZOLI Set al. Comparative evaluation of conventional and deep learning methods for semi-automated segmentation of pulmonary nodules on CT[J]. Quantitative Imaging in Medicine and Surgery202111(7): 3286-3305.

[13]

HOU JYAN CLI Ret al. Lung nodule segmentation algorithm with SMR-UNet[J]. IEEE Access202311: 34319-34331.

[14]

JI ZZHAO ZZENG Xet al. ResDSda_U-Net: A novel U-Net-based residual network for segmentation of pulmonary nodules in lung CT images[J]. IEEE Access202311: 87775-87789.

[15]

SELVADASS SBRUNTHA P MSAGAYAM K Met al. SAtUNet: Series atrous convolution enhanced U-Net for lung nodule segmentation[J]. International Journal of Imaging Systems and Technology202434(1): e22964.

[16]

ARMATO III S GMCLENNAN GBIDAUT Let al. The lung image database consortium(LIDC) and image database resource initiative(IDRI): A completed reference database of lung nodules on CT scans[J]. Medical Physics201138(2): 915-931.

[17]

SUNKARA RLUO T. No more strided convolutions or pooling: A new CNN building block for low-resolution images and small objects[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Cham: Springer, 2022: 443-459.

基金资助

湖北省自然科学基金资助项目(2025AFB688)

中央高校基本科研业务费专项资金资助项目(CZY22015)

AI Summary AI Mindmap
PDF (2724KB)

229

访问

0

被引

详细

导航
相关文章

AI思维导图

/