基于多尺度监督与残差反馈的优化算法有效提高鼻咽癌CT图像视交叉及视神经分割精度

刘瑨禹 ,  梁淑君 ,  张煜

南方医科大学学报 ›› 2025, Vol. 45 ›› Issue (03) : 632 -642.

PDF (2418KB)
南方医科大学学报 ›› 2025, Vol. 45 ›› Issue (03) : 632 -642. DOI: 10.12122/j.issn.1673-4254.2025.03.21

基于多尺度监督与残差反馈的优化算法有效提高鼻咽癌CT图像视交叉及视神经分割精度

作者信息 +

A multi-scale supervision and residual feedback optimization algorithm for improving optic chiasm and optic nerve segmentation accuracy in nasopharyngeal carcinoma CT images

Author information +
文章历史 +
PDF (2475K)

摘要

目的 提出并验证一种新的基于多尺度监督与残差反馈的深度学习分割算法(DSRF),以实现对鼻咽癌患者CT图像中小器官-视交叉和视神经的精确分割。 方法 收集来自SegRap2023、StructSeg2019和HaN-Seg2023公开数据库的212例鼻咽癌患者CT图像及其真实标签。为解决传统卷积神经网络在池化过程中小器官特征丢失的问题,设计一种基于混合池化策略的解码器,利用自适应池化和平均池化技术将高级语义特征逐步细化并融合低级语义特征,使网络学习到更细小的特征信息。采用多尺度深度监督层,在深度监督下学习丰富的多尺度、多层次语义特征,以提高对视交叉和视神经边界的识别能力。针对CT图像中视交叉和视神经对比度低的挑战,设计可使网络多次迭代的残差反馈模块,该模块充分利用模糊边界和易混淆区域的信息,通过监督迭代细化分割结果,并结合每次迭代的损失优化整个分割框架,提高分割精度和边界清晰度。采用消融实验验证各组件的有效性,并与其他方法进行对比实验。 结果 引入混合池化策略、多尺度深度监督层和残差反馈模块的DSRF算法能有效提升小器官的特征表示,实现视交叉和视神经的准确分割,其平均DSC达到0.837,ASSD低至0.351。消融实验进一步验证DSRF方法中各组成部分的贡献。 结论 本文提出的基于多尺度监督及残差反馈的深度学习分割算法能有效提升特征表示能力,实现视交叉和视神经准确分割。

Abstract

Objective We propose a novel deep learning segmentation algorithm (DSRF) based on multi-scale supervision and residual feedback strategy for precise segmentation of the optic chiasm and optic nerves in CT images of nasopharyngeal carcinoma (NPC) patients. Methods We collected 212 NPC CT images and their ground truth labels from SegRap2023, StructSeg2019 and HaN-Seg2023 datasets. Based on a hybrid pooling strategy, we designed a decoder (HPS) to reduce small organ feature loss during pooling in convolutional neural networks. This decoder uses adaptive and average pooling to refine high-level semantic features, which are integrated with primary semantic features to enable network learning of finer feature details. We employed multi-scale deep supervision layers to learn rich multi-scale and multi-level semantic features under deep supervision, thereby enhancing boundary identification of the optic chiasm and optic nerves. A residual feedback module that enables multiple iterations of the network was designed for contrast enhancement of the optic chiasm and optic nerves in CT images by utilizing information from fuzzy boundaries and easily confused regions to iteratively refine segmentation results under supervision. The entire segmentation framework was optimized with the loss from each iteration to enhance segmentation accuracy and boundary clarity. Ablation experiments and comparative experiments were conducted to evaluate the effectiveness of each component and the performance of the proposed model. Results The DSRF algorithm could effectively enhance feature representation of small organs to achieve accurate segmentation of the optic chiasm and optic nerves with an average DSC of 0.837 and an ASSD of 0.351. Ablation experiments further verified the contributions of each component in the DSRF method. Conclusion The proposed deep learning segmentation algorithm can effectively enhance feature representation to achieve accurate segmentation of the optic chiasm and optic nerves in CT images of NPC.

Graphical abstract

关键词

鼻咽癌 / 视交叉与视神经分割 / 混合池化策略 / 深度监督 / 残差反馈

Key words

nasopharyngeal carcinoma / optic chiasm and optic nerve segmentation / hybrid pooling strategy / deep supervision / residual feedback

引用本文

引用格式 ▾
刘瑨禹,梁淑君,张煜. 基于多尺度监督与残差反馈的优化算法有效提高鼻咽癌CT图像视交叉及视神经分割精度[J]. 南方医科大学学报, 2025, 45(03): 632-642 DOI:10.12122/j.issn.1673-4254.2025.03.21

登录浏览全文

4963

注册一个新账户 忘记密码

放射治疗是鼻咽癌的主要治疗手段,危及器官的准确勾画是决定放射治疗能否达到预期效果的关键1。目前,鼻咽癌危及器官的勾画主要依赖于医师手动在CT图像上进行,其精度取决于医师的经验和熟练程度,具有较大的主观性2。手动勾画速度慢,人力成本高,医生工作负担大。因此,开发准确高效的自动勾画工具,可以减轻放疗医生的工作量、缩短危及器官勾画时间,并提高放疗计划质量。
在鼻咽癌危及器官分割研究领域,基于卷积神经网络(CNN)的深度学习分割算法得到了广泛应用3-8。然而,现有方法已经能够较为精准地分割大体积危及器官,而准确分割小体积危及器官(如视神经和视交叉)仍是一个重大挑战。有研究提出一种并行网络架构PCG-Net7,采用U-Net编码器和门控轴向Transformer编码器组成的并行编码器,用于提取局部和全局的语义特征,并通过级联图模块融合多尺度特征信息,最终通过解码器上采样和生成模块生成不同尺度的分割图。分割结果显示,对于大小、形态不同的鼻咽癌危及器官,分割准确性存在显著差异。Liu等8筛选出149篇关于头颈部危及器官分割的深度学习算法研究,结果表明,现有深度学习算法在大体积危及器官(如脑干、眼球等)上的DSC较高,达到0.85以上,对于较小体积的视交叉和视神经,平均DSC仅为0.62和0.73。这是由于危及器官大小差异显著,在CNN高级卷积层的输出中,经过一系列卷积和池化操作后,语义特征高度抽象化,小体积的危及器官在高层特征中存在较为严重的信息丢失,直接影响分割准确性。此外,小危及器官如视神经和视交叉在CT图像上的边缘清晰度较差,很大程度上限制了其分割的准确性。
针对鼻咽癌危及器官中小器官——视交叉和视神经分割精度低的问题,本文提出一种新的基于多尺度监督及残差反馈优化机制的鼻咽癌视交叉和视神经分割算法(DSRF)。针对传统卷积神经网络在池化过程中导致小器官特征丢失的问题,本算法在解码器中采用混合池化策略(HPS),将高级语义特征逐步细化并融合低级语义特征,使网络能够学习到更细小的特征信息。同时,本算法在输出层采用多尺度深度监督层(DSL),在深度监督下学习丰富的多尺度、多层次语义特征,以提高对视交叉和视神经边界的识别能力。此外,针对CT图像中视交叉和视神经对比度较低的问题,本算法引入残差反馈网络9的反馈传输策略,设计可使网络多次迭代的残差反馈模块(RFM),重点关注模糊边界和易混淆区域的信息,通过监督迭代过程不断细化分割结果,并结合每次迭代的损失函数对分割框架进行优化,从而提高分割精度和边界清晰度。

1 材料和方法

1.1 实验资料

本文资料来自3个公开用于鼻咽癌危及器官分割的数据集Segmentation of Organs-at-Risk and Gross Tumor Volume of NPC(SegRap2023)10、Automatic Structure Segmentation for Radiotherapy Planning Challenge(StructSeg2019)11和The Head and Neck Organs-at-Risk CT and MR Segmentation Challenge(HaN-Seg2023)12。3个公开数据集分别由120、50和42例鼻咽癌患者的CT图像组成(图1)。数据集参数如下:

SegRap2023数据集:图像矩阵为512×512×98~1024×1024×197,分辨率为0.43 mm×0.43 mm×3.00 mm~1.13 mm×1.13 mm×3.02 mm;

StructSeg2019数据集:图像矩阵为512×512×100~512×512×152,分辨率为0.9766 mm×0.9766 mm× 3.00 mm~1.188 mm×1.188 mm×3.00 mm;

HaN-Seg2023数据集:图像矩阵为512×512×116~1024×1024×323,分辨率为0.52 mm×0.52 mm×2.0 mm~1.56 mm×1.56 mm×3.0 mm。

本文的分割目标是视交叉和视神经,直接采用3个公开数据集提供的真实标签训练和验证本文的算法模型。在图像预处理方面,首先对所有图像进行中心裁剪,并且重采样至矩阵大小为512×512。其次,将SegRap2023和StructSeg2019两个数据集按9∶1的比例划分为训练集和内部测试集,并采用nnU-Net13中的数据增强方法对训练集进行数据扩增,同时以2∶1的比例从训练集中划分出验证集,用于三折交叉验证。HaN-Seg2023数据集则被用作外部测试集。

1.2 网络框架

DSRF分割算法选用U形的编码器-解码器框架作为主干网络,其中编码器部分采用ResNet-5014进行特征提取,解码器部分则采用新的混合池化策略,使网络能够学习更精细的语义特征。输出层采用多尺度深度监督层,通过不同尺度的深度监督学习丰富的多层次语义特征,提升对视交叉和视神经边界的识别能力。DSRF分割算法包括2个步骤:(1)在CT图像输入下,利用编码-解码框架结合多尺度深度监督层,生成初始的分割结果。(2)应用残差反馈模块,从解码器输出的特征中提取残差信息,并在残差真值(分割真实标签和初始分割结果之间的差异)的监督下,学习低置信度和初始错误预测像素附近的残差信息。最终,通过在训练过程中以反馈的方式不断优化,获得更精细的分割结果(图2)。

1.2.1 基于混合池化策略的解码器

在U形卷积神经网络中,经过多次卷积和池化过程,视交叉和视神经的特征信息容易丢失。为解决这一问题,本文采用由扩展金字塔池化模块(EPPM)和深度池化层(DPL)组成的基于混合池化策略的解码器。其中,EPPM为不同特征层提供视交叉和视神经的特征信息,有助于融合初级语义信息和高级语义信息。DPL通过逐步细化较高级的语义特征,使每个空间位置能够在不同的尺度空间中查看局部上下文,进一步扩大整个网络的感受野,减少上采样的混叠效应。

EPPM通过4个自适应平均池化层分别在1×1、3×3、5×5和恒等映射层上捕获视交叉和视神经的特征信息,通过特征拼接和3×3卷积层将不同空间尺度上的特征信息进行融合。融合后的特征信息通过3×3卷积层和一个上采样层传递给DPL。图3A展示了EPPM的结构。深度池化层DPL(图3B)通过3个不同下采样率(2、4和8)的池化单元和1个3×3卷积层获取更精细的特征信息,将细化后的特征信息与编码器块横向连接输出的特征信息以及EPPM对应分支输出的特征信息进行融合。其中,池化单元(图3C)是由1个平均池化层、1个3×3的卷积层和1个上采样层构成,以逐步细化特征信息,进一步提升分割精度。

1.2.2 多尺度深度监督层

为学习不同层次的有效特征表示,本文采用DSL作为DSRF模型的输出层,利用分割损失对中间结果进行监督,从而约束特征信息。在DSL的监督下,DSRF能够更好地学习丰富的多尺度、多层次语义特征,提高对视交叉和视神经边界的识别能力。

DSL(图4)将深度池化层(DPL)输出的特征信息Mji通过卷积层、上采样和激活函数生成不同尺度下的概率图Pji;将不同尺度特征图进行融合生成融合后的概率图Pi;利用真实标签对所有概率图进行监督。以其中一个子分支为例,特征信息经过两个1×1卷积层和插值得到与原图大小一致的特征图,再用分割损失对通过sigmoid激活函数生成的概率图进行监督。

1.2.3 残差反馈模块

在CT图像中,视交叉和视神经的组织对比度低,且体积较小,使得这些区域的准确分割尤为困难,导致在初始分割结果中,这些区域的边界准确度较低。为解决这一问题,本文采用RFM,旨在通过学习这些区域的残差信息(即真实标签与本次迭代前分割结果差异的绝对值)来提升对模糊或缺失边界的识别。

RFM(图2)的工作机制如下:在获得初始分割结果后,RFM利用解码器的主干网络DPL提取的特征作为输入,在残差真值的监督下,学习难以分割区域的特征,为不确定像素生成精确的表达图。RFM的结构包括3个残差单元,每个单元从解码器的DPL输出中提取上下文信息。残差单元由一个3×3卷积层和一个上采样层构成,以生成维度匹配的特征图。通过两个连续的卷积层(核大小分别为3×3和1×1)和上采样,生成反映缺失或模糊区域的残差信息和残差信息图。

我们引入新的循环反馈训练策略,以加强对难以预测像素的关注。在此策略中,DSRF模型通过两个主要步骤进行训练:(1)在CT图像作为输入的情况下,编码-解码架构生成初始概率图(P0),如图2中的粉色和黑色箭头所示。通过残差反馈模块从解码器的DPL中提取多尺度特征,学习低置信度或预测错误像素的残差信息,生成对应残差信息图(R^)。利用真实标签与初始概率图差异的绝对值得到残差掩模(R),通过残差掩膜对残差信息图进行监督,约束残差信息。(2)在编码器中,残差信息通过加权的方式(图2左下角紫色星号*运算)与原始特征信息相结合,增加低置信度像素的权重,使DSRF模型更加关注难以预测的混淆区域。具体表现为图2中的紫色箭头指示的路径。通过这种循环反馈机制,网络能够在每一轮迭代中改进对复杂或模糊特征的识别与预测,从而提高整体分割的精确度和鲁棒性。

1.2.4 训练过程与损失函数

DSRF采用端到端的训练方式。DSRF的训练过程主要分为初始分割过程和迭代优化过程。初始分割过程见公式1

F0=Encoder(I)M0=Decoder(F0)P0=DSL(M0)P0=DSL(Decoder(Encoder(I)))F0=j=15Fκ0M0=j=14Mj0

其中,I是输入CT图像,F0是第0次迭代编码器提取的特征信息,Fk0k是第k个编码器块。M0是第0次迭代解码器通过混合池化策略得到的多尺度特征信息,Mj0j是第j层深度池化层。P0是初始分割结果,DSL生成P0时有中间结果Pj0, j={1,2,3,4}图4)。Encoder(·)是编码器,Decoder(·)是解码器,DSL(·)是多尺度深度监督层。迭代优化过程见公式2

R^i=RFM(Mi)Fi=Encoder(I*R^i)Mi=Decoder(Fi)Pi=DSL(Mi)Pi=DSL(Decoder(Encoder(RFM(Mi)*I)))

其中,R^i是第i次迭代的残差信息,RFM(·)是残差反馈模块,*是图2左下角的运算,Pi是第i次迭代的分割结果。

DSRF的损失函数主要有分割损失和残差损失。分割损失LSeg{G,P}可表示为:

LSegG,P=0i(j=14LmixG,Pji+LmixG,Pi)

其中,G是真实标签,P是分割结果,i是迭代次数,Pi是第i次迭代的分割结果,Pji是第i次迭代的第j层DPL经过DSL输出的中间结果。Lmix是混合损失,是鲁棒交叉熵损失LRce和软dice损失Lsoft dice的加权和。LRceLsoft diceLmix分别表示为:

LRce=-1Nn=1Nwn(ynlog(pn)+(1-yn)log(1-pn))
         Lsoft dice=1-2n=1Npnyn+εn=1Npn2+n=1Nyn2+ε
Lmix=αLRce+βLsoft dice

其中,pn是模型预测的像素级别概率,yn是对应的真实标签。N是像素的总数。wn是像素n的权重,用于平衡不同类别之间的样本不均衡。ε是一个很小的常数,用于避免分母为零的情况。αβ是超参数,均设置为0.5。

RFM使网络发生第i次迭代时,则有分割结果图Pi-1,真实标签为G,残差掩膜Ri=|G-Pi-1|,残差信息图R^i,残差损失LRess{R,R^}可表示为:

LRessR,R^=1i(1NCn=0NC-1LRes{Ri,R^i})

其中,NC是分类数,NC-1是待分割的危及器官数量,LRes{Ri,R^i}是第i次迭代的一个危及器官的残差损失,可表示为:

LRes{Ri,R^i}=-wn=1N1ynlog(pn)-(1-w)n=1N0(1-yn)log(1-pn)

其中,ynpn分别表示像素的真实值和预测概率,N0N1表示yn=0yn=1的像素个数,加权平衡参数w=N0/(N1+N0)

DSRF的总损失函数Lall是分割损失LSeg{G,P}与残差损失LRess{R,R^}的和,可表示为:

Lall=LSegG,P+LRessR,R^

1.3 实验设置

所有实验均基于Pytorch3.7.11实现,并在Ubuntu 18.04系统中使用12 GB GPU(NVIDIA RTX 2080)进行。所有实验均使用Adam15优化器进行,权重衰减为5e-4,初始学习率为5e-5,在连续10个epoch内验证集Dice系数上升幅度小于1e-2,则学习率降为十分之一。网络训练100个epoch。编码器网络参数采用ImageNet数据集16上预训练的相应模型进行初始化,其余参数随机初始化。除非有特殊说明,本文的消融实验和对比实验均基于上述训练集和内部、外部测试集进行。使用Dice相似系数(DSC)和平均对称表面距离(ASSD)来评估DSRF算法和其他方法的性能:

DSC=2×(predtrue)predtrue
ASD=xXminyYd(X,Y)X
ASSD(X,Y)=ASD(X,Y)+ASD(Y,X)2

其中,pred是测试结果图像,true是真实标签。d(X,Y)表示X中的点到Y中的最近点的欧氏距离。

2 结果

2.1 消融实验

本文提出的DSRF分割算法由HPS、 DSL和RFM组成。为验证所提出3个模块的有效性,消融实验的量化结果见表1-2,消融实验的可视化结果见图5。当仅使用基础U形网络架构时,鼻咽癌视交叉和视神经在内部测试集上的平均DSC和ASSD分别为75.7%和65.1%。在此基础上引入HPS,模型的分割性能显著提升,表现为DSC提升4.4%且ASSD分数降低20.5%,表明HPS有效增强DSRF对细微特征的捕捉能力,有助于提升网络的特征表示能力。进一步引入DSL模块后,模型的分割性能有所提升,表现为DSC提升2.1%且ASSD分数降低6.0%,表明DSL有助于DSRF学习丰富的多尺度、多层次语义特征,提高对视交叉和视神经边界的识别能力。引入RFM模块后,模型的分割性能进一步提升,DSC提升1.5%且ASSD降低3.5%,表明RFM充分利用模糊边界和易混淆区域的信息,通过监督迭代细化分割结果,并结合每次迭代的损失优化整个分割框架,提高分割精度和边界清晰度。为进一步分析HPS的贡献,分别提取DSRF模型和不含HPS模块的DSRF模型中各层解码器块的输出特征,并通过1×1卷积层和插值操作生成与原图大小一致的语义特征热图(图6)。可以看出,在深层解码器块中,HPS能够显著捕捉更清晰的边缘信息,尤其是在视交叉区域,不含HPS模块的DSRF模型未能有效捕获视交叉右下角的语义特征。这进一步表明,HPS模块对于增强模型捕获细微特征的能力具有重要作用。此外,残差表达示例的可视化结果显示(图7),视交叉和视神经的边缘附近区域分割精度低,RFM利用残差信息使DSRF更关注于模糊边界和易混淆区域。

2.2 残差反馈模块的迭代次数调优实验

本文对DSRF中残差反馈模块(RFM)的超参数迭代次数i进行调优实验(表3)。当DSRF模型不进行迭代(即没有RFM)时,鼻咽癌视交叉和视神经在内部测试集上的平均DSC和ASSD分别为82.2%和38.6%。当DSRF模型迭代1次时,DSC提升1.5%且ASSD降低3.5%。当DSRF模型迭代2次时,DSC保持不变,ASSD仅降低0.7%。由DSC和ASSD的结果可见,模型DSRF迭代一次即可获得较优的结果。

2.3 与现有方法的对比实验

将DSRF与3种典型分割方法(nnU-Net,PoolNet,RF-Net)以及两种最新分割方法(STU-Net,UMamba)进行比较(表4)。nnU-Net、PoolNet、RF-Net均为典型的U形架构图像分割模型,采用编码器-解码器结构,通过不断提取和融合特征信息,实现对图像中目标区域的分割。STU-Net是基于nnU-Net框架设计的可扩展且具备强迁移能力的医学图像分割模型,通过复合扩展网络的深度和宽度,同时结合大规模监督预训练策略,在大规模医学分割任务中展现了卓越的性能和迁移能力。UMamba是一种针对生物医学图像分割的通用网络,采用创新的混合CNN-SSM架构,结合卷积层的局部特征提取能力与状态空间模型(SSMs)的长程依赖建模能力,配合自动配置机制,能够高效适应多样化数据集,显著提升分割精度与计算效率。为了公平比较,所有对比方法使用的训练集和测试集与DSRF算法一致,对比方法的代码均来自作者发布的原始代码并经过微调以适应本实验数据集。结果显示,DSRF在视交叉和视神经的分割上均取了最优的结果(表4)。DSRF在视交叉和视神经的分割结果接近于真实标签,边界较为清晰并保留了较多的解剖细节(图8)。

3 讨论

自动分割鼻咽癌小体积关键危及器官具有非常重要的意义20-23。本文提出DSRF分割算法,用于准确分割鼻咽癌患者CT图像中视交叉和视神经。该算法在解码器中采用混合池化策略,细化并融合不同层次的特征信息;输出层引入多尺度深度监督层,在深度监督下学习多尺度语义特征,以提高对视交叉和视神经边界的识别能力。为解决CT图像中视交叉和视神经对比度较低的问题,算法通过残差反馈模块多次迭代优化分割结果,从而提升分割精度和边界清晰度。DSRF算法在3个公开数据集上进行消融实验和对比实验,验证了每个模块的有效性。实验结果表明,DSRF算法不仅可以提高分割的准确性和一致性,还为医学影像学和临床实践提供了更深入的理解,从而为鼻咽癌患者的诊断、治疗和监测提供更为精准和个性化的支持。

卷积神经网络在多次的卷积和池化过程中容易引起小体积危及器官信息的丢失24。Liu等25通过扩展池化技术在卷积神经网络中的作用,并将其应用于显著物体检测任务,提出一种基于金字塔池化模块(PPM)的全局引导模块(GGM)。该模块通过U形网络自下而上的路径,将显著物体的位置信息传递到不同特征层级,从而指导特征融合过程。Hu等26将金字塔池化技术作为核心特征提取模块应用于息肉分割任务,利用金字塔池化变换器( P2T)27作为主干网络,结合多分支金字塔特征融合模块(PFFM)提取和融合多尺度特征,以增强网络对息肉区域的分割能力。在上述工作的启发下,DSRF算法通过设计基于混合池化策略的解码器(HPS),应用不同的池化技术减少卷积神经网络中多次卷积和池化而导致的视交叉和视神经特征信息的丢失。其中,相比于通过金字塔池化模块引导显著物体位置信息25,将金字塔池化用于多尺度特征提取与融合的方式26,本文的扩展金字塔池化模块(EPPM)利用高级语义信息,应用自适应池化技术为不同特征层提供视交叉和视神经的特征信息;深度池化层(DPL)应用平均池化技术逐步细化较高级的语义特征,并将其与编码器块横向连接输出的特征信息、EPPM对应分支输出的特征信息共三部分特征信息进行特征融合,以有效减少特征信息的丢失。同时,本文采用多尺度深度监督层(DSL),从不同层次的DPL中学习丰富的多尺度特征信息,提升对视交叉和视神经边界的识别能力,提高视交叉和视神经分割的精确度和鲁棒性。对于深度监督的策略,Wang等28提出在深层卷积网络中使用深度监督,通过在中间层添加监督信号,提高反向传播的效果和网络的正则化性能。Zhang等29提出一种对比深度监督方法,通过在中间层添加对比损失,增强模型在中间表示层的监督。Ahmad等30提出合作深度监督融合学习,利用多教师模型间的相互学习增强深度监督效果,并将融合信息提炼到学生模型中,从而提升分割性能。与上述方法相比,DSRF算法中的深度监督无需额外的标注数据和复杂的网络结构,支持中间层的监督,也不需引入除分割损失之外的其他损失,计算复杂度较低,训练时间较短。此外,本文进一步引入一种新的循环反馈训练策略的残差反馈模块(RFM),旨在提升视交叉和视神经的分割精度与边界清晰度。RFM通过计算真实标签与当前迭代分割结果之间差异的绝对值生成残差真值,利用该真值对残差信息图进行监督,从而约束模糊区域的特征表达。基于循环反馈机制,RFM逐步优化低置信度区域的分割结果,使网络更关注模糊边界及混淆区域,从而增强整体分割性能与鲁棒性。Umer等31提出一种基于残差注意的双解码器网络,利用残差注意机制在解码器中强化肿瘤区域的显著特征,同时抑制冗余信息对分割模型训练的干扰,显著提高在乳房超声图像数据集上乳腺癌的分割精度。Wang等32提出正负交叉注意网络(TaiChiNet),专注于超声图像中乳腺病变的前景与背景特征挖掘。TaiChiNet基于“太极”互补原理,分别设计正路径和负路径,用于增强前景病变及正常背景的特征表达。同时,通过其提出的通道到空间交叉注意模块(C2-attention),实现正负路径特征的交互与互补性监督。相比于仅通过残差注意机制突出肿瘤特征31,RFM利用残差真值,提供更稳定且精确的监督信号,从而有效学习残差信息,进一步提升分割性能。相比于通过正负路径两次监督和一次交叉注意实现前景分割的优化策略32,本文提出的循环反馈训练策略可以迭代调优,以在分割精度与运行时间之间实现最佳平衡。

为进一步提升DSRF模型的性能,我们将在接下来的工作中从以下方面进行改进:针对不同数据集勾画存在差异的问题,将收集同质化水平较高的多中心数据进行模型测试,以进一步提高并验证DSRF的泛化能力;在CT图像中灰度相似或对比度低的易混淆区域,肿瘤学专家通常会利用来自其他模态和诊断指征的额外信息结合CT图像进行危及器官的勾画和制定放疗计划,我们计划引入多模态数据,提取其他模态的特征信息,以辅助CT图像上视交叉和视神经的更准确分割。

参考文献

[1]

Du XJ, Wang GY, Zhu XD, et al. Refining the 8th edition TNM classification for EBV related nasopharyngeal carcinoma[J]. Cancer Cell, 2024, 42(3): 464-73.e3.

[2]

陈美宁, 刘懿梅, 彭应林, . 不同级别肿瘤中心医师对鼻咽癌调强放疗靶区和危及器官勾画差异比较[J]. 中国医学物理学杂志, 2024, 41(3): 265-72.

[3]

Guo DZ, Jin DK, Zhu Z, et al. Organ at risk segmentation for head and neck cancer using stratified learning and neural architecture search[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020: 4223-32.

[4]

Guo H, Wang J, Xia X, et al. The dosimetric impact of deep learning-based auto-segmentation of organs at risk on nasopharyngeal and rectal cancer[J]. Radiat Oncol, 2021, 16(1): 113.

[5]

Costea M, Zlate A, Durand M, et al. Comparison of atlas-based and deep learning methods for organs at risk delineation on head-and-neck CT images using an automated treatment planning system[J]. Radiother Oncol, 2022, 177: 61-70.

[6]

Peng YL, Liu YM, Shen GZ, et al. Improved accuracy of auto-segmentation of organs at risk in radiotherapy planning for nasopharyngeal carcinoma based on fully convolutional neural network deep learning[J]. Oral Oncol, 2023, 136: 106261.

[7]

Luan S, Wei C, Ding Y, et al. PCG-net: feature adaptive deep learning for automated head and neck organs-at-risk segmentation[J]. Front Oncol, 2023, 13: 1177788.

[8]

Liu P, Sun Y, Zhao X, et al. Deep learning algorithm performance in contouring head and neck organs at risk: a systematic review and single-arm meta-analysis[J]. Biomed Eng Online, 2023, 22(1): 104.

[9]

Wang K, Liang SJ, Zhang Y. Residual feedback network for breast lesion segmentation in ultrasound image[M]//Medical Image Computing and Computer Assisted Intervention – MICCAI 2021. Cham: Springer International Publishing, 2021: 471-81.

[10]

Luo XD, Fu J, Zhong YX, et al. SegRap2023: a benchmark of organs-at-risk and gross tumor volume Segmentation for Radiotherapy Planning of Nasopharyngeal Carcinoma[J]. Med Image Anal, 2025, 101: 103447.

[11]

Automatic Structure Segmentation for Radiotherapy Planning Challenge 2019. The MICCAI 2019 Challenge[OL]. Retrieved from

[12]

Podobnik G, Strojan P, Peterlin P, et al. HaN-Seg: The head and neck organ-at-risk CT and MR segmentation dataset[J]. Med Phys, 2023, 50(3): 1917-27.

[13]

Isensee F, Jaeger PF, Kohl SAA, et al. nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation[J]. Nat Meth, 2021, 18: 203-11.

[14]

He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 27-30, 2016. Las Vegas, NV, USA. IEEE, 2016: 770-778.

[15]

Kingma DP, Ba J. Adam: A method for stochastic optimization [J]. arXiv preprint arXiv:2014.

[16]

Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks[J]. Commun ACM, 2017, 60(6): 84-90.

[17]

Liu JJ, Hou QB, Cheng MM, et al. A simple pooling-based design for real-time salient object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 15-20, 2019. Long Beach, CA, USA. IEEE, 2019: 3917-3926.

[18]

Huang ZY, Ye J, Wang HY, et al. Evaluating STU-net for brain tumor segmentation[M]//Brain Tumor Segmentation, and Cross-Modality Domain Adaptation for Medical Image Segmentation. Cham: Springer Nature Switzerland, 2024: 140-51.

[19]

Ma J, Li FF, Wang B. U-mamba: enhancing long-range dependency for biomedical image segmentation[EB/OL]. 2024: 2401.04722.

[20]

Wenderott K, Krups J, Zaruchas F, et al. Effects of artificial intelligence implementation on efficiency in medical imaging: a systematic literature review and meta-analysis[J]. NPJ Digit Med, 2024, 7: 265.

[21]

赖建军, 陈丽婷, 胡海丽, . 基于深度学习自动勾画在鼻咽癌调强放射治疗计划中的系统性评价研究[J]. 中国现代医药杂志, 2023, 25(10): 24-30.

[22]

黄 新, 王新卓, 薛 涛, . 鼻咽癌放射治疗危及器官自动勾画的几何和剂量学分析[J]. 生物医学工程与临床, 2024, 28(1): 26-34.

[23]

Su ZY, Siak PY, Lwin YY, et al. Epidemiology of nasopharyngeal carcinoma: current insights and future outlook[J]. Cancer Metastasis Rev, 2024, 43(3): 919-39.

[24]

Azad R, Aghdam EK, Rauland A, et al. Medical image segmentation review: the success of U-net[J]. IEEE Trans Pattern Anal Mach Intell, 2024, 46(12): 10076-95.

[25]

Liu JJ, Hou Q, Liu ZA, et al. PoolNet+: exploring the potential of pooling for salient object detection[J]. IEEE Trans Pattern Anal Mach Intell, 2023, 45(1): 887-904.

[26]

Hu K, Chen W, Sun Y, et al. PPNet: Pyramid pooling based network for polyp segmentation[J]. Comput Biol Med, 2023, 160: 107028.

[27]

Wu YH, Liu Y, Zhan X, et al. P2T: pyramid pooling transformer for scene understanding[J]. IEEE Trans Pattern Anal Mach Intell, 2023, 45(11): 12760-71.

[28]

Wang LW, Lee CY, Tu ZW, et al. Training deeper convolutional networks with deep supervision[EB/OL]. 2015: 1505.02496.

[29]

Zhang LF, Chen X, Zhang JB, et al. Contrastive deep supervision[M]//Computer Vision-ECCV 2022. Cham: Springer Nature Switzerland, 2022: 1-19.

[30]

Ahmad S, Ullah Z, Gwak J. Multi-teacher cross-modal distillation with cooperative deep supervision fusion learning for unimodal segmentation[J]. Knowl Based Syst, 2024, 297: 111854.

[31]

Umer MJ, Sharif MI, Kim J. Breast cancer segmentation from ultrasound images using multiscale cascaded convolution with residual attention-based double decoder network[J]. IEEE Access, 2024, 12: 107888-902.

[32]

Wang J, Liang J, Xiao Y, et al. TaiChiNet: negative-positive cross-attention network for breast lesion segmentation in ultrasound images[J]. IEEE J Biomed Health Inform, 2024, 28(3): 1516-27.

基金资助

RIGHTS & PERMISSIONS

版权所有©《南方医科大学学报》编辑部2021

AI Summary AI Mindmap
PDF (2418KB)

161

访问

0

被引

详细

导航
相关文章

AI思维导图

/