近年来,随着成像技术的发展,医学图像分割在疾病诊断、治疗方案制定和术后指标评估中的应用日益广泛.然而,受医学图像中噪声、伪影等信息的影响,如何有效地处理和利用数据中的关键信息成为一个重要的研究课题.
随着深度学习的发展,基于深度学习的医学图像分割方法大幅提高了诊断速度和效果.卷积神经网络通过层级特征提取实现从低级边缘信息到高级语义信息的逐步学习和像素级分类.U-Net网络
[1]采用对称的编解码结构和跳跃连接有效提高了分割性能.全卷积神经网络将全连接层替换为卷积层,能够处理任意尺寸的图像
[2].基于Transformer架构的模型通过其对全局信息的建模能力提高了分割精度
[3].然而,全监督学习依赖大量标签数据,训练数据稀缺时,过拟合问题会严重限制模型性能.临床场景中,医学图像的标注本身就需要专业知识和临床经验.此外,由于疾病罕见性、患者隐私性、医生标注主观性等原因导致标注成本高且耗时,使得标签数据难以获得.
为了缓解标签数据稀缺问题,半监督学习方法利用大量无标签数据来提升模型泛化能力,降低过拟合风险.Π-model模型针对无标签数据进行2次前向传播,利用一致性正则化方法保证模型在不同扰动的输出一致性
[4].时序集成引入时序概念,每轮训练仅进行1次前向传播,通过计算上一轮训练的预测结果的指数移动平均(exponential moving average,EMA)来更新预测结果,提升伪标签准确性
[4].然而,由于目标每轮迭代只改变1次,其在学习大型数据集时十分笨拙.均值教师(mean teacher,MT)
[5] 采用学生模型参数的EMA更新教师模型权重,既降低模型对训练数据的标签需求又提高预测准确性.除了一致性约束类方法,虚拟对抗训练为输入数据生成对抗样本,通过最小化对抗样本的模型损失优化性能
[6] .插值一致性训练通过插值生成伪标签提升模型性能
[7] .
在医学图像分割领域,数据稀缺性、医学数据的模态异质性、3D结构的复杂性等问题导致分割面临巨大挑战.而MT对不同模态和器官结构数据的易适应性,使MT表现出如下突出优势:
1) 充分利用无标签数据中的有效信息,实现少量标签数据下的高效学习;
2) EMA参数更新反馈机制加速了训练过程,提高模型泛化能力;
3) 适用于大规模数据集和在线学习场景,能够有效处理数据量大且标签稀缺的情况.
然而,目前没有专门的工作对MT的原理及改进方向进行归纳和总结.本文的目标是针对MT在医学图像分割中的应用进行细致综述,主要贡献如下:
1) 介绍MT基本原理,基于一致性正则化、不确定性、注意力机制、多任务学习、辅助校正和模型变体等方面介绍MT的改进和应用;
2) 介绍医学图像分割经典方法;
3) 总结医学图像分割中常用的数据集;
4) 分析MT方法的研究趋势,阐述其在医学图像分割中遇到的挑战及潜在的研究方向.
1 材料与方法
1.1 搜索策略及过程
本文检索目标是识别2017年至2025年2月发表的基于MT改进的医学图像分割论文.为保证文献检索完整性,依据系统评价和Meta分析优先报告项目(preferred reporting items for systematic reviews and Meta-analyses,PRISMA)进行检索与筛选.首先,在PubMed,IEEE Xplore,Scopus,Web of Science平台按关键词(“mean teacher”)AND((“deep learning”)OR(“semi supervised learning”))AND((“medical image segmentation”)OR(ultrasound segmentation)OR(“CT segmentation”)OR(“MRI segmentation”))检索,识别出1 584篇相关论文.其次,采用文献管理工具去重,保留1 256篇论文.最后,按照标题、摘要初筛,通过详细阅读复筛,获得纳入本文研究的论文.
1.2 MT方法应用现状
MT方法广泛应用于图像分割与分类、目标检测、文本分类、机器翻译、疾病诊断、故障检测等多个研究方向.
图1表明,在医学图像分割领域,MT方法的使用和发展呈现显著上升态势,未来仍具有广阔发展空间.本文纳入研究的论文以国际重点学术期刊和会议上发表的为主.
2 MT的原理和结构
2.1 MT的基本原理
为了克服时序集成的局限性,MT
[5] 于2017年被提出.其主体框架为1个学生模型和1个教师模型,二者采用相同的结构.其主要思想是通过强制学生和教师模型在不同扰动下保持输出一致性,从而减少模型的振荡和过拟合风险.
针对模型输入,可以添加随机噪声,学生模型在有标签数据和无标签数据上进行训练,通过梯度下降算法更新权重.教师模型使用学生模型的EMA更新权重,而不是与学生模型共享权重,在每一步都能实现信息聚合,充当“软标签”生成器,为学生模型提供一致性学习目标.
图2展示了MT方法在医学图像分割中的完整流程.
2.2 损失函数及EMA参数更新
MT的总损失函数包括:监督损失和一致性损失.
是一个超参数,用于平衡和权重;用于衡量学生模型对有标签数据预测结果与真实值间的差异,通常使用交叉熵损失表示,
其中,是真实标签,是学生模型预测结果;用于衡量学生模型和教师模型对无标签数据的预测一致性,通常使用均方误差(mean squared error,MSE)表示,
为无标签数据集;是教师模型预测结果;E为期望符号.
MT使用学生模型的EMA更新教师模型权重:
其中:,分别是教师模型在第t,t-1步的权重;是学生模型在第t步的权重;是EMA平滑系数,通常设置为接近1的值(例如0.99),以确保教师模型的权重更新较为平滑.
3 MT优化方向的分类
为适应任务需求和医学数据特点,一致性正则化通过充分挖掘标签和无标签数据的有效信息,解决标签稀缺问题;利用不确定性充分识别高置信度区域,过滤噪声伪标签,提升无标签数据利用率.针对医学图像广泛存在的边缘模糊、小目标分割难等问题,通过注意力机制引导模型聚焦关键区域,增强细节表达;通过分割、分类等多任务关联,实现医学图像信息多维度挖掘,适配临床医疗场景;通过辅助校正和模型变体,进一步提升分割正确率和任务适配性.
本文将从一致性正则化、不确定性、注意力机制、多任务学习、辅助校正及模型结构变体等方面介绍MT方法的改进和应用,展现MT方法如何在不断地优化中增强其性能和适应能力.
3.1 一致性正则化
为充分利用无标签数据,解决过拟合问题,MT一致性正则化被广泛扩展,通过约束模型在不同级别扰动下的输出一致性增强模型鲁棒性.
几何变换.Fu等
[8]采用2种独立的仿射变换作用于输入数据,模拟实际肝脏分割手术中可能遇到的图像变化.为了分割重叠子宫颈细胞,Zhou等
[9]采用颜色变换、空间变换等操作解决不平衡和大量数据中的无意义指导问题.
噪声与伪影.COPLE-Net
[10](肺炎病灶分割网络)引入随机高斯噪声,使用平均绝对误差和Dice损失函数优化预测结果.SCO-SSL
[11](阴影增强自监督学习)使用阴影增强策略解决图像质量低和阴影问题.
像素级增强.Yang等
[12]随机交换不同模态相同位置的图像块以提高模型跨模态一致性.Cai等
[13]结合块随机重排和像素对比学习,从不同粒度方面增强对肿瘤位置不确定性的学习能力.
3.1.1 结构一致性
为确保教师和学生模型结构上的一致性和对称性,通过形状先验知识和对比学习等进行结构对齐,或利用多尺度特征提取降低网络结构差异,减少因结构差异导致的学习偏差.
FRCNet(frequency and region consistency network)
[14]将像素一致性扩展到多粒度区域上下文信息,充分利用胃肠道息肉无标签数据信息.MS(multi-scale)-MT
[15]连接学生和教师模型5个卷积块的辅助层,捕捉不同尺度的特征信息.
3.1.2 对抗扰动一致性
对抗扰动指采用贝叶斯优化、多重网络或编码器、对抗性机制等策略,为网络生成具有挑战性的多尺度和多样化样本,或形成具备对抗训练功能的网络结构,动态调整对抗扰动数据的强度和时机,控制学生模型的输出一致性.
Aralikatti等
[16]嵌入数据和网络级扰动,同时获取局部和全局信息.AC(ambiguity-selective consistency)-MT
[17]探寻数据中最具价值的区域并对其施加扰动,促使模型在波动中学习更多的广义表示.
3.2 不确定性
在医学图像领域,受图像及伪标签质量、训练数据体量、模型复杂度或训练机制等影响,预测结果可能会产生高度不确定性,从而降低模型预测精度.针对不确定性的优化主要包括不确定性估计和不确定性感知:前者关注不确定性量化,后者则致力于不确定性信息的充分利用.
3.2.1 不确定性估计
不确定性通常由数据本身的噪声或不完整导致的数据不确定性和由模型局限性产生的模型不确定性组成.常见的量化估计方法有贝叶斯神经网络、深度集成、蒙特卡罗Dropout等.
基于蒙特卡罗Dropout的不确定性.Wang等
[18]使用蒙特卡罗Dropout近似贝叶斯神经网络训练教师模型,获得分割和特征不确定性.Zhang等
[19]通过蒙特卡罗Dropout估计不确定性,选取可靠且有价值的特征信息逐步学习.
基于熵的不确定性.ER(entropy regularized)- MT
[20]结合熵最小化原理惩罚左心房无标签数据的体素级不确定性,降低标签依赖.Gao等
[21] 利用预测熵和形状特征生成置信度模板,筛选高置信度像素,通过胆管癌形状特征先验知识优化不确定性,提升伪标签质量.
基于区域估计的不确定性.Yang等
[22] 提出对比度渲染框架,使用不确定性估计计算卵巢边界信息.Jin等
[23] 在不确定性正则化中引入形状注意力机制,提高病理部分轮廓预测一致性.
3.2.2 不确定性感知
不确定性感知意味着依托不确定性估计结果作出更优选择,避免过度自信错误.主要方法为过滤高不确定性样本,根据不确定性结果进行损失函数优化、伪标签过滤、置信度筛选、选择性学习、动态调整等操作,优化模型行为.
一致性损失函数优化.UA(uncertainty aware)-MT
[24]通过最小化标签数据上的分割损失和教师模型的目标一致性损失来优化左心房分割精度.FUSSNet(fusion of uncertainty sources for semi-supervised network)
[25]使用交叉熵损失、焦点损失、Dice损失和交并比损失(即Jaccard loss)的集合来估计不确定性掩码.
基于不确定性引导的选择性学习与动态调整.现有研究通常设定阈值筛选不确定性像素,引导模型选择性学习
[26] .Wu等
[27] 将预测熵值作为不确定性感知度量,动态降低阈值,允许更多像素参与训练,从而解决边界模糊问题.
3.3 注意力机制
注意力机制核心思想是允许模型在处理输入时,动态聚焦于输入的不同部分,提高模型性能.注意力机制主要包括空间注意力、通道注意力和自注意力.研究者还设计多层次和动态调整机制,前者同时关注空间、通道、形状、不同分辨率和特征尺度上的信息;后者则在特征提取时,根据上下文信息动态调整注意力权重,提升模型灵活性.
自注意力.SSMT(self-supervised mean teacher)
[28] 模型结合自注意力和不确定性估计,使用损失函数约束注意图的一致性.Zhou等
[29]引入伪时空Transformer,通过自注意力机制有效捕获3D图像动态信息.
多层次注意力.基于UA-MT,Meng等
[30]使用具有不同卷积核的多个卷积层来获得具有不同感受野的多个特征映射并进行额外校准.DA(dual attention)-UAMT
[31] 设置形状注意模块和通道注意模块,分别学习形状和通道中需要强调或抑制的信息.
动态调整注意力.Farooq等
[32]通过注意力门控模块动态突出重要特征区域,抑制背景噪声和无关特征.ASE(adaptive self-ensemble)-Net
[33]通过动态卷积双向注意力分量,自适应调整网络权重,降低过拟合风险.
3.4 多任务学习
MT通过共享底层表示来同时学习多个任务,帮助模型捕捉不同任务之间的相关性和共同特征,既促进跨任务的知识迁移,又能实现多线程任务处理,提升模型泛化能力和计算性能.
Wang等
[34] 通过分割、重建和SDF(signed distance field)预测任务,充分利用肝脏肿瘤的语义和几何信息.Lyu等
[35]使用泄漏门和记忆门来聚合多个辅助任务的特征,提高不同分割阶段的感受野.
3.5 辅助校正
辅助校正任务主要引导模型自动检测和纠正标签中的错误信息,或利用错误校正机制减少不确定性预测的影响,得到更准确的分割结果.
Cheng等
[36]利用相似学习方法,设计相似性损失和交叉熵损失函数生成指定图像块的伪标签,实现噪声标签校正.Huang等
[37]引入自信学习方法,识别错误标签并进行矫正.
3.6 模型结构变体
MT模型结构改进通常表现为双教师、双学生、双MT、多模型结构和额外辅助模型.额外引入的模型可以具有相同或不同的结构或参数,通过多重知识学习或多输出预测校正来优化性能.
3.6.1 双教师结构
双教师结构通过多重信息获取、多角度监督与学习,实现对有限信息的充分利用.
通过构建双教师模型,提供双重知识学习,进一步探索跨模态领域的知识转移
[38].Zou等
[39]通过双教师结构充分提取同构模型之间的同构差异信息和异构模型之间的异构差异信息.
3.6.2 双学生结构
双学生结构通过促进模型间相互监督与竞争,缓解MT结构耦合问题,降低学习误差.
Li等
[40]通过学生模型交替更新EMA,Hu等
[41]通过监督损失优化网络,缩小认知偏差.
3.6.3 双MT结构
双MT结构通过分布式学习提升模型的可扩展性和多模态适应性,使模型能够从不同语义层次提取特征并互相监督.
Li等
[42]通过MT交叉协同训练,实现数据、特征和网络级扰动.Zhu等
[43]使用2D和3D串联的双MT网络,利用混合特征生成分割预测和SDF预测,并通过混合加权生成最终结果.
3.6.4 多模型结构
多模型结构进一步扩展模型数量,优化模型特征提取能力,降低由单一模型产生的学习偏差,提升一致性学习效果.
Zhou等
[44]在多学生模型中设置不同掩码分支,Qiu等
[45]设置3个教师提供多样指导,降低局部最优或不成熟预测导致的模型不稳定.
3.6.5 额外辅助模型
辅助模型主要适用于特定任务设计,可以增强特定区域的学习,提升伪标签的准确性,改善低质量图像区域的学习质量.
Li等
[46]通过相同结构的辅助网络生成高质量伪标签,使用EMA更新学生模型,传递有效图像特征.Lin等
[47]在AC-MT上引入SAM(segment anything model)和教师模型同步监督学生模型,提供强大指导.
3.6.6 EMA更新
传统MT通过EMA更新教师模型权重,虽能防止过拟合,但可能导致教师模型的分割精度低于学生模型.
Mei等
[48]计算教师权重与学生权重平均值间的残差并将其加到教师模型的权重上,提升教师模型对脑肿瘤小区域(如坏死区)的分割精度.PMT(progressive mean teacher)
[49]交替训练2组MT模型并独立更新,通过渐进式MT方法实现对多期增强影像的器官分割.
4 对比方法、数据集及评价指标
4.1 常见对比实验方法
在医学图像分割实验中,通常选取多种先进方法进行对比实验以展示所提出方法的效果与优势.
表1列举了医学图像分割中常见的半监督对比实验方法.
图3展示常见对比方法及出现频次.
表2展示了同一心脏数据集上2种不同标签数据数量的情况下,不同方法在V-Net骨干网络上的表现.实验结果表明,结合多种策略,MT分割性能得到明显提升.此外,标签数据数量在一定程度上影响算法性能,因此,获取充足的标签数据尤为重要.
4.2 常见数据集情况
表3针对常用医学图像分割公开数据集进行归纳总结,涉及心脏、肝脏、脊髓、肾脏、眼底、皮肤等多种器官,综合了MRI、CT、皮肤镜、光学相干断层扫描血管造影(OCTA)、WSI(whole slide images)等多种模态,方便研究者开展多模态实验和跨模态模型微调.
4.3 MT常见骨干网络及评价指标
在MT中,为了适应不同的数据模态的任务需求,通常选取不同的骨干网络来提高模型性能.其中,U-Net,UNet++,V-Net,DenseNet121,IR-Net,DeepLab,DenseUNet尤为常见,更满足医学图像分割中的特征提取等需求.
表4展示了常见医学图像分割评价指标.
5 挑战与未来研究方向
5.1 挑 战
在基于深度学习的半监督医学图像分割方法中,MT由于训练稳定、降低标签依赖等特点表现出明显优势.然而,随着医学图像辅助诊断技术向临床落地的迫切需求,MT在数据适配性、模型效率、临床兼容性等方面面临诸多挑战.
1) 数据标签的稀缺性和有效信息的低利用率.医学图像分割通常依赖手动标注,数据严重稀缺.现有一致性监督机制未深度建模结构语义,导致无标签数据中的解剖特征未被有效利用.
2) 图像复杂性和多样性.医学图像通常复杂、多样,不同器官解剖结构差异大;受扫描设备及参数影响,图像常存在伪影、噪声等问题.现有研究表明,MT特征提取网络对于医学模态的泛化能力和适配度骤降,将直接影响诊断可靠性.
3) 伪标签质量的不稳定性.MT方法依赖教师网络生成的伪标签指导学生网络,然而监督信号缺失,伪标签质量存在不稳定性,可能导致模型学习中错误知识的积累,影响模型收敛.
4) 计算资源需求高.由于MT需要同时训练2个甚至多个模型,在处理复杂医学数据时,如何在保障精度的同时降低成本是一个重点关注的问题.
5) 临床医疗集成的兼容性、可视化与合理性.临床环境对算法和模型的可解释性、稳定性、交互性要求较高.模型部署到医疗环境时,MT的黑盒特性导致医生无法溯源结果的生成逻辑,因此,保证其透明性、可解释性面临巨大挑战.
5.2 未来研究方向
为了提升方法稳定性及临床适应性,充分发挥MT在无标签数据上的优势,研究人员可以从包括但不限于以下几个方向进行探索.
1) 数据增强技术.探索并创新多维度数据增强和扰动策略,解决数据稀缺问题,实现在有限的标签数据情况下,充分利用有效信息.
2) 自适应噪声处理技术和多模态融合与对齐.结合统计或深度学习技术,探索自适应噪声处理,对噪声进行自动检测和修正.开发能够有效处理多模态数据的框架,引入跨模态对齐和特征融合技术,实现信息高效融合,使模型能利用不同模态数据,实现跨模态分割.
3) 集成学习与模型增强.利用集成学习技术,结合多个MT预测结果,提高模型稳定性和准确性.同时,探索预训练大模型的微调和迁移学习,将MT与SAM等模型融合,实现通用模型的医学适配,充分利用教师模型的指导能力.
4) 轻量级网络与交互式分割.可以采用MobileNet或EfficientNet等轻量级网络,结合知识蒸馏等技术降低计算需求.通过预训练等方法实现在线学习,使模型可以在手术中实时适应患者特异性解剖结构,兼具稳定性和适应性.
5) 临床集成与部署.在设备部署方面,设计标准化接口并进行兼容性测试,确保模型在不同操作系统、成像设备和软件工具上的有效运行.在临床应用方面,设计端到端工作流程图和用户使用手册,提供直观的交互界面,并进行多中心验证和长期跟踪,评估长期效果,根据用户反馈进行优化改进.在数据隐私方面,临床数据的采集与分析应在取得许可的条件下进行.
6 结 语
随着基于深度学习的医学图像分割算法的发展,MT作为一种强大的半监督方法被广泛使用.尽管近年来有大量研究围绕MT展开,但仍缺乏系统、全面的文献综述对其进行归纳整理.本文从一致性正则化、不确定性估计、注意力机制、多任务学习、辅助校正和模型变体等角度,归纳了MT在半监督医学图像分割领域的改进和应用.同时,针对现有医学图像分割常用算法和数据集进行归纳.随着深度学习技术的不断发展和创新,MT有望持续为医疗诊断与治疗提供更高效、更准确的辅助手段.