医学图像分割是指将医学图像中的肿瘤、器官和血管等不同解剖结构或病变区域分离出来,为后续图像分析、计算与可视化等应用提供支撑,既是“图像配准-分割-可视化”处理流程中的关键一环,也是人工智能医学图像研究的热点之一,在数字医学中发挥着至关重要的作用
[1]。近年来,YOLO(you only look once)算法因其计算准确、运行快速以及全局感知等特点,在目标检测、图像分割等领域获得广泛应用,已应用到癌症诊断、肿瘤识别以及手术导航等临床诊疗工作中,逐渐成为医学图像分割领域中颇有前景的一项技术
[2-4]。本文围绕YOLO算法在医学图像分割中的实际应用,重点分析其技术特性、应用方式、研究进展和问题与展望,以期为相关研究提供有益参考。
1 YOLO算法概述及原理
YOLO算法由Joseph Redmon于2015年提出,从首代YOLO问世到2025年YOLOv12的推出,短短十年间该系列主流框架历经12次迭代升级,衍生出众多变体及衍生模型,充分彰显了YOLO强大的生命力与广阔的应用前景,见
图1。
1.1 算法概述
作为一种深度学习方法,YOLO算法与U-Net、ResNet、DeepLab等方法既有明显不同的特点,也有相互借鉴的共性。传统分割方法由于计算量大、泛化性不足、易被干扰等问题难以处理复杂场景的图像分割,而深度学习技术凭借强大的特征学习和识别提取能力推动了医学图像分割进入一个全新时代。
根据工作原理的不同,基于深度学习的图像分割技术可分为5类。一是基于特征编码方法,包括VGG-Net、ResNet、U-Net、PSPNet等,主要利用卷积神经网络对图像高层语义特征的有效识别与提取进行图像分割
[5]。二是基于区域选择方法,包括Region-based CNN(简称R-CNN)、Fast R-CNN、Faster R-CNN、Mask R-CNN、Mask Scoring R-CNN等,核心思想是通过检测颜色空间和相似矩阵来识别待检测区域,进而实现目标分割
[6]。三是基于反卷积方法,包括Fully Convolutional Network(简称FCN)、SetNet等,卷积神经网络采样会导致部分细节信息丢失,因此利用上采样补全一些细节信息,进一步提高分割准确性
[7]。四是多维空间方法,包括Recurrent Neural networks、ReSeg,Multi-Dimensional RNN等,通过将RNN拓展到多维空间领域,充分利用上下文信息提高分割质量
[8]。五是预训练方法,包括Segment Anything Model(简称SAM)、DeepLab、YOLO等系列模型,这类基于大样本数据进行训练的模型具有参数量大、拟合能力强、应用范围广等特点,能够适配多种下游任务
[9]。
1.2 工作原理
YOLO是一种单阶段目标检测算法,与传统的两阶段方法(如R-CNN系列)需要生成候选区域再进行分类不同。YOLO利用整张图片作为主干网络的输入,在一次神经网络前向传播中完成目标定位与分类,显著提高了检测速度,见
图2。
1.3 各版本特点
YOLO算法的持续发展体现在骨干网络、损失函数、激活函数等主要模块的不断改进、升级和融合,共同推动模型性能发展。
YOLOv1采用“以大化小、分而治之”的策略,以GoogLeNet为骨干网络,能够快速完成目标识别任务。YOLOv2通过批量归一化改善收敛性,使用高分比率分类器和全卷积架构等技术有效提高网络对高分辨率输入图像的处理性能。YOLOv3引入基于金字塔池化的多尺度特征融合和基于darknet-53的残差网络等策略,在促进模型能够提取更深层特征的同时避免出现梯度消失或爆炸,显著提升了模型对小尺寸目标的识别能力,从而在准确性与实时性之间取得了更好的平衡。YOLOv5增强了特征提取的深度和广度,优化了对不同尺度目标的适应性,提高了训练速度。YOLOv8通过提供多种预训练模型,使模型在面对复杂场景时均能高效处理,如
表1所示。这些版本迭代策略能够显著提升YOLO模型效果,也为未来YOLO模型的持续改进和发展拓展了思路。
2 YOLO算法在医学图像分割中的应用
2.1 技术特性
YOLO算法的网络结构通常由一个主干网络和一个检测头组成,通过卷积层(CONV)提取图像特征,经过全连接层(FC)抽象和处理特征,通过检测头计算损失,基本架构见
图3。
除了目标识别,YOLOv8-seg等版本还支持实例分割任务,主要步骤由划分图像、预测边界&预测掩码系数、前向传递、损失度量、非最大抑制和掩码生成等组成,见
图4。
(1)划分图像:将输入图像划分为多个固定大小的网格。(2)预测边界&预测掩码系数:对于每个网格,YOLO预测出3或5个边界框。其中,每个边界框具有位置(中心坐标和宽高)、目标的置信度(confidence)等主要属性,并且每个边界框还预测目标的类别。同时,YOLO模型利用检测头,分析从该实例区域提取的特征,回归出一组固定大小的实数值(通常为32个),该组系数代表了该实例形状与全局原型掩码的关联权重。(3)前向传递:YOLO通过一个卷积神经网络实现单次前向传递,并预测所有边界框的位置及类别。(4)损失度量:YOLO使用位置损失、置信度损失和类别损失等多任务损失函数来训练网络。其中,位置损失衡量预测边界框和真实边界框的位置差异,置信度损失衡量边界框是否正确预测了目标,并惩罚背景框的置信度,类别损失衡量目标类别的预测准确性。(5)非最大抑制:在预测的边界框中,可能存在多个相互重叠的框,代表了同一个目标。为消除冗余边界框,YOLO使用非最大抑制算法(NMS),根据置信度和重叠程度筛选出最佳的边界框。(6)掩码生成:为NMS筛选的每个预测结果,结合其掩码系数和原型掩码,生成最终分割掩码。
2.1.1 端到端学习
将目标识别与分割整合为一个统一的回归问题,实现了从原始图像到预测结果的端到端优化,简化了训练流程。
2.1.2 多尺度预测能力
通过引入特征金字塔等结构,有效融合深层的细节特征,使其能够精准识别不同尺度的目标。
2.1.3 多任务能力
模型可灵活配置,兼容目标检测、实例分割、姿态估计等多种任务,通用性极强。
2.1.4 高度的模块化与可扩展性
架构采用模块化设计,便于集成注意力机制、新的卷积模块等先进技术,为应对复杂应用场景提供了良好的拓展基础。
2.2 应用方式
与自然图像、场景图像、室内图像等相比,医学图像具有成像原理多样、分辨率各异、噪声干扰较强、感兴趣目标数量多、形状差异大等特点。例如,与CT图像像素清晰、对比度较强等特点相比,超声图像噪声多、干扰大,目标模糊不清,识别难度大;病理图像中病变细胞的形态各异,而血常规检查中红细胞、白细胞等形状较为规则,等等。这就对医学图像分割应用提出了更高要求,需要模型具有更强的自适应、更好的可靠性和更高的准确率。因此,YOLO模型在医学图像分割中的应用方式主要有以下几种,见
图5。
2.2.1 YOLO + Transformer
可以借助Transformer的自注意力机制来捕捉长距离的依赖关系,进一步提高YOLO在复杂医学图像中的鲁棒性和检测精度。
2.2.2 YOLO + Attention
通过在YOLO模型中引入注意力机制,有助于模型更好地聚焦图像关键特征,尤其在处理多个相似目标或微小目标时,能够提高检测的准确性和鲁棒性。
2.2.3 YOLO + U-Net
YOLO与U-Net融合有助于将YOLO在目标检测方面的能力与U-Net在图像分割方面的优势相结合,着力提升图像目标定位与分割精度。
2.2.4 YOLO + SAM
YOLO与SAM相融合,可以先使用YOLO进行快速目标检测,然后利用SAM进行精确分割,从而提升整体分割效率和精度,尤其在复杂医学图像分割中展现出强大潜力。
综上,目前YOLO模型在医学图像分割中既可以独立使用,又可以与其他深度学习模型强强联合——即YOLO侧重于目标定位,而由U-Net、SAM等模型进行分割,以此进一步提高分割精度和处理速度。
2.3 YOLO算法在医学图像分割中的应用研究进展
YOLO算法凭借丰富的模型版本、强大的场景适配性、高效的处理速度、较高的准确率及轻量化特性等优势,相关研究受到业界的广泛关注。为分析YOLO算法在医学图像分割中的研究现状,本文对2021年以来的文献进行归纳整理(
表2),并从研究趋势、模型选择、地域分布与目标偏好3个维度,对YOLO的应用特点展开分析,为未来研究方向提供参考。
2.3.1 研究趋势
YOLO算法在医学图像分割的研究快速扩张,呈现出以下3个主要趋势:第一,研究团队与模型版本呈现多元化特点,国内外团队竞相投入,YOLO的主流版本均被广泛应用,且新型改进算法能快速落地实践(
图6AB),体现该领域技术迭代迅速、充满活力。第二,从研究部位来看,YOLO医学分割研究主要聚焦于脑、心、肺、乳腺及消化系统等多个部位,并兼容MR、CT及X射线等图像类型,尤其是脑部图像的相关研究最多(
图6C),呈现出多模态、多部位的特点。第三,YOLO对数据标注的高要求间接推动相关数据集及集成平台的发展,如Roboflow、Kaggle等平台能提供数据上传、下载、预处理、自定义模型训练等服务,极大降低使用门槛,做到操作简单、使用方便、结果易懂。
2.3.2 模型选择
在医学图像分割领域,YOLOv5和YOLOv8是目前应用最为广泛的模型版本(
图6A)。通过对
表2的分析,发现YOLOv5在处理细胞及组织切片和皮肤等小目标图像时表现出色,这可能归因于其较高的分辨率处理能力,使其能够更精准地识别和分割小目标
[54,64-65]。而YOLOv8在肺部、肿瘤和口腔等图像中更为常用,推测是因为其多尺度特征融合能力更强,能够更好地适应图像的复杂结构
[36-37]。此外,YOLO还常与U-Net、SAM等算法组合使用,形成一种协同工作机制。具体而言,先利用YOLO进行目标检测,再调用U-Net、SAM进行图像分割,这种组合方式能够充分发挥各算法的优势,显著提高图像分割的准确性和效率
[25,58]。
2.3.3 地域分布与目标偏好
从地域分布来看(
图6B),在YOLO医学图像分割研究领域,学者主要来自中国和美国,这一现象可能与两国在医学图像处理和人工智能领域的研究基础、科研投入资源相关。从目标偏好来看,相关研究主要集中以下几个领域:(1)脑部图像研究多聚焦于肿瘤、出血定位等任务,常将YOLO与U-Net等结构结合,以提高小病灶和边界复杂区域的分割效果
[28]。(2)显微图像与病理切片图像研究多集中在细胞检测、病理切片分割,常涉及小目标和复杂纹理处理,相关工作可结合Transformer或U-Net进行优化,以提升分割精度。这类研究不仅有助于病理诊断,还为疾病机制研究和药物研发提供支持
[3,62]。(3)在乳腺和消化系统图像中,主要用于肿瘤及病灶检测,目标在于提高早期筛查的灵敏度,部分研究通过引入注意力机制以增强对微小异常区域的识别
[42]。(4)肺部图像研究则侧重于早期结节、肿瘤筛查等,可结合U-Net、SAM等模型,旨在通过CT、X射线等图像分割实现疾病的辅助诊断与监测
[33,35]。
3 问题与展望
综合现有文献,YOLO算法虽然具有速度快、准确度高等优势
[2],但在微小病灶分割
[3]、重叠组织边界分割、计算资源
[26]等方面仍存在许多问题和挑战,亟需进一步研究与改进,
表3为YOLO的挑战与改进方法。
未来YOLO发展可尝试从以下方面展开:(1)加强与Transformer、扩散模型、多模态学习等前沿技术的融合;(2)推进轻量化与可解释性研究,以便模型在临床应用中更加高效与透明;(3)构建共享的高质量医学图像数据库,推动模型泛化性提升;(4)探索人机协同标注工具与半监督学习方法,降低数据标注成本。这些方向将有助于推动YOLO在医学图像智能化应用中的进一步发展
[69]。
4 结语
本文主要从技术特性、应用方式和研究进展等方面综述YOLO算法在医学图像分割中的应用进展,同时也提出,其在微小病灶分割、重叠组织边界分割以及计算资源和数据标注等方面存在的不足。未来研究工作可进一步结合注意力机制、优化网络架构、融合其他分割方法等深度学习技术,推动YOLO模型在医学图像领域的更广泛应用,为医学人工智能应用与发展提供更高效、可靠的技术支持。