产时超声(IPUS)起源于20世纪50年代,是一种在分娩过程中使用的超声技术,随着技术的发展进步,产时超声广泛地应用于产时临床
[1-6],妇产科超声学会(ISUOG)发布的产时超声检查指南
[7]中强调产时超声在促进分娩临床管理中的重要性,并提供正确使用超声指导分娩的建议。
产时胎方位是指分娩过程中胎儿相对于母体骨盆的位置和姿势,它对于胎儿的健康和分娩方式的选择影响显著
[8, 9]。在分娩过程中,枕前位是最理想的胎位,有利于自然分娩。然而,当胎儿处于枕后位或枕横位等异常胎方位时,可能会增加难产,围产期并发症的风险。在产程管理中,枕横位和枕后位的产妇活跃期、第2产程以及总产程时间均长于枕前位组
[10, 11]。研究表明
[12-15],产程早期枕后位发生率约为25%,枕横位发生率为19%~49%;第2产程枕后位发生率约为15%,枕横位发生率为10%~20%;持续性枕后位发生率为5%~12%,持续性枕横位发生率为3%~8%。及时的检测出异常胎方位,采取适当的体位和干预措施
[16],可以帮助纠正异常胎方位,从而提高自然分娩的成功率。
深度学习模型在医学超声图像分析中的应用越来越多,在胎方位分类任务上已经出现一些深度学习模型
[17-22],但当前研究仍存在一些问题,部分研究只进行了正常及异常的粗略划分,或是需要通过多个模型进行多次分析才能得到最终结果。
本研究先由医生对视频中各帧中出现的关键器官(眼睛,脸部,头部,丘脑,脊柱)进行画框标注,利用框选标注后的图片,使用深度学习方法对产时超声的视频进行胎方位(枕前,枕后,枕横)的分类。
1 材料和方法
1.1 数据集
本研究为回顾性研究,纳入2023年1月~2024年3月在福建医科大学附属第二医院相关资料,选取平均年龄27岁,临产(37+周)的孕妇做产时超声检查,收集视频和图片用于本研究。本研究经医学伦理委员会批准(伦理批号:2023656),所有患者均签署知情同意书。
根据产时超声指南,枕后位的标志是2个眼眶;枕横位的标志是脑中线回声、丘脑和脉络丛;枕前位的标志是枕部和脊柱。本研究按照以下方法构建最终的数据集:首先从所有视频中留出部分视频作为视频测试集,用于后续检测训练的结果,然后将剩余的视频抽帧为图片;由专业医生对抽帧后的图片进行确认和标注,标记出其中的关键器官;根据产时超声指南,将图片分为枕前(OA)、枕后(OP)和枕横(OT)3个方位类别,其中枕前位选择包含头部和脊柱的图片,枕后位选择包含眼睛和脸部的图片,枕横位选择包含头部和丘脑的图片;最后将分类后的图片按照9∶1的比例随机划分为训练集和验证集,并将测试视频抽帧为图片,构成图片测试集。按照上述方法构建的数据集共包含3984张图片作为训练集,496张图片作为验证集,以及8个视频(抽帧后为1319张图片)用于视频测试。本研究将从孕妇处获取的产时超声视频和图片,按照上述方法构建训练集和验证集(
表1)。
1.2 数据预处理
超声图片先进行批归一化处理将图片调整为512x512像素,随后进行随机翻转(水平和垂直),几何变化(旋转、平移),颜色空间变换(亮度、对比度、饱和度随机调整),以及马赛克增强等数据增强策略。数据增强通过改变输入数据生成更多训练样本,减少模型对特定特征的过度依赖,避免过拟合。
1.3 模型
本研究以 YOLOv8为基线模型,经过多次实验,设计用于对产时超声的视频中的图片进行胎方位(枕前,枕后,枕横)分类的深度学习模型。模型结构主要包括输入、骨干网络和分类头3部分(
图1)。
输入部分:输入部分主要负责图像的数据增强,以提高样本质量和模型的泛化能力。在该部分,输入图片先进行批归一化处理将图片调整为512×512像素,随后进行随机翻转(水平和垂直),几何变化(旋转、平移),颜色空间变换(亮度、对比度、饱和度随机调整),以及马赛克增强等数据增强策略。数据增强通过改变输入数据生成更多训练样本,减少模型对特定特征的过度依赖,避免过拟合。
骨干网络:骨干网络负责特征提取,采用卷积和反卷积层,并结合残差连接和瓶颈结构,加入注意力机制以强化重要特征的表达。Backbone由Conv、C2f、CBAM、EMA、PSA、AIFI六种模块组成。针对YOLOv8基线模型,本研究加入CBAM、EMA、PSA注意力机制模块和AIFI模块,以提升特征提取效率和模型性能。其中,Conv模块由卷积层、批归一化层和SiLU激活函数组成,负责特征提取。C2f模块用于聚合多尺度信息,通过拼接不同Bottleneck模块的输出和原始特征图。
注意力机制是一种模仿人类视觉和认知系统的技术,允许神经网络在处理输入数据时集中注意力于相关的部分。其核心目标是从众多信息中选出对当前任务目标更加关键的信息,从而提高模型的性能和泛化能力。
卷积块注意力模块(CBAM)
[23]是一种用于卷积神经网络(CNN)的注意力机制模块,它通过结合通道注意力和空间注意力来增强特征表示能力,从而提升模型的性能。它由两个部分组成:通道注意力模块和空间注意力模块。CAM目的是确定特征图中哪些通道是重要的,它通过全局平均池化和全局最大池化来压缩空间维度,生成两个通道描述符,这两个描述符被送入一个共享的多层感知器(MLP),以学习每个通道的注意力权重,最终,通过sigmoid函数将权重归一化到[0,1]区间,并与原始特征图相乘,实现通道维度的特征重标定;SAM关注特征图中每个通道内的空间依赖关系,旨在捕捉特征图中每个空间位置的重要性。它首先对特征图在通道维度上进行平均池化和最大池化,生成2个二维特征图。然后,将这两个特征图拼接起来,通过一个卷积层生成空间注意力图。最后,将该注意力图与特征图相乘,实现空间维度的特征重标定。
高效通道注意力(ECA)
[24]是一种高效的通道注意力机制,它通过一维卷积来捕捉通道间的依赖关系,从而提高深度卷积神经网络(CNN)的性能。ECA模块以其高效性和自适应特性,为网络提供了更强大的特征表示能力。
极化自注意力(PSA)
[25]注意力机制是一种为细粒度的像素级任务设计注意力模块,它通过在通道和空间维度上保持高分辨率,减少了降维度造成的信息损失,并采用了细粒度回归输出分布的非线性函数,以增强特征表示能力。
基于注意力的内部尺度特征交互模块(AIFI)
[26]是一种基于注意力机制的特征交互模块,它被设计用于增强目标检测算法中的特征提取能力。AIFI模块的核心思想是在相同尺度的特征之间进行有效的交互,以捕获更细粒度的信息,并通过注意力机制提高模型的灵活性和精确度。AIFI能够根据输入数据和任务需求动态调整特征融合策略,使网络能够更有效地结合来自不同来源的信息,改善对复杂数据的理解和处理能力,通过优化特征融合方式,AIFI能够显著提升模型在各种任务中的表现,包括分类、检测等。
分类头:分类头负责最终的分类任务,包括一系列卷积层,输出固定长度的向量,每个元素代表一个类别的得分。得分向量通过softmax函数转换成概率分布,得到最终分类结果。
1.4 评价指标
本研究用训练好的模型对图片测试集和视频测试集进行预测。在图片测试集中,统计准确率:预测正确的结果占总样本的百分比;精确率-召回率曲线下的面积(PR-AUC):对不同召回率点上的精确率进行平均,以反映模型的平均精确度;ROC曲线下面积(ROC-AUC):表示一个模型对正负例的区分能力,取值在0和1之间,越大代表模型性能越好;Kappa系数:基于混淆矩阵的一致性检验指标,衡量分类效果。通过这些评估指标,全面地评价模型的性能,确保模型在实际应用中的有效性和可靠性(
表2)。
1.5 训练细节
在构建数据集时,本研究对初始数据按照一定比例随机划分,以确保训练集和验证集中不出现重复数据,得到训练集3984张,验证集为496张。数据在送入模型训练前,本文采用了随机裁剪、颜色抖动、马赛克增强等数据增强策略,使本文训练的模型具有更好的鲁棒性。实验在一台运行 Windows 11 的计算机上进行,硬件配置如下:11th Gen Intel(R) Core (TM) i7-11700作为CPU、16GB 内存和一个具有12GB GPU内存的NVIDIA GeForce RTX3060。所使用的编程环境是Python3.9,实验中使用的深度学习框架是 Pytorch 2.3。此外,实验中的学习率、优化器和其他参数的设置均基于基线模型 YOLOv8。
2 结果
本研究对产时超声图像中胎方位分类的模型按照如下参数:优化器为SGD,初始学习率为0.01,batch_size为16,image_size为512,对训练集进行数据增强,使用改进模型训练200轮。该模型的分类在验证集上准确率ACC达到了0.984,PR-AUC为0.993,ROC-AUC为0.984,kappa一致性检验分数为0.974(
图2)。
将本文模型与其他的深度学习分类模型(EfficientNet
[27],DenseNet
[28],ResNet
[29],Yolov8s_cls,ConvNeXt
[30],MPViT
[31],Swim Transformer
[32],Yolov8+CSAM
[33])进行性能的对比。为确保公平的比较,所有的模型的输出都更改为3个类别的预测概率,且数据均未进行预处理,以及采用相同的训练手段和相同的优化算法。用于训练的超参数如下:优化器为SGD,初始学习率为0.01,batch_size为16,训练200轮。
用训练得到的模型对测试集进行预测,先筛选出能够看出头、脊柱、眼睛、脸和丘脑中任一器官的视频帧,将这些视频帧分别送入不同的模型进行预测,去除其中概率分数低于0.9的结果,然后统计预测的结果,并计算各项指标。将隶属于同个视频的所有图片预测结果求和后取平均,作为该视频的预测结果,并统计视频分类的结果是否准确(
图3)。
模型对视频的分类结果能够准确的分辨出不同视频的胎方位(
表3)。模型预测性能指标统计得到的结果总体上优于其他分类模型(
表4)。具体来说,本文设计的模型在ACC和kappa指标上取得了最好的成绩,ACC和kappa分别达到了0.92499和0.88553,超过其他模型中的最佳模型ResNet50 0.002和0.003。同时本文模型是以Yolov8为基底进行改进的,可以看到本文改进后,模型的性能指标有明显的提升,PR-AUC提升了0.039、ROC-AUC提升了0.017、ACC提升了0.051以及kappa一致性检验分数提升了0.082。
本研究绘制了这些模型的PR曲线(
图4)和ROC曲线(
图4)。在PR曲线中可以看到本模型在平衡点(图中虚线和各个模型曲线的交点)出的性能要优于其他模型,ROC曲线上本文的模型也体现出较好的效果。
本文对模型进行了消融实验,分别将每个模块加入到基线模型中(
表5),0表示没有加入这个模块,1表示加入了该模块,可以看到不同的模块均使模型的精度有所提升,虽然单独使用AIFI模块无法提高精度,但是通过AIFI模块与其他模块的结合,能够使最终的模型精度达到一个最佳的结果。
3 讨论
本研究提出了一种基于多特征融合的深度学习模型,用于对产时超声视频中的胎方位进行分类。该模型在枕前、枕后和枕横方位的分类任务中表现出色,准确率(ACC)达到了0.984,PR-AUC为0.993,ROC-AUC为0.984,kappa一致性检验分数为0.974,显示出与实际类别几乎完美的一致性。这些结果表明,本研究的模型在胎方位分类任务中具有极高的准确性和可靠性,能够为临床决策提供有力支持。
在当前的医学超声图像分析领域,深度学习模型的应用越来越广泛。近年来,许多研究集中在胎方位分类任务上,但现有研究仍存在一些局限性。例如,部分研究仅进行了正常及异常的粗略划分,或者需要通过多个模型进行多次分析才能得到最终结果。本研究通过引入注意力机制(如CBAM、ECA、PSA)和特征交互模块(AIFI),提升了模型的性能,克服了这些局限性。与现有的深度学习模型(如EfficientNet、DenseNet、ResNet、ConvNeXt,Swim Transformer等)相比,本研究提出的模型在ACC和kappa指标上均取得了更好的成绩,分别达到了0.92499和0.88553,优于其他模型中的最佳模型ResNet50(ACC为0.92307,kappa为0.88284)。此外,本研究的模型在PR曲线和ROC曲线上也表现出较好的效果,PR-AUC和ROC-AUC分别达到了0.91545和0.95944。这些结果表明,本研究的模型在平衡点处的性能优于其他模型,能够更有效地区分正负样本。通过消融实验,本文进一步验证了各模块对模型性能的贡献。结果显示,CBAM、PSA、ECA和AIFI模块的引入均显著提升了模型的精度,尤其是AIFI模块与其他模块的结合,使模型性能达到最佳。
此外,尽管本研究的模型在特定数据集上展现了良好的性能,但其在不同医疗机构和不同超声设备产生的图像数据上的泛化能力尚未得到充分验证。这与文献中提到的深度学习模型在不同数据集上的表现可能存在差异的观点一致
[17]。因此,未来的研究需要进一步探索模型在多样化临床数据中的适应性,以验证其在实际临床环境中的应用价值。
综上所述,本研究提出的多特征融合深度学习模型在产时超声胎方位分类任务中表现优异,具备较高的准确性和可靠性。通过引入注意力机制和特征交互模块,模型能够更有效地提取和利用图像特征,提高对胎方位的识别能力。然而,模型在视频分类任务中的表现仍有待提升,且其在多样化临床数据中的泛化能力仍需进一步验证。未来的研究将致力于解决这些问题,以进一步提高产时超声胎方位分类的准确性,为临床决策提供更有力的支持。