第4次口腔健康流行病学调查报告,当前人们所面临的口腔健康形势极为严峻
[1]。因此,及时检测个人口腔健康状况并及时医治非常重要
[2]。口腔全景片作为一种二维影像学检查方式在检测口腔状况以及身体素质应用中有着重要的实际意义
[3-7]。口腔全景片虽可全方位展现口腔解剖结构,但存在局限性,如容易引发牙齿重叠、边界模糊等状况,会进一步干扰图像质量
[8, 9],从而增加了牙齿医生牙齿识别的难度。传统的牙病检测方法主要依靠牙科医生的经验,但这种方式极易受到医生个人经验水平的制约
[10]。因此,口腔全景片智能检测技术尤为关键
[11]。
Maganur 等学者
[12]证实了机器学习在口腔领域具备应用价值,但是其应用仍存在一定局限性。随着深度学习技术持续发展,该技术在口腔医学中的应用优势更为突出
[13, 14]。国内外研究者运用多种深度学习模型,如 R-CNN、YOLOv5、YOLOv8等
[15-17];以及改进算法,例如Zhao等
[18]将MASK R-CNN与ROI Align相结合、Mărginean等
[19]提出CariSeg算法、孙召飞等
[20]优化YOLOv5s提出YOLO-Teeth算法等,实现了龋齿检测、牙腔分割、修复体检测等任务的高效精准化。
口腔全景片在牙科研究与临床实践中展现出较高价值
[21]。尽管牙齿目标检测领域已取得一定成果,但在实际临床应用场景中,仍存在不少亟待解决的问题。口腔全景片所呈现的牙齿状况极为复杂,除了阻生齿、龋齿等常见牙齿异常,种植体、根管治疗、填充物等各类牙体状况也频繁出现。现阶段,机器在精准分辨这些复杂状况时,依然面临严峻挑战。Mendes等
[22]学者通过对口腔全景片中检测技术的深入剖析,证实了YOLO模型凭借自动化牙齿检测,能够显著提升牙科诊断和治疗方案规划的效率。同时YOLO模型易于部署、轻量化的特点,进一步凸显了YOLO系列在医学影像分割和检测任务中的实用价值。鉴于YOLO模型的诸多优势,本研究以基准模型YOLOv11n
[23](YOLOv11 默认版本)为基础,对用于牙齿状况诊断的临床口腔全景片开展系统分析。在此过程中,本研究创新性地提出改进型 YOLOv11-TDSP模型,旨在有效解决当前实际应用中存在的各类问题,提升模型对复杂口腔全景片的识别精度与应用效果 。
1 材料和方法
1.1 材料
本文构建了涵盖龋齿、断牙、阻生齿、种植体、种植牙、牙冠、填充物、根管治疗这8种异常牙类型的口腔全景片数据集。数据集来源有两部分,主要为河南省驻马店市私人口腔医院提供的 415 张去信息化个人数据集,其次是从 kaggle 平台下载的公共数据集中选取的 85 张。在此基础上,通过数据增强技术将 500 张数据集扩充至 1000 张。最终按 7∶2∶1 的比例将数据集划分为训练集、验证集与测试集。以下是数据集数量(
表1)及特征(
图1)。
1.2 YOLOv11-TDSP模型结构图
YOLOv11-TDSP在YOLOv11n的模型基础上引用了SHSA单头注意力机制。其次为了解决口腔全景片下的小目标漏检、误检问题在head层添加小目标检测层p2。通过nn.Upsample 对 p2 层特征进行上采样。然后使用 Concat 操作将 P2 层特征与其他合适的特征层进行拼接,从而融合 p2 层特征。最后对模型进行了两次结构化剪枝,整体的YOLOv11-TDSP结构图(
图2)。
1.3 SHSA
针对口腔全景片数据集特征复杂、异常牙检测模糊的问题,本文提出将单头注意力机制(SHSA)集成至YOLOv11框架(
图3)。SHSA通过部分通道处理(1/4.67通道应用注意力)、全通道投影和简化计算操作,在降低21%计算冗余与内存成本的同时保留全局-局部特征融合能力。为解决主干网络信息丢失及噪声干扰问题,创新性地在SPPF层末端嵌入C2PSA_SHSA模块,使模型聚焦关键区域并抑制背景噪声。为了验证改进效果,本文做了对比实验(
表2),证明该设计显著提升特征提取效率和检测精度。
1.4 添加小目标检测层p2
鉴于 YOLOv11n 在通用性及多数数据集上表现良好,但在口腔领域数据集应用时存在不足。观察基准模型对口腔全景图坏牙识别结果,发现龋齿、填充物等小目标存在识别丢失情况,原因在于这些小目标特征过小。为提升模型泛化能力与鲁棒性,决定在 head 层添加小目标检测层 p2。p2 层具有高分辨率和相对小的感受野,高分辨率可保留小目标如边缘、纹理等细节信息,在口腔全景片中,能助力模型重点关注并检测微小的填充物、根管治疗等小目标;其对应的感受野适合捕捉小目标局部区域特征。在YOLOv11n 的 head 层引入 p2 层,可有效提升小目标检测精度。
1.5 结构化模型剪枝
小目标检测层易引发模型臃肿与过拟合,针对小目标检测模型中骨干网络与检测头的冗余参数问题,本文提出两阶段结构化剪枝策略,通过模块深度压缩与宽度压缩实现模型轻量化,在保持架构规整的同时减少噪声学习风险。
1.5.1 第1次剪枝
深度剪枝(模块重复次数缩减):以减少重复堆叠模块的冗余计算、降低模型深度为目标,针对骨干网络与检测头中repeats=2的C3k2、C2PSA_SHSA 模块进行调整。在骨干网络中,将C3k2模块的repeats参数从2统一缩减为1并保持输入输出通道数不变,如原配置[-1,2,C3k2,[256,False,0.25]]调整为[-1,1,C3k2,[256,False,0.25]],特征融合模块C2PSA_SHSA亦执行相同操作,如[-1,2,C2PSA_SHSA, [1024]]改为[-1,1,C2PSA_SHSA,[1024]];检测头内的C3k2模块重复次数同步从2降至1,例如[-1,2, C3k2,[512,False]]调整为[-1,1,C3k2,[512,False]],通过修剪线性堆叠的规则化模块保持网络层序结构完整,避免特征流动路径中断。
1.5.2 第2次剪枝
宽度剪枝(通道维度规整化):以降低通道数减少卷积核数量、控制计算复杂度为目标,对骨干网络、检测头中的 C3k2 模块、基础 Conv 层及特征融合模块(SPPF、C2PSA_SHSA)进行通道数调整。骨干网络中,C3k2 模块按 12.5% 比例降低输出通道数,如 P2 层后从 256→224、P4 层后从 512→448,SPPF 与 C2PSA_SHSA 的输入通道数从 1024 压缩至 896;检测头部分,C3k2 模块输出通道数同比例缩减(如 256→224、512→448),例[-1, 1, C3k2, [256, False]]改为[-1, 1, C3k2, [224, False]],基础 Conv 层浅层通道数小幅降低(如 128→112),例[-1, 1, Conv, [128, 3, 2]]改为[-1, 1, Conv, [112, 3, 2]]。调整过程中保持关键层(跨阶段 Concat 层、底层 Conv 层)通道数不变以避免特征融合失效,并确保通道数为 8 的整数倍(如 224=8×28),匹配硬件计算单元的数据对齐要求。
1.6 数据增强
增强方法采用亮度增强与伽马对比度调整相结合的复合增强策略。通过HSV色彩空间转换技术实现精准亮度调节,在亮度增强模块中分离V通道进行条件运算,确保亮度值不超过255的上限,避免过曝现象,设定亮度调节幅度为50个单位值。自适应伽马校正模块引入随机化增强机制,伽马值在0.8~1.2区间均匀采样,采用查找表(LUT)优化技术加速像素值转换,实现标准化(0-1范围)-伽马校正-反标准化的完整处理流程,并自动适应单通道/多通道图像输入。
1.7 评价指标
平均精度均值(mAP)与召回率(R),精确率(P)之间存在关联,可以用以下公式来表示。
1:R = TP/ (TP + FN ) ×100%
2:P = TP/ (TP + FP ) ×100%
3:
4:
其中:TP 表示正确检测为某一类异常牙齿检测到的数量; FP 表示错误划分为某一类异常牙齿检测到的数量;FN 表示实际为某一类异常牙齿但未被检测到的数量;TN 表示正确检测为非某一类异常牙齿的数量。
2 结果
2.1 YOLOv11系列模型比较
在YOLOv11系列中YOLOv11x (95.9% P/96.8% mAP)和YOLOv11s(93.0% P/95.2% mAP)执行该任务时精度、召回率、平均精度表现最佳(
表3)。其模型庞大复杂,训练与推理速度不如 YOLOv11n。YOLOv11n在模型效率方面表现最优,仅需2.5M参数和6.3G FLOPs即可实现89.0%的精度、87.0%的召回率和90.2%的mAP。为此,本文聚焦于改进轻量化的YOLOv11n,提出YOLOv11-TDSP模型。
2.2 结构化剪枝消融实验
为评估本文提出的结构化剪枝策略的有效性,开展消融实验。采用参数量(Params)、计算量(FLOPs)统计与模型平均精度均值(mAP)分析相结合的验证方法(
表4)。数据表明:原始 YOLOv11-SHSA-P2 模型 mAP 为 94.9%,参数量达 9.0M,计算量为 31.6G;仅实施首次剪枝后,模型 mAP 提升至 95.0%,在参数量保持 9.0M 不变的情况下,计算量显著降低至 30.0G;经首次与二次剪枝联合优化后,模型性能再次提升,mAP 达到 95.8%,参数量压缩至 7.2M,计算量进一步降至 25.5G,验证了结构化剪枝策略在提升模型检测精度与实现轻量化部署方面的双重优势。
2.3 数据增强
经数据增强处理后(左侧为增强前图像,右侧为增强后图像),对比度不足的口腔全景片图像质量显著提升(
图4)。结果显示数据增强前,图像整体对比度较低,尤其是牙体边缘及阴影区域细节部分显得模糊,难以清晰辨别细微的牙体结构和潜在病症特征。经数据增强处理后,图像对比度显著提升,牙体组织与周围结构的边界更为清晰,原本模糊的区域得到明显改善,牙体的形态、轮廓以及内部结构能更清楚地呈现。
2.4 YOLOv11-TDSP模型消融实验
YOLOv11-TDSP模型消融实验结果显示,基准模型在引入SHSA后性能得到显著提升,其中P提高了2.3%,mAP提升了1.5%,且未引入额外计算开销。引入p2虽显著提升4.7%的mAP,但代价是参数量激增260%(达到9.0M)和计算量增加392%。在模型压缩方面,两阶段剪枝策略取得了显著成效:首次层数和参数数量剪枝在减少参数量的同时使mAP微升0.1%;二次通道数剪枝后模型参数量进一步降低的同时,性能显著提升(mAP增加0.8%),实现了模型体积压缩、精度与效率的最佳平衡(
表5)。
2.5 模型对比实验
YOLO系列以及SSD、RT-DETR、D-FINE等主流目标检测算法在相同数据集上进行了对比实验,结果显示YOLOv11-TDSP仅以7.2M参数量即达到95.8%的mAP,计算效率显著优于同类模型:相比YOLOv8x(68.1M/257.4G)和YOLOv9c(25.3M/102.4G),参数量分别减少89.4%和71.5%;与Faster R-CNN(108.1MB/96.7% mAP)相比,在保持相近检测性能的同时,模型体积缩减86.1%(15.0MB)。在轻量级检测任务中,YOLOv11-TDSP展现出明显优势:相较参数量相近的YOLOv10n(2.6M/87.7% mAP)和YOLOv11n(2.5M/90.2% mAP),mAP提升5.6-8.1个百分点;相比D-FINE-N(4.0M/94.5% mAP),以80%的参数量增加换取1.3%的mAP提升,同时模型体积减小74.1%。计算效率方面,其25.5G FLOPs远低于RT-DETR(108.0G)和YOLOv11x(194.5G),其中YOLOv11-TDSP在众模型中综合指标最佳(
表6)。
2.6 YOLOv11-TDSP实验数据可视化
2.6.1 数据展示
在牙齿病症数据集上,模型展现出良好的精度表现(
图5)。混淆矩阵可见, Snagglet类别的分类准确率达到100%,Decayed tooth、Denta limplantroot system、Dental implant、Root canal therapy和Dental crown等类别的识别准确率均超过89%。但在识别 Dental filling误判情况相对较多,有 0.16 的概率被误判为 Dental crown,0.01 的概率被误判为 background(背景)。精确率-置信度曲线显示,当置信度阈值达到0.944时,所有类别的检测精确率均达到1.00,证实模型在高置信度下具有可靠的检测性能。mAP50(B)指标随训练轮次的演变曲线表明,模型性能在300轮训练周期内持续提升并最终稳定在较高水平(约0.95以上),验证了训练过程的收敛性和模型架构的有效性。
2.6.2 检测效果展示
在牙齿重叠区域、影像模糊场景以及不同对比度条件下该模型模型均能有效抑制背景干扰(
图6)。YOLOv11-TDSP通过深度特征学习机制,成功捕获了牙齿病症的多尺度特征表示,充分的学习到牙齿病症区域特征,能准确识别并定位牙体,其关注区域与实际病灶尺寸相符。
3 讨论
在口腔全景片异常牙目标检测任务中,面临着识别精度欠佳、识别类型有限以及智能诊断设备资源受限等诸多挑战
[24]。为有效解决这些问题,本文创新性地提出了一种改进的口腔全景片目标检测算法—YOLOv11 - TDSP。
该模型基于 YOLOv11n 模型进行优化升级。首先,引入SHSA注意力机制模块,显著增强网络的特征提取能力,让模型能更精准地捕捉关键特征信息。其次,添加P2小目标检测层,大幅提升模型对小目标的检测能力,确保微小异常牙目标也能被有效识别。在此基础上,为优化模型结构,降低计算成本,进行了两次结构化剪枝操作,去除了一些冗余的层数以及过多的通道数。此外,在开展实验之前,对数据集实施亮度增强和伽马对比度调整,以此提升模型的泛化能力,使其在不同成像条件下都能保持良好性能。
从 YOLOv11-TDSP 的实验结果来看,相较于原始的YOLOv11n,将单头注意力机制(SHSA)集成到 YOLOv11 框架后,有效解决了主干网络中存在的信息丢失以及噪声干扰问题。该机制使模型能够精准聚焦于关键区域,同时抑制背景噪声的影响,模型的 mAP50 由此从原来的 90.2% 显著提升至 91.7%。针对牙齿病症检测中存在的小目标漏检问题,本研究引入了小目标层 p2。这一举措助力模型重点关注并精准检测微小的填充物、根管治疗等小目标,使得模型的mAP进一步提升至 94.9%,较好地解决了小目标的漏检与误检问题。然而,随着小目标检测层 p2 的引入,模型的参数量和计算量出现了显著增加。为确保模型维持轻量化特性,通过深入分析模型结构,分别从模型的通道数和层数两个方面进行了两次结构化剪枝操作。实验结果表明,这两次剪枝均取得了积极成效,不仅模型的参数量明显下降,而且在数据集中的表现也得到了提升。经过两次剪枝后,模型参数量从9.0(M)降至 7.2(M),mAP则提升至95.8%。
综合消融实验的各项结果可知,本研究所提出的各个改进模块均具有显著的有效性。并且,整体改进方案在实验中展现出了最为出色的提升效果,是所有实验改进方法中效果最佳的。改进后的 YOLOv11-TDSP模型,兼具YOLOv11n的轻量与快捷特性,在各项指标上与 YOLOv11x 近乎持平,表现十分出色。其平均精度与YOLOv11x仅相差1.0,然而参数量和运算量却均远低于 YOLOv11x。在相同数据集下,将 YOLOv11-TDSP与主流目标检测算法,如 RT-DETR
[25]、Mask-RCNN
[26]、YOLOv5、YOLOv8
[27]、YOLOv9
[28]、YOLOv10
[29]、SSD 、Faster R-CNN
[30]、RetinaNet、CenterNet、EfficientDet以及新型目标检测模型D-FINE进行对比。训练结果表明,本文所提方法在综合指标方面达到最优。面对对比度不足、口腔状况复杂的口腔全景片,YOLOv11 - TDSP 依然能够实现高精度、轻量化的识别。该模型易于部署,在资源受限的设备上也能维持低存储占用与高运行效率,可辅助口腔护士及医生对牙齿病症展开智能分析,有效降低误诊风险
[31,32]。
综上所述,本文所提出的 YOLOv11-TDSP 模型,在口腔全景片的目标检测任务中,展现出了准确性高与轻量化的显著优势。与当下主流的目标检测算法相比较,无论是在可视化效果,还是在综合指标方面,均表现出更强的可行性。不过,该方法仍存在一定的局限性。一方面,尽管经改进后的模型平均精度均值(mAP)达到了 95.8%,但医疗领域的特殊性决定了哪怕极其细微的误诊,都有可能引发难以估量的严重后果。另一方面,在引入小目标检测机制后,即便对模型实施了两次剪枝操作,相较于改进前的基准模型,其参数量依旧有所增加。鉴于此,在未来的研究工作中,将着重探索运用替换轻量化卷积、知识蒸馏
[33]、模型融合
[34]等优化模型技术手段,在进一步降低模型参数量与计算量的同时,持续提升模型的精确度,力求推动口腔全景片目标检测技术迈向更高水平。