深度学习,作为人工智能领域的一种新兴方法,其层次化表示方法使得其允许由多个处理层组成的计算模型来学习具有抽象级别的数据表示
[1]。相比于传统机器学习方法,深度学习减少了对人工特征工程的需求,且层次化结构使得其更好地利用海量数据的优势,自动挖掘高维数据中的复杂结构,提升预测精度。典型的深度学习模型包括卷积神经网络与循环神经网络。其中,卷积神经网络通过卷积与池化等操作,有效模拟了人类大脑的信息处理方式,在计算机视觉尤其是图像处理领域获得了广泛的应用;循环神经网络则主要用于处理序列数据,借助其记忆能力,利用历史信息影响当前时刻的预测输出,在自然语言处理领域获得了大量的应用。当前,深度学习技术已被应用于医学领域,并在部分问题如乳腺癌诊断、肺结节检测上获得了较大的进展。
在口腔医学领域,深度学习主要被应用于智能预处理(如图像超分增强、自动定位)、智能诊断(如牙体牙髓病识别)与治疗(如治疗计划生成、治疗效果评估)几个方面,涵盖牙体牙髓病学、牙周病学、口腔外科学、口腔修复学与口腔正畸学等领域的主要问题
[2-4]。在龋病诊断方面,深度学习已经被广泛应用于口腔X线影像[如咬翼片、根尖片、曲面体层X线片、锥形束CT(cone beam CT,CBCT)]、近红外透照影像、光学相干断层扫描影像、定量光诱导荧光影像、口内照等影像下的龋病分析
[5-8],相关研究结论展现出了良好的临床应用潜力
[9-10]。智能诊断方法依据任务设定包括分类(识别)、检测与分割,本文对基于深度学习技术识别、检测与分割龋病的方法研究进展进行综述。
1 基于深度学习的龋病识别
龋病识别的目的是对口腔医学影像中的牙齿是否患龋(包括分级)进行判断/预测。Geetha等
[11]采用全连接神经网络进行根尖片龋病识别,作者结合拉普拉斯滤波、基于窗口的自适应阈值、形态学运算、统计特征实现特征提取,进而完成龋病分类,在105张影像上十折交叉验证准确率达到97.1%。Vinayahalingam等
[12]使用MobileNet V2卷积神经网络进行曲面体层X线片下第三磨牙龋病识别,作者人工提取了曲面体层X线片上第三磨牙作为卷积神经网络的输入并进行模型训练,在100张测试影像中龋病识别准确率可以达到87%。与前述方法相似,研究者在定量光诱导荧光影像
[13]、根尖片
[14]、光学相干断层扫描影像
[15]、近红外光透射影像
[16]以及口内照
[17]等影像上进行了经典卷积神经网络模型的训练,在作者各自收集的龋病识别数据集上通过交叉验证等方式验证了模型的有效性,例如相比于传统机器学习方法在龋病识别准确率指标上的提升。
医学影像相比于自然图像往往数据量少,这一方面源于医学影像数据收集的困难,另一方面源于大规模数据标注的高昂成本。因此,在采用深度学习技术识别龋病这一需要大量数据进行模型训练的问题上,研究人员普遍采用了数据增广、迁移学习的方法缓解数据稀缺这一困境。例如,Schwendicke等
[16]验证了预训练、数据增广、批归一化等典型手段处理近红外光透射影像数据稀缺的效果。Prajapati等
[18]设计了预训练卷积神经网络仅部分网络参数参与训练的迁移学习方式,实验验证了迁移学习相比于端到端直接训练神经网络的优势。
深度学习作为一种有效的表征学习方法,其层次化表示方法使得其善于自动发现高维数据中的复杂结构,提取出有效的特征。因此,采用深度学习提取的特征结合其他分类技术实现龋病识别成为一种可行的方式。Bui等
[19]使用预训练的Alexnet、Googlenet、VGG16、VGG19、Resnet18、Resnet50、Resnet101以及Xception等卷积神经网络提取特征,并结合几何特征构成最终特征,之后采用经典分类器如支持向量机(support vector machines,SVM)进行曲面体层X线片龋病识别,在533颗牙齿影像上的五折交叉验证准确率等指标均超过90%。Haghanifar等
[20]首先获得基于预训练卷积神经网络模型提取的特征,之后采用胶囊分类网络实现曲面体层X线片下的龋病识别,在368颗牙齿影像上识别准确率达到86%。
前述工作更多集中于使用自然图像领域中成熟的卷积神经网络进行龋病识别模型构造,并未进行网络本身结构的调整,因此存在难以适用口腔医学影像数据的问题。近些年来,部分研究人员提出了改进的卷积神经网络模型用于提升龋病诊断性能。Imak等
[21]设计了双通道卷积神经网络处理原始根尖周X线片与其增强影像,并采用后融合的方式实现龋病识别概率的融合,在340张根尖周X线片上龋齿识别准确率基本达到100%。Zhou等
[22]引入位置编码与修正模块改进经典ResNet卷积神经网络模型,进而解决曲面体层X线片上不同牙位龋病识别不均衡的问题,在曲面体层X线片上提取的6 000颗牙齿(10%用于测试)上测试准确率为88.59%,达到了2名专业医师的水平。相比于卷积神经网络,Transformer网络具有更强的特征提取能力
[23],近些年成为视觉基础模型的基本模块,以Swin-Tranformer为骨干网络,Zhou等
[24]嵌入曲面体层X线片牙齿类型信息(如磨牙、切牙、尖牙)于网络中,进而提升模型对不同牙齿龋病识别的适应能力,在6 000颗牙齿上测试准确率为85.57%。
CBCT影像不同于其他二维口腔医学影像,其表现为三维影像,且往往分辨率高、信息全面。近些年来,部分研究者借助于CBCT影像进行龋病识别,但是,其三维结构使得传统的卷积神经网络模型难以处理。Esmaeilyfard等
[25]选取CBCT影像中牙齿的轴向、矢状面和冠状面3张二维图像,并采用卷积神经网络对每张图像进行特征提取,之后融合上述特征完成龋病识别,在785颗牙齿的训练与测试过程中准确率等指标均超过90%,展示了良好的临床应用前景。
综上,龋病识别的性能展示了良好的临床应用潜力,大量基于深度学习的龋病识别方法被提出,并在研究者收集的数据集上获得了验证,部分方法在与专业医师的对比中达到甚至超越了医师的水平。需要指出的是,不同口腔医学影像下的深度学习方法是一致的,均采用主流的卷积神经网络模型。此外,相比于二维影像,三维影像的处理较为复杂,一般采用采样的方式进行特征提取与特征融合。从模型在不同影像上的识别效果来看,口腔X线影像比其他影像如近红外光透射影像、口内照等具有更高的识别性能,且在口腔X线影像中根尖片比曲面体层X线片具有更好的结果。
2 基于深度学习的龋病检测与分割
龋病检测与分割的目的是对口腔医学影像中的牙齿龋坏区域进行框定或像素分类。Casalegno等
[26]采用经典的U-Net全卷积神经网络模型进行近红外透照影像龋齿检测与分割,并采用预训练、数据增广等手段缓解数据稀缺、类不平衡以及过拟合的问题,在185个训练样本中近端龋与咬合龋病变分割重叠度(intersection over union,IoU)得分分别达到49.5%与49.0%,初步证明了U-Net的有效性。与上述方法相似,Cantu等
[27]同样采用U-Net进行龋病分割,且在像素分类上依据龋病病变深度进行分级,而不局限有/无两个标签,作者在3 686张咬合X片上(3 293张训练集、252张验证集、141张测试集)测试准确率达到80%,高于4位经验丰富的牙医的准确率。
除了采用经典的U-Net全卷积神经网络模型,研究者尝试对全卷积神经网络架构进行改造以提升龋病分割性能或者适应特定的口腔医学影像
[28]。Khan等
[29]验证了3种典型全卷积神经网络模型在根尖片上的龋病分割性能,在206张根尖周X线片(测试集为30张)上的测试结果表明U-Net相比于Xnet与SegNet具有更高的分割性能,此外,通过将U-Net的编码层替换为Densenet121网络,模型的表现性能得到了提升。Dayı等
[30]在传统全卷积神经网络模型的输出端增加了3种不同路径的输出,以实现3种类型龋齿的检测(每一个输出路径对应一种类型的龋齿),在504张曲面体层X线片(2 751个龋齿病灶,25%的数量用于测试)上的测试F1值达到62.79%,远超其他经典分割模型的效果,如经典U-Net的13.44% F1值。Zhu等
[31]在U-Net全卷积神经网络上引入注意力模块构造了CariesNet分割网络,实现了浅龋、中龋和深龋的分割,在1 159张曲面体层X线片(3 217个龋齿病灶)上测试准确率达到93.61%,具备了良好的临床应用潜力。在CBCT三维口腔医学影像上,传统的U-Net全卷积神经网络无法直接适用,Amasya等
[32]评估了Diagnocat系统中3D U-Net实现三维口腔影像下龋病的分割性能,以及该系统对医生辅助的效果,在500张CBCT影像上验证了借助于该系统医生评分效果的提升。
综上,龋病检测与分割的研究取得了一定的进展,部分深度学习方法在特定数据集的测试上达到了专业医师的水平,甚至在临床应用中辅助医生进行龋坏病变检测。同龋病识别方法的研究相似,不同口腔医学影像下的深度学习方法是一致的,主要采用全卷积U-Net模型。此外,龋病检测与分割目前主要应用于口腔X线影像,深度学习方法在不同X线影像上无明显效果差异。
3 龋病识别与检测分割对比分析
龋病识别在给定口腔医学影像上进行各个牙齿是否为龋坏的诊断,而龋病检测与分割往往需要在口腔医学影像中框出龋病病变位置甚至对医学影像中每颗牙齿的所有像素进行分类(是否为龋坏)。从任务的粒度来看,一般龋病检测与分割难度更大,对训练的要求更高,其对应的效果也弱于龋病识别。两者均具有重要的研究与临床应用价值。龋病识别的易训练、高性能等优势使得其在龋病粗粒度筛查中发挥着重要的作用,龋病检测与分割在精细化诊断上具有重要的意义,两者均能对临床医生起到辅助作用
[33]。
龋病识别任务的数据往往需要对影像中每个牙齿是否为龋病或者龋病的分级进行标注,部分口腔医学影像数据如曲面体层X线片往往需要采用自动或者人工的方式进行牙齿提取
[20,34]。整体来说,对于绝大多数口腔医学影像来说该标注是相对简洁的,因此也容易实现较大规模数据集的构建。对于龋病检测与分割来说,往往需要在口腔医学影像数据上框定龋坏区域,甚至对医学影像上所有像素点进行标注,这是相对繁琐或者成本昂贵的,因此构建较大规模的检测或分割数据集难度较大。
在龋病识别上,其分类任务属性决定了卷积神经网络模型可以作为主要方法,对于跨专业的临床科研工作者来说,模型使用相对简单,也便于进行改进
[35]。在龋病检测与分割上,目前主要采用全卷积神经网络模型,尤其是U-Net网络在各种口腔医学影像上得到了广泛的应用。此外,随着Transformer网络的推广,该方法也逐渐在龋病识别、检测与分割上得以应用
[24,36],并表现出良好的效果。
从临床应用的角度,研究者进行了广泛的基于卷积神经网络模型的龋病识别方法、以及基于全卷积神经网络模型的龋病检测与分割方法研究,在口腔X线影像上均取得了较好的效果,可以为临床龋病诊断系统提供影像分析模型。临床应用的未来发展方向包括模型可解释性研究、大语言模型赋能探索以及模型在更大规模数据集上的测试与验证等,具体内容在总结与展望章节介绍。
4 龋病智能诊断数据集
构建口腔医学影像龋病数据集是模型训练与验证的基础,当前部分研究者收集并公开了用于龋病识别或龋病检测与分割的特定口腔医学影像数据集,如用于龋病检测与分割的曲面体层X线片数据集
[37-40]。但是受限于开源数据集的规模、标注粒度、人群特点等制约因素,目前研究者更多依据自己的任务(如特定医学影像、特定人群需求)构建龋病诊断数据集,且往往因为伦理等因素不开放所收集的数据集,这在一定程度上阻碍了领域的发展。
在龋病识别上,数据集的牙齿数量规模一般在百级到千级,对应的口腔医学影像数量在几十到上千不等。例如,一张曲面体层X线片往往包含多颗牙齿,部分研究者对该影像上的所有牙齿进行龋病识别
[22]。在龋病检测与分割上,数据集龋坏区域数量的规模与龋病识别规模相似,在百级到千级之间。总的来说,尚未有万级乃至更大规模的数据集用于深度神经网络的训练与测试(不含数据增广技术)。
在龋病标注上,绝大多数数据均采用医师或经过培训的专业人员进行手动标注。一般来说,分割的标注较为复杂,一般会借助于成熟的标注工具如EISeg、LabelMe、Via等进行辅助。此外,多人数据标注往往在一致性上进行校验与确认。例如,在不一致的标注上,往往采纳额外的更高级别的医师标注结果
[27]。
模型的训练与测试一般需要对数据集进行划分,标准的切分方式包括训练集、验证集与测试集3个集合
[24],基于验证集选择模型并在测试集上进行模型评估。此外,部分研究者在数据规模较小时仅进行训练集与测试集的划分,采用交叉验证(如五折交叉验证)的方式进行模型性能评估
[11]。
5 总结与展望
基于深度学习的龋病诊断方法与技术受到了临床科研工作者的广泛关注,相关方法在特定口腔医学影像数据集上达到甚至超过了专业医师的水平,为口腔龋病智能诊断研究、成果转化与临床应用奠定了基础,但还存在以下问题有待进一步研究。
5.1 数据集的代表性、完整性不足
研究者通常自己收集龋病数据集进行深度学习方法验证,数据集的非公开特点使得不同方法难以基于相同的标准进行纵向对比,这不利于龋病深度学习算法的提升。研究者构建的数据集规模往往较小,这一方面受限于数据资源本身的数量限制,另一方面源于数据标注的高昂成本,较小的数据集使得深度学习模型训练变得极其困难。更重要的是,不同医院数据存在差异性,当前缺乏跨医院大规模数据的收集,这将导致模型的迁移性受限,极大阻碍成果转化与临床应用
[41]。
5.2 模型可解释性尚待攻坚
当前的龋病智能诊断模型往往依赖于卷积神经网络实现图像到诊断结果的训练与预测,整个诊断过程仍然是一个“黑盒子”,缺乏决策过程与结果的透明机制
[42]。然而,模型的可解释性在医学领域至关重要,因为医生和患者只有理解决策的机制才能对决策的结果产生信任,这也导致当前的深度学习方法在临床转化上存在较大的阻碍
[43]。
5.3 大模型赋能研究与应用尚待探索
ChatGPT等大语言模型的爆炸式发展
[44],对人工智能领域产生了广泛的影响,其友好的语言理解、知识发现、逻辑推理等能力为医学研究注入了新的范式。在口腔医学上,研究者探索了语言大模型甚至多模态大模型的应用潜力,为口腔领域智能诊断奠定了基础
[45]。但是,如何结合、训练语言大模型/多模态大模型并缓解其幻觉现象、提升其可信推理等问题成为一个有潜力也具有巨大挑战的研究方向。