皮肤作为人体最大的器官,其相关疾病影响范围广泛,不仅显著影响患者生活质量,部分疾病甚至危及患者生命。传统医患面诊模式受限于时间、地域及医疗资源分布,难以满足现实需求。近年来,深度学习(deep learning,DL)技术迅速发展,在皮肤病辅助诊断中展现出广阔的应用前景。与基于决策树和支持向量机等传统机器学习方法比较,以DL为代表的新型机器学习技术,在分类准确率、精确度和召回率等方面表现更为优异,已成为当前研究的热点。研究
[1]表明:采用基于DL算法的卷积神经网络(convolutional neural network,CNN)可实现皮肤镜图像的自动分类,其性能与皮肤科专家媲美。然而,DL在皮肤科应用中仍面临若干挑战。数据层面存在规模有限、类别不平衡及种族多样性不足等问题
[2];算法层面多依赖单一模态输入,缺乏多源信息融合与可解释性支持
[3];任务层面尚未形成具备高鲁棒性和跨机构适用性的通用模型
[4]。目前,国内外研究多集中于数据增强、模型结构优化或元数据融合等单一方向,缺乏从数据构建、算法设计到任务识别的整体性综述。为此,本文系统梳理皮肤病计算机辅助诊断系统的关键环节,重点分析数据多样性、模型融合策略与多分类任务设计等方面的研究进展,为构建更具泛化能力和临床实用价值的智能诊断系统提供参考。
1 皮肤病DL诊断模型的数据输入
1.1 皮肤镜图像识别
皮肤镜是一种广泛应用于皮肤病学的无创诊断工具,在诊断中起到关键作用,用于色素性、炎症性、指甲及毛发等各种皮肤病的辅助诊断。近年来,CNN应用于皮肤镜图像分析,显著提高了皮肤病诊断的效率与准确性。在指甲疾病诊断中,甲银屑病与甲营养不良常难以通过肉眼直观区分,为更准确区分这2种疾病,ZHU等
[5]开发了1种CNN模型,该模型包含2个模块,可同时完成病变区域生成与目标检测任务,在保持检测速度的同时提高准确率。头皮银屑病的皮损形态与脂溢性皮炎相似,将2种皮损的图像信息输入DL模型,不仅能够实现二者的鉴别诊断,还可帮助临床经验不足的皮肤科医生达到与熟练掌握皮肤镜技术的专家相当的一致性诊断准确率
[6]。
CNN模型在皮肤肿瘤的诊断中表现优异。利用皮肤镜对可疑皮肤癌早期诊断时,因多种皮肤癌初期表现高度相似,医生的诊断准确性受限。皮肤癌检测分类器网络(skin cancer detection classifier network,SCDNet)可自动识别病灶典型特征,提高疾病的早期诊断率,应用于恶性黑色素瘤(malignant melanoma,MM)、痣细胞痣和基底细胞癌(basal cell carcinoma,BCC)等不同类型皮肤肿瘤的多分类诊断
[7]。利用皮肤镜图像特征训练CNN模型,可实现皮肤肿瘤的自动化辅助诊断,性能超越普通皮肤科医生
[8]。在亚洲人群中,黑色素瘤的肢端雀斑样痣黑色素瘤(acral lentiginous melanoma,ALM)亚型最为常见且进展迅速,易在短期内发生溃疡和转移,导致患者生存率降低。而CNN可显著提升ALM的初诊准确率,可作为重要临床辅助决策工具
[9]。总之,DL技术在皮肤镜图像中应用广泛并展现优异性能,不仅有助于提高皮肤镜下的疾病诊断准确性,还有利于恶性肿瘤的早期干预。
1.2 皮肤超声图像识别
1.2.1 皮肤超声图像特征提取
皮肤超声图像的特征提取是一项具有挑战性的任务,主要原因在于超声图像易受噪声和伪影干扰,导致不同临床医生基于超声图像诊断时存在较大差异性。经过预构建的神经网络架构在皮肤超声图像识别中表现较高灵敏度,可在较短时间内优化参数,从而快速准确诊断皮肤良恶性肿瘤
[10]。该DL模型通过有限数据集的训练达到与皮肤科医生相当的诊断性能,验证了皮肤超声图像与DL系统结合的潜力。另一方面,DeepLab v3模型通过分割技术提取表皮层感兴趣区域(region of interests,ROI),采用数据增强方法提升小规模数据集对模型训练的效果
[11]。在超声检测过程中,正确帧的选择对临床决策至关重要,CZAJKOWSKI等
[12]利用大规模数据集训练模型,在高频超声检测中自动选择正确帧,有效减少错误分割带来的影响,提高输出的准确性,同时避免人工选择数据耗时费力的过程。
1.2.2 皮肤超声图像亚型分类
LEE等
[13]利用融合CNN模型分类表皮样囊肿、脂肪瘤和毛母质瘤3种皮肤肿物,达到超90%的准确性。同时通过类别激活映射(class activation mapping,CAM)技术,该模型能够可视化病灶区域,从而辅助医生聚焦关键区域。除肿物识别外,基于高频超声的DL技术还可协助慢性炎症性皮肤病的分类
[14]。同时,该技术能够捕捉烧伤创口中重复出现的纹理特征,辅助临床医生准确判断烧伤深度确定烧伤分型,为烧伤治疗提供科学依据
[15]。尽管皮肤超声图像在医疗诊断中潜力显著,但基于皮肤超声图像的DL系统发展仍处于早期阶段。考虑到皮肤超声在临床应用中的重要性,未来研究应进一步提升皮肤超声图像的自动化识别能力,推动智能医学领域的全面发展。
1.3 皮肤病理图像识别
近年来,MM、BCC、鳞状细胞癌(squamous cell carcinoma,SCC)及鲍温病等皮肤恶性肿瘤发病率呈上升趋势,其中MM的死亡率较高
[16]。由于肿瘤病程愈长其预后愈差,因此恶性肿瘤的早期诊断尤为重要。为实现这一目标,研究者引入CNN这一在图像识别领域表现卓越的系统,用于识别医学图像中的关键目标。鉴于病理图像是判断肿瘤良恶性的金标准,将其与CNN结合以提高病理诊断的准确性。
DL模型根据病变提取特征图像,并通过图像信息进行自我训练,特征提取的准确性与模型训练的效果直接相关。细胞核形态的异质性是恶性肿瘤诊断的重要识别特征,因此细胞核的精确分割在计算机辅助诊断(computer-aided diagnosis,CAD)系统中起着关键作用。通过INS-Net模型识别MM时,细胞核分割准确率达94%,黑色素瘤区域分割戴斯系数达85%,且极短的解读时间适合需快速诊断的场景
[17]。ZHAO等
[18]构建了三重U-Net结构,包含三原色(red green blue,RGB)、苏木精和分割分支,并分别选择最优特征进行融合,解决因人工操作不一致导致的染色不均、细胞核边界不清及细胞重叠等问题。病理图像与元数据融合可提升模型的性能。从平均敏感性、特异性及准确性等多维度对模型性能进行评估的结果均显示,该U-Net结构的整体表现优于普通病理医师。
在皮肤镜、皮肤超声和皮肤病理切片的识别之外,DL技术能够快速且准确地辅助识别光学相干断层扫描(optical coherence tomography,OCT)图像中的受损区域,显示出其在皮肤损伤无创性检测与评估中的实际应用潜力
[19]。此外,DL技术可有效识别多种类型的皮肤图像,包括临床图像,其诊断准确率显著高于皮肤科医生及全科医生的水平,并具有明显缩短诊断时间的优势
[20]。
2 皮肤病DL诊断模型的方法
传统机器学习方法 (如决策树、 支持向量机等)通常依赖人工设计与选择特征进行模式识别。此类方法虽在计算资源消耗方面具有优势,但其性能高度依赖于专家经验与人工特征的表达能力,难以充分捕捉复杂图像中的深层语义信息,因而更适用于小规模、低维度的数据集。在医学影像等高维非结构化数据的分析任务中,此类模型往往面临特征提取受限、泛化能力不足及性能瓶颈等问题。相比之下,DL模型具备端到端的特征学习能力,可通过多层神经网络结构自动提取图像、文本等多模态数据中的高层次特征表示。随着网络深度与训练样本规模的增加,DL模型能够持续优化识别性能和鲁棒性,显著提升复杂医学图像分析任务的准确性与可扩展性。
2.1 集成模型方法
2.1.1 服务器端模型融合
为提高皮肤病诊断率,MAHBOD等
[21]在单一CNN模型基础上开发基于三级融合策略的多尺度多CNN融合算法,实现了86.2%的准确率,展现出优异的分类性能。随后,多标签皮肤病分类的两阶段多模态学习算法Fusion M4Net模型不仅在特征层面和决策层面分别优化信息进行融合,同时融合元数据和皮肤镜图像,充分利用多模态数据并增强元数据的利用效率,提高模型准确率约2%
[22]。此后,具有注意力机制的对抗性多模式融合模型在融合临床图像与皮肤镜图像的基础上引入鉴别器,通过对抗学习提升神经网络鲁棒性,保护模型免受恶意环境干扰。同时结合注意力机制聚焦于数据关键部分,促进重要特征的提取,在敏感性和特异性方面实现了超过6%的提升
[23]。
2.1.2 移动端模型融合
为实现在移动端的皮肤病多类诊断,借助小样本学习与多类任务学习策略,FAA Net模型基于有限图像信息高效提升分类性能
[24]。ALDHYANI等
[25]提出兼具高精度与低计算需求的轻量化模型,其由五层网络结构组成,采用leakyReLU函数增强模型性能,在数据处理阶段实现均衡分类,在七分类任务中达到97.85%的准确率。结合全局平均池化与预处理技术的DCNN模型,采用黑帽滤波去除图像伪影、过采样平衡数据、全局池化避免过拟合、超参数优化与注意力机制提升模型准确性,结构简洁、计算负担低的性质使其适用皮肤图像病灶在移动端的识别
[26]。
2.2 数据融合方法
2.2.1 多模态数据融合
临床图像直观展示皮损特征,元数据为疾病提供临床背景信息。将二者整合至CNN模型,配合元数据处理块的应用,增强分类任务中特征信息的提取能力实现多特征的融合,提高元数据的辅助作用
[27]。THIEME等
[28]为促进猴痘的早期诊断开发了MPXV-CNN模型,融合图像、临床数据、人口统计学数据和疾病信息等多源数据,构建多模态数据集。这种数据融合方式充分发挥多类数据的优势,有效弥补单一数据源的局限性。
2.2.2 新型模型优化数据融合流程
DL的研究进展有助于融合多源数据,从而提升数据利用效率和模型精度。结合人工神经网络(artificial neural network,ANN)和CNN,通过ANN预处理元数据,CNN处理图像信息,融合两类特征实现分类输出,提高模型的准确性,缓解单一使用CNN的过拟合问题
[29]。此外,新型聚合机制AVG模型,对图像信息进行卷积和池化生成特征图,在特征图数量远超于临床特征时通过特定方法与临床数据融合获得最终输出,有效平衡不同数据源对结果的贡献度
[30]。另外,通过图像信息与元数据交互,借助迁移学习与损失函数减小误差的数据融合策略。CAI等
[31]引入新型变换器结构,包含图像与元数据编码器和多信息融合解码器。在解码器部分引入注意力机制融合多特征输入,将疾病诊断准确率提升6%。
2.3 多中心数据集方法
应用HAM10000和BCN20000数据集训练同一模型时,发现两者训练得到的模型在黑素细胞痣和黑色素瘤的诊断中存在差异,这可能由于2个数据集中黑素细胞痣和黑色素瘤样本比例不同
[32]。因此,数据集中样本量的分布对模型性能具有重要影响,保证数据集的平衡性与全面性是充分发挥神经网络模型优势的关键。此外,模型分类准确性受多种因素影响,如毛发、伪影、图像拍照角度及光照条件等方面
[33]。有限的数据集限制DL的高精度识别与进一步发展,不平衡小数据集的缺陷可通过算法进行补充。通过小样本数据集训练深度卷积神经网络(deep convolutional neural network,DCNN)模型,完成14类良恶性皮肤肿瘤的分类任务,取得优异性能
[34]。RegNetY-320模块通过应用数据增强方法处理不平衡数据集,调整多种超参数组合,最终实现91%的准确率
[35]。
在ZHU等
[36]的前瞻性多中心研究中,通过在多家医院招募患者并获取临床皮损图像及高频超声图像,研究结果表明该算法的性能优于以往模型,且在大多数类型疾病的诊断中,其准确率高于普通临床医生。然而,该算法在皮脂腺囊肿和脂肪瘤的诊断中,准确率显著低于临床医生,这可能与这些疾病在表皮上通常缺乏明显的特异性表现有关。总而言之,数据集对模型性能具有显著影响。为了提升模型的表现,构建多中心、全面且平衡的数据集至关重要,同时纳入更多图像信息和元数据为疾病诊断提供有力支持,从而进一步增强神经网络模型的性能。
2.4 可解释分类模型方法
可解释性指机器学习决策对人类而言的可理解程度,是评估DL模型性能的关键要素。然而,由于DL模型常被视为“黑匣子”,其输出结果缺乏可解释性,这一问题在医疗领域中尤为突出,可能阻碍其在临床实践中的应用。开发包括基于热力图和语义分割的可视化技术以及针对皮肤病识别构建的模型解释系统等方法以解决该挑战。
2.4.1 基于热力图的可视化方法
CAM能够准确定位特征图且无需使用边界框标注,具备良好的泛化能力,适用于多种视觉识别任务。通过CAM将权重反向传播至卷积层的特征图中识别图像中的重要区域。借助热激活技术,CAM增强了CNN的可解释性,在一定程度上缓解了其“黑匣子”问题,已成功应用于模型输出的可视化,通过视觉图像解释模型的选择与识别过程,增强了DL网络输出的可解释性,为DL网络在皮肤病分类任务中的应用奠定了坚实基础
[37]。
2.4.2 基于语义分割的可视化方法
通过语义分割技术,专家能在完整的视觉背景下描述组织特征并归类。该方法借鉴了病理学家在评估标本时积累的丰富经验知识,区分良恶性肿瘤的同时识别相关上下文信息。机器学习通过模仿人类专家识别的特征,学习问题的完整视觉背景,并通过其输出澄清识别过程,使专家能够依据输出结果评估和推断模型的性能。该方法在全面学习视觉上下文关系的同时实现图像的高精度分类,为解决DL模型的“黑匣子”问题提供了新思路,并为模型可解释性奠定了坚实基础
[38]。
2.4.3 基于模型解释框架的可视化
采用新型可解释人工智能框架,创建皮肤病学可解释智能系统,通过定位和可视化标注数据集中所有样本的有效属性,实现模型可解释性
[39]。该系统将人类可理解的概念映射至DL过程中,建立与位置信息结合的细粒度文本解释,并提供视觉效果图像,为医生提供可靠的初步筛查工具。总之,随着模型可视化技术的发展,神经网络在临床实践中的潜力不断增强,为推进其在医疗领域的应用做出重要贡献。
3 皮肤病DL诊断模型的任务识别
3.1 良性皮肤病识别
随着DL的不断发展,针对常见皮肤良性疾病的诊断模型逐渐展现出优异性能,为临床医生提供了有力的辅助诊断工具。RASHEED等
[40]构建以湿疹图像信息为核心的数据集,采用混合深度神经网络,整合手动特征与深度激活特征,实现湿疹的自动化诊断与分类。基于DL算法在辅助医生早期发现和高效诊断湿疹与银屑病方面展现出巨大潜力,有望改善患者的预后
[41]。临床上常采用指甲银屑病严重程度指数(nail psoriasis severity index, NAPSI)评估甲银屑病,但过程耗时且需皮肤科专家参与。为此,开发基于变换器的神经网络实现NAPSI的自动量化,模型表现出良好的性能
[42]。此外,为改进痤疮的诊疗,YANG等
[43]开发一种DL模型,根据皮损数量和类型对痤疮进行诊断与分级,为每一级别提供规范的标准化治疗方案。并对患者病情持续评估,根据疾病进展调整治疗方案。这一创新方法有望为痤疮患者提供更加个性化和有效的治疗。在白癜风的智能诊断中,经过适当训练的神经网络系统能够在无伍德灯图像的情况下诊断白癜风,且性能超越临床医生
[44]。
3.2 恶性皮肤疾病的识别
近年来皮肤肿瘤的发病率持续上升,但公众对皮肤肿瘤的认知仍然不足,这导致许多患者未能及时就医,进而使疾病进展至晚期,影响了预后。因此,早期诊断恶性肿瘤对改善患者预后至关重要。在疾病初期,诊断模型通过分析皮损的皮肤镜图像信息,能够有效区分良恶性肿瘤,展现出优异的诊断性能,并具备良好的泛化能力
[45]。此外,DL系统能够通过分析皮肤肿瘤的病理切片,实现对BCC和SCC 2种最常见的非黑色素瘤性皮肤癌的鉴别诊断。在图像识别过程中,充分考虑了手术切除恶性肿瘤时切取的边缘组织问题,从而最大限度地提取关键诊断信息,提升了识别的准确性和临床应用价值
[46]。
在皮肤黑色素瘤的诊断中,经过ResNet预训练的CNN模型可特异性识别皮肤黑色素瘤的病理切片,准确性与病理医生相似,可有效减轻病理医生的工作负担
[47]。采用无监督计算机图像转换技术,将浅肤色人群图像肤色加深,在不改变病变特征的前提下提升模型对深肤色人群MM的识别性能,可拓宽其应用范围
[48]。针对黑色素瘤患者小样本量和数据不平衡的问题,通过自定义损失函数、定制化小批量逻辑以及全连接层修改等技术,优化不平衡数据集中的MM预测,对提高机器学习诊断黑色素瘤的效率具有重要意义
[49]。此外,KIM等
[50]开发了1种结合病理分析核特征、CNN预测的与黑色素瘤发病相关的B-Raf原癌基因丝氨酸/苏氨酸蛋白激酶(B-Raf proto oncogene serine/threonine protein kinase, BRAF) 突变概率及元数据的DL模型,为基于机器学习的黑色素瘤诊断提供了新思路。通过识别皮肤镜图像、病理图像及相关生物标志物,DL模型可辅助皮肤科医生实现早期诊断并改善患者预后,具有广泛的临床应用前景。
3.3 皮肤病分类任务
根据任务器的输出可将模型分为两类,即二分类任务器及多分类任务器。二分类任务指模型输出2个类别,通常区分2种皮肤疾病。在二分类任务方面,HEKLER等
[51]将DL应用于黑色素瘤的组织病理图像,实现了黑色素瘤与痣细胞痣的鉴别诊断。二分类任务器对多种常见皮肤病进行分类,分别在痤疮与玫瑰痤疮、T细胞淋巴瘤与湿疹、银屑病与湿疹的鉴别诊断中性能优异
[52]。这些研究不仅证明了二分类在皮肤病CAD中的良好应用前景,也为临床医生提供了更精准可靠的诊断工具。二分类任务器局限于模型无法同时区分多种皮肤病变,且仅限于两种预设疾病之间的单一诊断,因而在实际临床应用中存在一定局限。
而多分类任务指模型能够输出多个类别,可实现更广泛病因的诊断。DL模型可对26种常见皮肤病进行鉴别诊断,并对419种皮肤病提供次级预测。该模型提供的诊断信息对于提高医生诊断准确性、确定合适检查及治疗方案具有重要价值
[53]。随着网络模型的不断发展,模型具备多模态输入能力,可通过叠加多种方法以增强其性能,适用于皮肤病诊断,为CNN在皮肤病领域的进一步推进提供了可靠依据。综上所述,CNN的输出呈现多样性。尽管二分类任务在一定程度上限制了诊断范围,但其高准确性使其在疾病鉴别诊断中具有高度可靠性;而多分类任务同时诊断多种疾病,虽然随着诊断疾病数量的增加,准确性有所下降,但网络模型的持续发展与优化使得模型具备多模态输入能力,叠加多种方法增强性能,使其更适用于皮肤病的诊断。这为CNN在皮肤病领域的进一步应用与发展提供了广阔前景和可靠基础。
4 总结与展望
DL模型在皮肤病识别与诊断中展现出了优异的准确性和特异性,可作为临床辅助诊断工具,有助于减少诊断误差。然而,当前存在一些挑战,影响其在临床实际应用中的广泛推广和有效性。首先,公共数据集存在数据不平衡的问题,这导致模型在某些特定疾病分类中的表现较差,因此改善数据集平衡性对提升模型性能至关重要。此外,数据标准化的确立至关重要,不仅可以确保模型在不同数据集上的泛化能力,还能帮助减少因数据质量差异引起的性能波动。其次,模型的可行性是DL在临床应用中的一个关键考虑因素。尽管CNN在皮肤病图像分析中表现出色,但其高计算需求使得在移动设备或低资源环境中运行成为挑战。这限制了模型的便捷性和可携带性,尤其是在基层医院和远程医疗中。为此,未来的研究应着重探索更高效、轻量化的DL模型,提升模型的实时性和可部署性,以便更好地适应临床实践需求。
此外,模型的开发过程中应注意其可解释性问题,临床医师需要理解模型的决策过程,以便在实际操作中进行适当的判断和调整,避免“黑匣子”效应所带来的潜在风险。尽管目前已有一些DL模型能够实现皮肤病的诊断,但大多数模型尚未能够同时处理疾病的诊断、分期和治疗方案推荐,不能满足临床中根据疾病进展制定不同干预策略的实际需求。因此,未来的研究应致力于通过技术突破,开发出能够集诊断、分类和治疗方案于一体的智能诊断系统,大幅优化临床工作流程,提高治疗效果和改善患者预后。总之,这些问题的解决将有助于推动DL技术在皮肤病诊断领域的成熟与普及,从而为患者提供更加精准、便捷的医疗服务。