基于改进RT-DETR的多尺度特征融合的高效轻量皮肤病理检测方法

任煜瀛 ,  黄凌霄 ,  杜方 ,  姚新波

南方医科大学学报 ›› 2025, Vol. 45 ›› Issue (02) : 409 -421.

PDF (1502KB)
南方医科大学学报 ›› 2025, Vol. 45 ›› Issue (02) : 409 -421. DOI: 10.12122/j.issn.1673-4254.2025.02.22

基于改进RT-DETR的多尺度特征融合的高效轻量皮肤病理检测方法

作者信息 +

An efficient and lightweight skin pathology detection method based on multi-scale feature fusion using an improved RT-DETR model

Author information +
文章历史 +
PDF (1537K)

摘要

目的 针对皮肤病检测任务中存在皮肤病变区域多尺度、图像噪点干扰以及辅助诊疗设备资源有限影响检测准确性等问题,提出一种基于RT-DETR改进的高效轻量化皮肤病检测模型。 方法 引入轻量级FasterNet作为骨干网络,同时对FasterNetBlock模块进行重参数化改进。在颈部网络中引入卷积和注意力融合模块代替多头自注意力机制,形成AIFI-CAFM模块,从而增强模型捕获图像全局依赖关系和局部细节信息的能力。设计DRB-HSFPN特征金字塔网络替换跨尺度特征融合模块(CCFM),以融合不同尺度的上下文信息,提升颈部网络的语义特征表达能力。结合Inner-IoU和EIoU的优点,提出了Inner-EIoU替换原损失函数GIOU,进一步提高模型推理准确性和收敛速度。 结果 改进后的RT-DETR相较于原始模型,在HAM10000数据集上的mAP@50和mAP@50:95分别提升了4.5%和2.8%,检测速度FPS达到59.1帧/s。同时,改进模型的参数量为10.9M,计算量为19.3GFLOPs,相较于原始模型分别降低了46.0%和67.2%,验证了改进模型的有效性。 结论 本文提出的SD-DETR模型在降低参数量和计算量的同时,能够有效的提取并融合多尺度特征,从而显著提升了皮肤病检测任务的性能。

Abstract

Objective The presence of multi-scale skin lesion regions and image noise interference and limited resources of auxiliary diagnostic equipment affect the accuracy of skin disease detection in skin disease detection tasks. To solve these problems, we propose a highly efficient and lightweight skin disease detection model using an improved RT-DETR model. Method A lightweight FasterNet was introduced as the backbone network and the FasterNetBlock module was parametrically refined. A Convolutional and Attention Fusion Module (CAFM) was used to replace the multi-head self-attention mechanism in the neck network to enhance the ability of the AIFI-CAFM module for capturing global dependencies and local detail information. The DRB-HSFPN feature pyramid network was designed to replace the Cross-Scale Feature Fusion Module (CCFM) to allow the integration of contextual information across different scales to improve the semantic feature expression capacity of the neck network. Finally, combining the advantages of Inner-IoU and EIoU, the Inner-EIoU was used to replace the original loss function GIOU to further enhance the model's inference accuracy and convergence speed. Results The experimental results on the HAM10000 dataset showed that the improved RT-DETR model, as compared with the original model, had increased mAP@50 and mAP@50:95 by 4.5% and 2.8%, respectively, with a detection speed of 59.1 frames per second (FPS). The improved model had a parameter count of 10.9 M and a computational load of 19.3 GFLOPs, which were reduced by 46.0% and 67.2% compared to those of the original model, validating the effectiveness of the improved model. Conclusion The proposed SD-DETR model significantly improves the performance of skin disease detection tasks by effectively extracting and integrating multi-scale features while reducing both parameter count and computational load.

Graphical abstract

关键词

皮肤病 / 轻量级网络 / 多尺度特征融合 / 注意力机制 / RT-DETR

Key words

skin disease / lightweight network / multi-feature fusion / attention mechanism / RT-DETR

引用本文

引用格式 ▾
任煜瀛,黄凌霄,杜方,姚新波. 基于改进RT-DETR的多尺度特征融合的高效轻量皮肤病理检测方法[J]. 南方医科大学学报, 2025, 45(02): 409-421 DOI:10.12122/j.issn.1673-4254.2025.02.22

登录浏览全文

4963

注册一个新账户 忘记密码

皮肤癌被认为是全球范围内最常见和最重要的癌症之一。根据调查数据,2020年全世界新增诊断皮肤癌病例数量高达152万,死亡人数约12万1。然而,皮肤癌在早期通常没有明显的自觉症状,这很容易导致误诊或漏诊2。因此,及时准确地检测和识别皮肤病状况对于医生制定治疗策略,从而提高患者的治疗效果至关重要。通常情况下,皮肤科医生会使用皮肤镜图像进行诊断。然而,不同类型的皮肤病在外观上(如大小、形状、颜色等)非常相似。这种诊断方法依赖于医生的专业知识和临床经验,即使是经验丰富的专家,也可能会误诊3。因此,许多标准检测程序被提出来,例如Argenziano等4提出的7点检查表,通过检测恶性黑色素瘤皮肤镜图像中的不规则条纹、回归结构、蓝白面纱、不对称性、边界不规则性、颜色多样性和直径大小等7个特征,有效地提高了黑色素瘤的诊断效率和准确率。同时,Ganster等5提出ABCD原则,通过仔细观察病变区域的不对称性、边界不规则性、颜色和直径大小等特征,从而对皮肤病变的性质做出初步判断。随着皮肤镜诊断方式的普及,计算机辅助诊断(CAD)6系统在医疗领域的应用已经十分广泛。通过采用人工设计特征结合分类器的方法,CAD技术能够自动分析皮肤镜图像,实现对皮肤病变的分类。
然而,这些人工诊断方法存在低效,且易受主观等因素影响导致误差,限制了检测的效率,在可靠性和及时性方面也存在局限。随着深度学习技术的进步,越来越多的研究开始关注利用深度学习算法进行皮肤病变检测与识别。邵虹等7提出了一种新的皮肤镜图像分类方法。该方法结合了交叉熵损失函数与卷积神经网络,并使用ResNet50作为骨干网络构建了分层的卷积神经网络模型,分类准确率达到了85.94%。郑顺源等8提出了一种利用边缘引导的神经网络,并通过采用自校正的皮肤检测数据对模型进行训练,从而实现鲁棒的皮肤检测。Huang等9利用高光谱成像技术处理皮肤良恶性病变数据集,并应用YOLO v5对各种类型的皮肤癌进行了识别分类,但高光谱成像技术对消除噪声的效果并不明显。沈鑫等10提出了一种基于注意力残差U-Net的皮肤镜图像分割方法,将卷积块注意力机制模块(CBAM)引入到模型的跳跃连接中,并将其与残差模块(DRB)结合,形成注意力残差结构(ARB),从而实现了对皮肤镜图像的分割。王玉峰等11提出一种基于双分支注意力卷积神经网络(DACNN)的皮肤癌分类框架,首先对潜在的病变区域进行定位放大,然后进行局部细节的特征提取,敏感度性能指标达到92.2%。高埂等12提出了一种基于MobileNetV3-Small轻量级卷积神经网络模型,通过舍弃MobileNetV3-Small中计算复杂的挤压-激发模块,引入较轻量的高效通道注意力机制,并使用计算方便、稳定性好的LeakyReLU激活函数,在色素减退性皮肤病诊断上取得了较好的效果。
上述研究表明,深度学习方法可以有效地应用于皮肤病的检测,然而,由于皮肤病病变区域多尺度问题,使得模型难以同时捕捉到病变区域的全局特征和局部细节,从而影响检测的准确性。此外,图像噪声干扰会降低模型对真实病变特征的识别能力,增加误诊风险。同时,大多数现有的辅助诊疗设备资源有限,这限制了模型训练数据的数量和多样性,进而影响了模型的泛化能力和鲁棒性。为了解决以上问题,本文提出了基于RT-DETR13改进的用于皮肤病检测的轻量化SD-DETR模型。主要改进如下:使用轻量级的FasterNet14作为本文的骨干网络,并对其中FasterNetBlock模块采用RepConv进行重参数化改进,减少了模型的计算复杂度并加快了推理速度;在颈部网络中,通过将卷积和注意力融合模块(CAFM)15引入尺度内特征交互(AIFI)模块中,构成AIFI-CAFM模块,增强模型网络捕获全局依赖关系和局部细节的能力。其次,采用重参数化膨胀卷积DRB模块16对高级筛选特征融合金字塔网络17特征金字塔网络进行改进,替换了跨尺度特征融合网络CCFM,提升模型对多尺度特征信息融合的能力;使用Inner-IoU18对EIoU19进行改进替代边界框回归损失函数GIOU,提高皮肤病变区域定位识别能力。

1 材料和方法

1.1 实验数据

本文使用的公共数据集是2018年ISIC挑战赛(ISIC 2018 Challenge)提供的HAM1000020数据集进行皮肤癌检测分类。HAM10000数据集是由国际皮肤影像协作组织提供的用于皮肤癌多分类任务的数据集,得到了多名皮肤病医学专家的标注。 HAM10000数据集有10015张带有标注的皮肤镜图像,每张图像的分辨率是600×450像素,包括黒色素瘤(MEL)、黑色素细胞痣(NV)、基底细胞癌(BCC)、光化性角化病(AKIEC)、良性角化病(BKL)、皮肤纤维瘤(DF)和血管病变(VASC)共7种样本类别(表1)。

不同类型的皮肤病变需要采取不同的治疗方法。因此临床实践中,皮肤科医生需要识别不同类型的皮肤病变,并做出准确的诊断,从而为患者制定最适合的治疗计划。每个病例样本如图1所示。

1.2 模型框架

本文基于RT-DETR设计了一种轻量级皮肤病检测模型SD-DETR。该模型主要由主干网络、颈部网络和解码器3部分组成。采用相对轻量级的FasterNet作为骨干网络,同时对FasternetBlock进行重参数化改进,进一步加快了推理速度,并减少了计算负荷和内存消耗;在编码器部分引入卷积和注意力融合模块构成AIFI-CAFM模块,该模块能捕捉特征图中的局部细节信息和全局依赖关系,然后注入到不同层级的特征中,帮助模型进行全局和局部特征的综合建模;将DRB-Fusion模块融入HSFPN构成特征金字塔网络DRB-HSFPN并替换原来的跨尺度特征融合网络CCFM,旨在提升模型多尺度特征信息融合的能力以提升对目标的识别准确度,同时降低模型复杂度;对于损失函数,使用Inner-EIoU代替原来的GIOU,提升预测框回归精度(图2)。

SD-DETR使用FasterNet对大小640×640的输入图像进行特征提取,得到特征图P3、P4、P5作为编码器AIFI-CAFM的输入;AIFI-CAFM对深层级特征P5进行编码得到特征S5,DRB-HSFPN模块通过对多尺度特征P3、P4、S5进行融合,捕获更丰富的上下文语义信息;解码器通过IoU感知查询模块,从编码器输出序列中选择固定数量的图像特征作为初始对象查询,然后通过在训练过程中引入Inner-EIoU损失函数来约束迭代优化生成的预测框和置信度分数。

1.3 主干网络的改进

主干网络作为模型中的关键部分,其设计和结构直接决定了模型的整体性能。为了减少辅助诊疗设备所需高昂的计算成本,本文采用轻量级的FasterNet作为RT-DETR的骨干网络。FasterNet的核心思想是通过设计一个部分卷积(PConv)来代替正常卷积操作,其中PConv只对特征图的cp个通道进行规则卷积,其余通道保持不变。其FLOPs可以根据式(1)计算得到,当卷积操作采用1/4的通道数时,部分卷积的FLOPs 是普通卷积的1/16。

fFLOPS=h×w×k2×cp2

其中,hw分别表示特征图的长和宽,k表示卷积核尺寸,cp 表示所使用的通道数。

使用FasterNet作为骨干网络有助于在复杂医疗场景下提升检测效率与准确性。FasterNet与其它网络相比,有着更精简的结构和更低的复杂度,能够更好地利用设备的计算资源,同时发挥在提取空间特征方面的优势(表2)。

1.3.1 基于重参数化的FasterNetBlock

虽然FasterNetBlock模块在皮肤病检测任务中显著降低了参数量与计算量,但这可能会影响模型的检测能力。因此,我们引入RepConv21对部分卷积PConv模块进行优化,构成重参数化模块FasterNetRepBlock(图3)。FasterNetRepBlock在训练阶段采用多分支结构,能够有效地提取多尺度特征,并学习更优的权重参数,从而提高模型的检测精度。同时,在推理阶段,通过融合操作将多分支结构转换为单分支结构,减少模型的冗余参数计算。

FasterNetRepBlock的RPConv模块采用了结构重参数化技术,在训练阶段,使用 3×3卷积分支、1×1卷积分支和BN分支的并行策略,并将这3个分支的输出进行相加,最后使用激活函数ReLU处理后得到最终输出。在推理阶段,RPConv将1×1卷积支路使用零填充的方法转化为3×3卷积;同时,BN支路也可以视为特殊的1×1卷积,使用零填充方法转化为3×3卷积。之后,将3个3×3卷积的权重与偏置进行相加,作为融合后的3×3卷积的权重与偏置,并删除1×1分支和BN分支,从而实现快速检测。

Conv(x)=W*x+b

其中,x表示输入特征图,W表示卷积核权重,b表示卷积核训练后得到的偏置项。

          BN(x)=x-μσ2+εγ+β=WBNx+bBN
         WBN=γσ2+ε
bBN=β-μγσ2+ε

其中,β表示偏置项,γ表示缩放因子,μ表示用于批归一化的卷积核权重的方差。σ表示批归一化的卷积核权重的标准差,ε表示一个较小的数,防止式中分母为0。WBN为BN层的权重,bBN为BN层的偏置。

          Fuse(x)=WBN(Wx+b)+bBN          =WFusex+bFuse
WFuse=WBNW
bFuse=WBNb+bBN

其中,Fuse表示Conv与BN的融合操作。

1.4 颈部网络的改进

1.4.1 AIFI-CAFM模块

图像由一系列像素组成,每个像素点都包含颜色和亮度值等信息。皮肤病检测的目的是通过学习使用这些像素信息进行检测识别,将像素级别的信息与皮肤病灶关联起来。尺度内特征交互模块AIFI依赖于传统的正弦和余弦函数生成非动态学习的位置编码的方法构建像素之间的相互关系。然而,这种方法未能充分捕捉像素与其在真实空间中实际位置之间的关联。这就意味着模型对图像内容的理解与其在物理空间中的布局或上下文关系不匹配,从而影响了整体推理的准确性。为了克服这一限制,本文引入了卷积和注意力融合模块(CAFM),采用CAFM取代多头自注意力机制(MSA),该模块使用全局和局部两个分支处理输入特征,增强模型跨通道特征信息的交互能力并促进信息整合(图4)。AIFI-CAFM旨在通过全局分支和局部分支帮助模型进行全局和局部特征进行综合建模,从而提高模型的对齐和表征能力。

卷积和注意力融合CAFM模块主要由局部分支和全局分支组成:一个分支通过卷积和通道重排来提取局部特征,另一个分支利用注意力机制来建模长距离特征依赖关系(图5)。这种结合了卷积和注意力的设计使得模型能够综合建模全局和局部特征,提高了模型捕获特征图中重要区域信息和去噪的能力。

在CAFM模块中,局部分支使用1×1卷积调整通道尺寸,然后进行通道混洗操作,以进一步混合通道信息。接下来,采用3×3×3卷积提取局部特征。全局分支通过1×1卷积和3个3×3深度卷积分别生成查询张量(Q)、键张量(K)和数值张量(V)。然后计算Q和K的相关性分数,得到每个K对应V的注意力权重矩阵,随后利用Softmax函数进行归一化操作,得到归一化的注意力权重矩阵。接下来,对V进行加权求和,从而获得全局注意力输出。再将全局注意力输出使用1×1卷积调整通道尺寸,并加入了跳跃连接以保证数据流通的稳定和缓解梯度消失的问题。最后,将全局支路和局部支路的特征表示通过加法操作进行融合,这种融合操作能够有效地结合局部和全局信息,提高模型对皮肤病图像的理解能力和去噪效果。计算过程如下:

Lconv=W3×3×3(CS(W1×1(S5)))

其中,Lconv为局部支路输出,S5为输入特征,W1×1为1×1卷积,W3×3×33×3×3卷积,CS为通道混洗操作,将输入特征XRC×H×W沿通道维度分为G组,每组内子特征XiRC//G×H×W使用深度可分离卷积进行通道混洗操作,以学习不同的语义信息,然后,将每组生成的输出张量沿通道维度连接起来X=[X0,Xi,...,XG-1] 

(Q,K,V)=W3×3D(W1×1(S5))

其中,Q为全局查询张量QRH^×W^×C^K为键张量KRH^×W^×C^,V为数值张量VRH^×W^×C^W1×1为1×1卷积,W3×3D为3×3深度卷积。

Gatt=W1×1Attention(Q^,K^,V^)+S5
Attention(Q^,K^,V^)=V^Softmax(K^Q^α)

其中,Gatt为全局分支注意力输出,重构后 Q^RH^W^×C^K^RC^×H^W^α为可学习的缩放参数,用于在Softmax函数之前控制K^Q^的矩阵乘法的大小。

最后,CAFM模块的计算输出为:

Fout= Lattn+ Lconv

1.4.2 基于重参数化膨胀卷积的特征金字塔网络

使用重参数化膨胀卷积模块(DRB),使模型在拥有多分支网络高性能的同时减少冗余参数的计算,并保持与单分支网络相当的推理速度。具体来说,在训练阶段使用多分支主干网络自适应的调整卷积核的权重,使其能够学习到最具有代表性的皮肤病图像特征。在推理阶段通过卷积重参数化的方式,将每个并行的膨胀卷积和相应的批归一化层BN进行合并得到一个新的9×9卷积,从而实现去除多余的分支并加快推理速度,该过程可表示为:

BN(Conv(x))=γW(x)σ2+ε+γ(b-μ)σ2+ε+β

其中,x表示输入特征图,W表示卷积核权重,b表示卷积核训练后得到的偏置项,β表示偏置项,γ表示缩放因子,μ表示用于批归一化的卷积核权重的方差。σ表示批归一化的卷积核权重的标准差,ε表示一个较小的数,防止式中分母为0。

y=(w1+w2+w3+w4+w5)x+      (b1+b2+b3+b4+b5)

其中, w1表示已经通过批归一化层BN 合并的9×9大卷积核的权重,w2w3w4w5代表四组已经通过批归一化层BN 合并的膨胀卷积的权重。

DRB模块通过结合大核卷积和膨胀卷积不仅可以获取小卷积核在特征图的局部细节信息,还能扩大感受野,提升捕获稀疏特征信息的能力(图6)。并且为了使模型能够更全面地感知输入数据的结构信息,本文基于DRB模块构建了DRB-Fusion模块,该模块能充分利用浅层特征,从而产生质量更高的融合特征,丰富语义信息,并提高目标检测精度。

DRB主要由1个大卷积核与4个并行且膨胀因子不同的卷积核构成。其中大卷积核尺寸为9×9,4个并行膨胀卷积的尺寸分别为5×5、5×5、3×3、3×3,膨胀因子分别为1,2,3,4(图6)。在训练阶段,输入的图像首先通过一个大卷积核来提取特征。这种大卷积核有助于捕捉到更大范围的上下文信息。接着,图像特征还被送入多个并行的膨胀卷积层。这些卷积层的膨胀因子不同,目的是在保持计算效率的同时扩大感受野,从而提取多尺度的特征信息。然后将大卷积核的输出与并行的膨胀卷积层的输出在通道维度上进行拼接并重参数化得到最终输出。该过程可表示为:

x1=BN(Conv9×9(x))x2=BN(DConvk=(5,5),r=1(x))x3=BN(DConvk=(5,5),r=2(x))x4=BN(DConvk=(5,5),r=3(x))x5=BN(DConvk=(5,5),r=4(x))y=Conv1×1Concat(x1,x2,x3,x4,x5)

其中,x表示输入特征图,Conv9×9表示9×9的卷积操作,Conv1×1表示1×1的卷积操作,DConv 表示膨胀卷积操作,k表示膨胀卷积的尺寸,r表示膨胀因子,BN表示批量化归一化操作。

DRB-Fusion模块结构如图2所示,该模块主要由两个支路组成。首先将两个不同层级输入特征进行拼接,之后,特征通过一个1×1卷积的支路进行通道调整,作用是降低拼接后特征的维度,同时保留特征的局部信息。其次,拼接的特征会并行经过另一条支路,该支路由1×1卷积和3个DRB模块构成。经过第一个1×1卷积层后,数据会经过3个相同的DRB模块。DRB模块的作用是将不同层级的特征进行融合,从而产生更丰富的多尺度特征信息。最后,将两个支路的输出拼接后在空间维度展开,得到最终输出。

考虑在皮肤病变尺寸较小且特征信息匮乏的区域,其特征信息主要集中在浅层和中层特征图中。RT-DETR的特征融合网络(CCFM)采用简单的拼接或者加和操作,容易造成特征信息的丢失或退化,不能充分挖掘和整合金字塔结构中各层级特征图之间的潜在、复杂的相互依赖性和互补信息,从而限制了模型在捕捉更全面、更有代表性的特征信息方面的能力。此外,特征图上的一个像素可能会与远离它的像素有较强的关联性。因此,为了更好地结合深层特征图的高维信息和浅层特征图的特征,将DRB-Fusion模块融入基于层级尺度的特征金字塔网络(HSFPN),构成新的DRB-HSFPN结构(图2)。

DRB-HSFPN特征金字塔网络在继承了原HSFPN的强大特征提取能力的基础上,还进一步增强了网络对关键特征区域的关注,实现了对检测精度的显著提升。具体而言,通过将通道注意力(CA)对不同层级特征进行筛选,提取必要的语义信息同时抑制冗余信息。接着,使用反卷积(CT2d)操作对深层级特征图进行上采样操作,以使其与浅层级特征图保持相同的尺寸。然后,利用DRB-Fusion模块筛选后的深层级特征与浅层级特征进行融合,以增强模型对特征的表达能力,实现语义信息和细节信息的结合。过程表示如式(17)所示。

FOutput=DRB-HSFPN({P3,P4,S5})

其中,P3表示浅层级特征图,P4表示中层级特征图,P5表示深层级特征图。

1.5 损失函数的改进

RT-DETR采用GIoU作为边界框回归损失函数,其定义如式(18)所示。当两个预测框完全不重叠或只有小部分重叠时,GIoU的损失变化并不明显。此外,计算每个预测框和真实框的最小封闭矩形也会增加计算复杂度,并限制模型的收敛速度。

LGIOU=1-IOU+|C-BBgt||C|

其中,IOU(Intersection over Union)为预测框与真实框的交并比,B为预测边界框的面积,Bgt为真实边界框的面积,C为同时包含和的最小包围面积。

因此,本文引入EIoU损失函数和Inner-IoU损失函数进行优化调整。EIoU使用宽度和高度的预测结果作为惩罚项,损失项包括IOU损失、距离损失和方向损失,EIOU损失函数计算公式如式(19)所示。

LEIOU=1-IOU+ρ2b,bgtc2+ρ2w,wgtcw2+ρ2h,hgtch2

其中,c为预测框与真实框的最小外接框对角线长度,cw为预测框与真实框的宽度差异的归一化参数, ch为预测框与真实框的高度差异的归一化参数。b表示预测框中心点,bgt表示真实框中心点。h表示预测框的高度,w表示预测框的宽度。h表示预测框的高度, w表示预测框的宽度。ρ2(·)表示两点之间的欧几里得距离。

为了进一步提高模型的检测能力,本文引入了内交并比损失函数Inner-IoU,通过利用辅助边框比例因子来控制生成不同尺度的辅助边界框,以进行损失计算。通过融合这些元素,可以提升模型预测的精确度。Inner-IoU的定义如下:

inter=(min(brgt,br)-max(blgt,bl))*            (min(bbgt,bb)-max(btgt,bt))
union=wgt*hgt*(ratio)2+              (w*h)*(ratio)2-inter
IoUinner=interunion

其中,brgt表示真实框的右边框,br表示预测框的右边框。blgt表示真实框的左边框,bl表示预测框的左边框。bbgt表示真实框的下边框,bb表示预测框的下边框。btgt表示真实框的上边框,bt表示预测框的上边框。wgthgt表示真实框的宽度和高度,wh分别表示预测框的宽度和高度。ratio是控制辅助边框大小的比例因子,取值范围在[0.5,1.5]之间。

最终,将Inner-IoU和EIoU两个损失整合为 Inner-EIoU。该损失函数能更精准地匹配预测框和真实框,以提高检测精度。Inner-EIoU的计算公式如式(23)所示。

LInner-EIoU=LEIoU+IoU-IoUinner

1.6 实验环境设置

本文的实验结构改进设计和模型训练试验均在一台具有固定配置的台式计算机环境中进行。具体的实验环境配置详见表3。在设置模型的超参数时,我们采用了以下数值:图像的预设输入分辨率为640×640像素,每个训练批次包含的样本数量为8,数据预加载时启用的工作线程数为2,初始学习率设为0.0001,优化器为Adamw。另外除特别说明,所有其他训练超参数均采用默认值。

为了评估模型在皮肤病检测方面的效果,本实验主要采用准确率(P)、召回率(R)、平均精度均值(mAP)作为评价指标来评估模型的性能。此外,我们还选择模型大小(参数量)、检测速度(FPS)和计算复杂度(GFLOPs)等参数来衡量模型的推理性能。具体公式如下:

P=TPTP+FP×100%
R=TPTP+FN×100%

其中,TP表示真实的正样本,FP表示错误地被分类为正样本的样本,FN表示错误地被分类为负样本的样本。

APi=01P(α)dR(α)

其中,APi 表示第i个类别的平均精度,α为置信度阈值。

mAP=i=1cAPic

其中,mAP表示所有类别的平均精度的平均值,APi为各类别平均精度,c为类别数。

FPS=1tavg

其中,FPS表示模型每秒处理的图像数量,tavg是指处理一张图像所需的平均时间。

2 结果

2.1 消融实验

2.1.1 改进模块消融实验

在HAM10000数据集上进行了6组消融实验,实验结果如表4所示。

2.1.2 损失函数对比实验

将Inner-EIoU分别与GIoU、CIoU22、DIoU22、SIoU23、EIoU进行对比实验,实验结果如表5所示。在公共数据集HAM10000进行测试,得到整体与各皮肤病类别分别的检测效果,其中下标1和2分别表示改进前和改进后算法(表6)。

改进后的模型整体性能有了明显的提升,整体精确率从64.6%提高到71.9%,召回率从53.4%提高到55.2%,mAP50从49.3%提高到53.8%(表6)。同时各类型裂缝的检测精度与 mAP50 指标都有不同幅度提升,其中黑色素瘤、基底细胞癌、良性角化病、皮肤纤维瘤、血管病变在mAP50上提高了12.7%、9.5%、15.8%、9.4%、3.4%。虽然在黑色素细胞痣和光化性角化病有一些下降,但不影响改进后模型的整体检测效果。表明改进后的模型在处理单一类别和多类别数据时均表现出了良好的性能,具有在实际场景中应用的潜力。

2.2 对比实验

为了验证改进模型在皮肤病检测方面的有效性,选择主流目标检测算法,在公共数据集HAM10000上进行了对比实验,并记录了它们的性能指标(表7)。

表7可知,SD-DETR模型的参数量为10.9M,明显小于其它模型;浮点运算量为19.3GFLOPs,也是表中最低,这表明SD-DETR将有效降低对设备计算资源的依赖。此外,SD-DETR模型的mAP@50比Faster-RCNN、YOLOv7、YOLOv8-S、YOLOv9-S、GOLD-YOLO-S分别高出14.5%、9.5%、6.5%、2.67%和9.7%。相较于Deformable-DETR和DINO模型,SD-DETR模型的精度分别提高了8.8%和9.7%,同时模型复杂性也较低。与YOLOv8-S相比,SD-DETR模型的计算量只有其67.4%,而且精度比它高了6.5%。在检测速度上,由于SD-DETR属于端到端的检测模型,省略了后处理过程,因此SD-DETR的检测速率为59.1帧/s,比YOLOV7快了5.4帧/s,具有更高的FPS表现,能够满足实时检测的需求。

图7展示了5种模型在部分检测结果上的可视化对比。图中展示3组不同情况下的测试样本,不同皮肤病采用特定颜色的矩形框进行标识,并标明了相应的置信度得分。根据图7的结果可以看出,本文提出的算法检测效果更优。第1组结果中,基准模型RT-DETR出现多个检测错误,而YOLOv7模型可以检测出大部分病变皮肤区域,但仍存在误检的情况。在第2组黑色素细胞痣的检测中,所有模型都能检测出目标病灶,各模型的检测结果比较接近,其中RT-DETR和SD-DETR模型获得了较高的分类置信度。在第3组黒色素瘤的检测中,YOLOv9-M和SD-DETR的检测结果比较接近,而RT-DETR和YOLOv7出现了误检,并且不能准确识别皮肤病的类型。通过在HAM10000数据集上的试验结果,进一步验证了改进后的模型具有较好的综合性能。

Group 3 Group 2 Group 1

2.3 可视化实验

热力图是用于目标检测的一种可视化技术,为了更直观地展示改进模型的检测性能,本文采用Grad-CAM33可视化技术,在输入图像中显示模型检测目标时的注意力分布,以及模型对不同区域的关注程度,较亮的区域表示探测的置信度较高。对比结果如图8所示。通过对比图8的结果可知,在测试图A中,由于存在有较多毛发的干扰,RT-DETR原始模型仅关注皮肤周围病变区域。在测试图B中,RT-DETR主要关注皮肤病变周围的上部分区域,对于主体部分的关注存在不足。在测试图C中,RT-DETR关注区域较为发散。YOLOv8-S主要关注于中心病变区域和左上方部分皮肤周围病变区域,对于其它部分区域的关注较少。SD-DETR模型相对充分的学习到皮肤病变区域特征,能准确识别并定位皮肤病变主体和周围区域,其关注区域与实际病灶尺寸大小较贴合。

3 讨论

为解决皮肤病检测任务中存在多尺度、图像噪点多以及辅助诊疗设备资源有限等问题,本文提出了一种改进的皮肤病实时检测算法(SD-DETR)。具体而言,首先,将改进的FasterNet14作为主干网络提取特征,减少了模型的计算复杂度的同时提升检测精度。其次,对颈部网络进行改进,引入AIFI-CAFM模块,增强模型捕获图像全局依赖关系和局部细节信息的能力;采用DRB-HSFPN特征金字塔网络替换跨尺度特征融合网络CCFM,有效提升模型对多尺度特征信息融合、去噪方面的能力。最后,将Inner-IoU与EIoU合并构成新的损失函数Inner-EIoU,相比于原来的损失函数GIoU,使用Inner-IoU可以优化模型在训练过程中梯度变化不明显的问题,从而提高模型的预测性能。

本研究针对主干网络的消融实验结果可知,相比于原来的ResNet1834, 引入重参数化FasterNet骨干网络后,mAP50从49.3%提升至50.7%,模型的参数量、计算量分别降低了45.1%和49.0%,表明重参数化的FasterNet不仅提升了检测精度的同时还大幅减小了模型的复杂度。针对尺度内特征交互模块的消融实验可知,引入卷积和注意力融合模块15CAFM,mAP50提升至51.6%,虽然参数量和计算量略微增加,但不影响AIFI-CAFM模块对检测精度的提升作用。针对特征融合模块的消融实验结果表明,引入DRB-HSFPN17后,mAP50提升至49.6%,模型参数量从20.2M减少到17.3M,计算量从58.5GFLOPs降低到45.6FLOPs,表明DRB-HSFPN模块不仅提升了检测精度的同时还大幅减小了模型的复杂度。针对损失函数的消融实验结果表明,在面对不同尺度的皮肤病变区域时,引入Inner-EIoU17在训练时对预测框更好的进行约束,从而有效提升对皮肤病变区域的准确回归。综上消融实验表明,所提出的各个改进模块都是有效的,整体的提升效果最佳,为实验中最优的改进方案。

与主流的目标检测算法(Faster RCNN24、YOLOv725、YOLOv826、YOLOv927、GOLD-YOLO28、Deformable-DETR29、DINO30、DAB-DETR31、Conditional-DETR32) 在HAM10000数据集上相比,本文方法在精确率、召回率、mAP50指标上均达到了最优,在实时检测速度上也达到了59.1帧/s,SD-DETR在有效降低模型参数量的同时,保持了对皮肤病灶目标检测精度的良好表现,实现了性能与效率之间的平衡。此外,通过使用Grad-CAM33可视化技术的实验结果表明,对于不同种类的皮肤病,SD-DETR都能关注到重要的皮肤病变区域特征,准确识别并定位皮肤病变的主体及其周围区域。模型所关注的区域与实际病灶尺寸较为吻合,能够更好地满足临床检测要求,从而辅助医生进行诊断,以确保患者能够获得有效的治疗。

综上所述,本文提出的SD-DETR模型在皮肤病变区域的检测识别任务中表现出了准确性和高效性,与主流的目标检测算法相比,在可视化和定量指标上都更具优势。然而,本文的方法还存在一些局限性。首先,尽管 SD-DETR 算法在降低模型复杂度的同时提高了精度,但仍然存在误检情况,并且参数量还有降低的空间。其次,仅使用了HAM10000比赛数据集进行训练,模型的泛化性还存在一定的局限性。因此,未来的工作将探索模型剪枝、知识蒸馏等轻量化技术以降低模型的参数量和计算量,从而提高模型的部署效率。此外,我们计划采集并制作临床数据集,并在模型上进行训练,旨在提高皮肤病检测算法的鲁棒性,以应对更复杂和可变的临床场景。

参考文献

[1]

Sung H, Ferlay J, Siegel RL, et al. Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA Cancer J Clin, 2021, 71(3): 209-49.

[2]

付学锋, 王美燕, 陈筱筱. 皮肤镜在颜面部皮肤肿瘤筛检中的应用效果观察[J]. 中国现代医生, 2018, 56(21): 86-8, 92.

[3]

Li XY, Wang LX, Zhang L, et al. Application of multimodal and molecular imaging techniques in the detection of choroidal melanomas[J]. Front Oncol, 2021, 10: 617868.

[4]

Argenziano G, Catricalà C, Ardigo M, et al. Seven-point checklist of dermoscopy revisited[J]. Br J Dermatol, 2011, 164(4): 785-90.

[5]

Ganster H, Pinz A, Röhrer R, et al. Automated melanoma recognition[J]. IEEE Trans Med Imaging, 2001, 20(3): 233-9.

[6]

Rana M, Bhushan M. Machine learning and deep learning approach for medical image analysis: diagnosis to detection[J]. Multimed Tools Appl, 2022: 1-39.

[7]

邵 虹, 张鸣坤, 崔文成. 基于分层卷积神经网络的皮肤镜图像分类方法[J]. 智能科学与技术学报, 2021, 3(4): 474-81.

[8]

郑顺源, 胡良校, 吕晓倩, . 基于边缘引导的自校正皮肤检测[J]. 计算机科学, 2022, 49(11): 141-7.

[9]

Huang HY, Hsiao YP, Mukundan A, et al. Classification of skin cancer using novel hyperspectral imaging engineering via YOLOv5[J]. J Clin Med, 2023, 12(3): 1134.

[10]

沈 鑫, 魏利胜. 基于注意力残差U-Net的皮肤镜图像分割方法[J]. 智能系统学报, 2023, 18(4): 699-707.

[11]

王玉峰, 成昊沅, 万承北, . 一种基于双分支注意力神经网络的皮肤癌检测框架[J]. 中国生物医学工程学报, 2024, 43(2): 153-61.

[12]

高 埂, 肖风丽, 杨 飞. 基于改进MobileNetV3-Small的色素减退性皮肤病诊断[J]. 计算机与现代化, 2024(5): 120-6.

[13]

Zhao YA, Lv WY, Xu SL, et al. DETRs beat YOLOs on real-time object detection[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 16-22, 2024, Seattle, WA, USA. IEEE, 2024: 16965-74.

[14]

Li D, Han T, Zhou HT, et al. Lightweight Siamese network for visual tracking via FasterNet and feature adaptive fusion[C]//2024 5th International Seminar on Artificial Intelligence, Networking and Information Technology (AINIT). March 29-31, 2024, Nanjing, China. IEEE, 2024: 1-5.

[15]

Hu S, Gao F, Zhou XW, et al. Hybrid convolutional and attention network for hyperspectral image denoising[J]. IEEE Geosci Remote Sens Lett, 2024, 21: 5504005.

[16]

Ding XH, Zhang YY, Ge YX, et al. UniRepLKNet: a universal perception large-kernel ConvNet for audio, video, point cloud, time-series and image recognition[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 16-22, 2024, Seattle, WA, USA. IEEE, 2024: 5513-24.

[17]

Chen YF, Zhang CY, Chen B, et al. Accurate leukocyte detection based on deformable-DETR and multi-level feature fusion for aiding diagnosis of blood diseases[J]. Comput Biol Med, 2024, 170: 107917.

[18]

Zhang H, Xu C, Zhang SJ. Inner-IoU: more effective intersection over union loss with auxiliary bounding box[EB/OL]. 2023: 2311.02877.

[19]

Zhang YF, Ren WQ, Zhang Z, et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocomputing, 2022, 506: 146-57.

[20]

Tschandl P, Rosendahl C, Kittler H. The HAM10000 dataset, a large collection of multi-source dermatoscopic images of common pigmented skin lesions[J]. Sci Data, 2018, 5: 180161.

[21]

Ding XH, Zhang XY, Ma NN, et al. RepVGG: making VGG-style ConvNets great again[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 20-25, 2021, Nashville, TN, USA. IEEE, 2021: 13728-37.

[22]

Zheng ZH, Wang P, Liu W, et al. Distance-IoU loss: faster and better learning for bounding box regression[J]. Proc AAAI Conf Artif Intell, 2020, 34(7): 12993-3000.

[23]

Gevorgyan Z. SIoU loss: more powerful learning for bounding box regression[EB/OL]. 2022: 2205.12740.

[24]

Ren SQ, He KM, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 39(6): 1137-49.

[25]

Wang CY, Bochkovskiy A, Liao HM. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 17-24, 2023, Vancouver, BC, Canada. IEEE, 2023: 7464-75.

[26]

Reis D, Kupec J, Hong J,et al. Real-Time Flying Object Detection with YOLOv8[J].ArXiv, 2023, abs/2305.09972.DOI:10.48550/arXiv.2305.09972 .

[27]

Wang CY, Yeh IH, Mark Liao HY. YOLOv9: learning what you want to learn using programmable gradient information[M]//Computer Vision – ECCV 2024. Cham: Springer Nature Switzerland, 2024: 1-21.

[28]

Wang CC, He W, Nie Y, et al. Gold-YOLO: efficient object detector via gather-and-distribute mechanism[EB/OL]. 2023: 2309.11331.

[29]

Zhu XZ, Su WJ, Lu LW, et al. Deformable DETR: deformable transformers for end-to-end object detection[EB/OL]. 2020: 2010.04159.

[30]

Zhang H, Li F, Liu SL, et al. DINO: DETR with improved DeNoising anchor boxes for end-to-end object detection[EB/OL]. 2022: 2203.03605.

[31]

Liu SL, Li F, Zhang H, et al. DAB-DETR: dynamic anchor boxes are better queries for DETR[EB/OL]. 2022: 2201.12329.

[32]

Meng DP, Chen XK, Fan ZJ, et al. Conditional DETR for fast training convergence[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). October 10-17, 2021, Montreal, QC, Canada. IEEE, 2021: 3631-40.

[33]

Selvaraju RR, Cogswell M, Das A, et al. Grad-CAM: visual explanations from deep networks via gradient-based localization[J]. Int J Comput Vis, 2020, 128(2): 336-59.

[34]

He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 770-8.

基金资助

RIGHTS & PERMISSIONS

版权所有©《南方医科大学学报》编辑部2021

AI Summary AI Mindmap
PDF (1502KB)

328

访问

0

被引

详细

导航
相关文章

AI思维导图

/