基于多尺度注意力信息复用网络的胸片图像分类

张瑞峰; 郭芳兆; 李锵

doi:10.13229/j.cnki.jdxbgxb.20240222

吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (11) : 3686 -3696. DOI: 10.13229/j.cnki.jdxbgxb.20240222

计算机科学与技术

基于多尺度注意力信息复用网络的胸片图像分类

作者信息 +

Chest X-ray images classification based on multi-scale attention information multiplexing network

Author information +

文章历史 +

PDF (2534K)

摘要

针对胸部X射线图像的病变区域辨识度低、准确捕捉病变空间位置难等问题，提出了一种有利于提高胸片图像分类精度的多尺度注意力信息复用网络。首先，通过引入多路空间信息复用模块，增强疾病部位在特征图及通道之间的位置联系；其次，通过多尺度融合注意力模块，整合多尺度图像特征信息，自动捕捉病灶位置变化，以实现对关键病理信息的灵活关注；最后，通过非对称移位焦点损失函数，缓解胸部疾病样本分布不平衡的问题。在公开数据集ChestX-ray14和CheXpert上的多组实验表明：本文网络在两个数据集上的平均AUC值分别达到0.847和0.901，优于近年来较为先进的网络模型，表明该网络能有效地提高胸部疾病的分类精度。

Abstract

To address issues such as low recognition of lesion areas in chest X-ray images and the difficulty in accurately capturing the spatial positions of lesions， a multi-scale attention information multiplexing network that helps improve the dassification accuracy of chest X-ray images was proposed in this paper. Firstly， by introducing multiple spatial information multiplexing blocks， the network enhances the positional connections between disease regions on feature maps and across channels； Secondly， through a multi-scale integration attention blocks， the network integrates multi-scale image feature information to automatically capture disease location variations and flexibly focus on key pathological information； Finally， the problem of imbalanced distribution of chest disease samples was alleviated by using an asymmetric shift focus loss function. Multiple experiments on the publicly available datasets ChestX-ray14 and CheXpert have shown that the average area under curve （AUC） value of the proposed network on two datasets reached 0.847 and 0.901 respectively， which is superior the more advanced network models in recent years. This indicates that the network can effectively improve the classification accuracy of chest diseases.

Graphical abstract

关键词

计算机应用技术 / 胸部X光图像分类 / 空间信息复用 / 多尺度注意力 / 非对称移位焦点损失

Key words

computer application technology / chest X-ray image classification / spatial information multiplexing / multi-scale attention / asymmetric shift focus loss function

引用本文

引用格式 ▾

[Author(id=1273339720571568368, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, orderNo=0, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=zhangruifeng@tju.edu.cn, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1273339720630288628, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, authorId=1273339720571568368, language=EN, stringName=Rui-feng ZHANG, firstName=Rui-feng, middleName=null, lastName=ZHANG, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Microelectronics，Tianjin University，Tianjin 300072，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273339720672231670, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, authorId=1273339720571568368, language=CN, stringName=张瑞峰, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=天津大学微电子学院，天津 300072, bio={"content":"

张瑞峰（1974-），男，副教授，博士. 研究方向：智能信息处理. E-mail：zhangruifeng@tju.edu.cn

"}, bioImg=null, bioContent=

张瑞峰（1974-），男，副教授，博士. 研究方向：智能信息处理. E-mail：zhangruifeng@tju.edu.cn

, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273339720504459499, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, xref=null, ext=[AuthorCompanyExt(id=1273339720517042412, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, companyId=1273339720504459499, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=School of Microelectronics，Tianjin University，Tianjin 300072，China), AuthorCompanyExt(id=1273339720533819629, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, companyId=1273339720504459499, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=天津大学微电子学院，天津 300072)])]), Author(id=1273339720714174712, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, orderNo=1, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1273339720772894970, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, authorId=1273339720714174712, language=EN, stringName=Fang-zhao GUO, firstName=Fang-zhao, middleName=null, lastName=GUO, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Microelectronics，Tianjin University，Tianjin 300072，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273339720814838012, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, authorId=1273339720714174712, language=CN, stringName=郭芳兆, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=天津大学微电子学院，天津 300072, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273339720504459499, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, xref=null, ext=[AuthorCompanyExt(id=1273339720517042412, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, companyId=1273339720504459499, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=School of Microelectronics，Tianjin University，Tianjin 300072，China), AuthorCompanyExt(id=1273339720533819629, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, companyId=1273339720504459499, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=天津大学微电子学院，天津 300072)])]), Author(id=1273339720860975359, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, orderNo=2, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=liqiang@tju.edu.cn, emailSecond=null, emailThird=null, correspondingAuthor=1, authorType=1, ext={EN=AuthorExt(id=1273339720911307009, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, authorId=1273339720860975359, language=EN, stringName=Qiang LI, firstName=Qiang, middleName=null, lastName=LI, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Microelectronics，Tianjin University，Tianjin 300072，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273339720953250051, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, authorId=1273339720860975359, language=CN, stringName=李锵, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=天津大学微电子学院，天津 300072, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273339720504459499, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, xref=null, ext=[AuthorCompanyExt(id=1273339720517042412, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, companyId=1273339720504459499, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=School of Microelectronics，Tianjin University，Tianjin 300072，China), AuthorCompanyExt(id=1273339720533819629, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339718864486557, companyId=1273339720504459499, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=天津大学微电子学院，天津 300072)])])] 张瑞峰,郭芳兆,李锵. 基于多尺度注意力信息复用网络的胸片图像分类[J]. 吉林大学学报(工学版), 2025, 55(11): 3686-3696 DOI:10.13229/j.cnki.jdxbgxb.20240222

登录浏览全文

4963

注册一个新账户忘记密码

0 引　言

胸部疾病十分常见且种类繁多，已成为威胁现代人健康的主要疾病之一。X射线胸片（Chest X-ray，CXR）是目前最常用的胸部疾病放射检查手段，但其诊断需要高度专业的知识，给医师带来不小的挑战。依靠人工诊疗达到CXR图像较高的识别精度非常困难，因此医学人工智能在疾病分类领域具有重要的研究意义^［1］。

近年来，深度学习在医学图像处理领域的研究取得了很大的突破^［2］，许多优秀算法不断涌现并持续改进^［3］。2017年，美国国立卫生研究院首次公开大型CXR图像数据集ChestX-ray14，Wang等^［4］基于该数据集评估了多种卷积网络的诊断性能，如AlexNet^［5］、ResNet^［6］等。2019年，Irvin等^［7］发布了大型CXR图像数据集CheXpert，为网络模型泛化能力的验证提供了更多依据。Jiang等^［8］提出适用于多标签CXR图像分类的金字塔视觉转换器^［9］MXT，它可以通过自注意力机制捕捉CXR图像中的短距离和远距离视觉信息。胡锦波等^［10］提出一种可形变Transformer辅助的胸部疾病诊断网络，提高了不同疾病在影像区域重叠场景下的特征区分度。

此外，许多研究人员将注意力机制应用到疾病分类领域。该机制通过调整可用的资源配置，引导网络模型聚焦于CXR图像中的病变区域。Wang等^［11］提出三重注意网络A³Net，用于通道级、元素级及规模级的注意学习。Zhu等^［12］提出逐像素分类和注意力网络（Pixel-wise classification and attention network，PCAN），为疾病分类提供了可解释性支持。Chen等^［13］提出基于金字塔卷积和洗牌注意力模块的胸部疾病分类和COVID-19检测新网络PCSANet。

然而，胸部疾病图像分类领域的研究仍然面临着一些困难。首先，CXR图像中病灶区域的纹理、位置等特征多样且复杂，上述部分网络虽然采用了注意力机制，但在对CXR图像进行病变分析时，缺乏对不同层次、不同维度特征图信息的综合考虑和充分利用。其次，同一CXR图像可能同时存在多种胸部疾病，增加了胸部疾病识别和分类的复杂性，现有网络的多尺度特征提取能力有限，难以捕捉代表性特征用于胸部疾病的细粒度分类。再次，CXR图像中的病灶区域特征辨识度低，许多深度学习网络在提取特征过程中易受到图像噪声和不相关区域的影响。最后，数据集中各类疾病的样本数目存在较为严重的类不平衡问题。

针对上述问题，本文提出多尺度注意力信息复用网络（Multi-scale attention information multiplexing network， MIM-Net）。首先，提出多路空间信息复用（Multiple spatial information Multiplexing， MSIM）模块，借助超像素操作^［14］和亚像素操作构建空间信息多路复用块，增强网络跨通道和空间的信息交流，充分结合特征图的多尺度特征进行融合学习。其次，采用融合空间注意力机制和通道注意力机制的多尺度融合注意力（Multi-scale integration attention，MIA）模块，增加病灶相关区域的权重，同时抑制不相关背景区域干扰，通过网络的深层信息和浅层信息融合提取病灶的多尺度特征。最后，使用非对称移位焦点损失函数，缓解因简单易分的无疾病样本过多导致的无效学习问题。

1 本文方法

本文提出多尺度注意力信息复用网络MIM-Net，其结构如图1（a）所示。

输入图像首先通过3个3×3卷积层和1个池化层提取初始特征，捕捉图像中的局部特征和结构信息，相较于采用1个7×7卷积，该设计在相同感受野下增强了网络的非线性能力。初始特征提取后的特征图进入Stage1（S₁）~Stage4（S₄）4个阶段，各阶段包含的MSIM模块数量分别为3、3、4、3。如图1（b）所示，MSIM模块在4个阶段中采用残差连接方式，在一定程度上缓解了数据集样本数量类不平衡导致的网络过拟合问题。此外，将初始特征提取后的特征图与经S₂处理后的特征图同时输入MIA模块，其中包含更低级语义信息的特征图乘以超参数λ₁后作为MIA模块的输入之一，经MIA模块处理后的图像作为S₃的输入。同样地，将S₁和S₃阶段处理后的特征图输入MIA模块，经MIA模块处理后的图像作为S₄阶段的输入。超参数λ反映了网络训练过程中，较浅层次的语义信息对网络整体分类能力的影响。通过上述设计，网络深层信息和浅层信息得到充分融合，使网络专注于病灶区域，抑制不相关背景区域干扰。下文将分别介绍MSIM模块和MIA模块。

1.1　多路空间信息复用模块

1.1.1　超像素和亚像素操作

空间信息复用的关键思想是将多个尺度的空间信息映射到通道中。如图2（b）所示，给定尺寸为C×H×W的特征图（其中，C为通道数，H和W分别为特征图的高度和宽度），定义一个大小为r×r的窗口，将各通道特定位置的特征值映射到输出特征图唯一的r×r窗口中，该操作即超像素（Super-pixel）操作。它将尺寸为C×H×W的特征图映射成尺寸为C/r²×rH×rW的特征图，实现了特征图通道信息与空间信息的复用，并通过卷积操作进行特征学习。

亚像素（Sub-pixel）操作为超像素操作的逆操作，如图2（c）所示。定义一个大小和步长均为r×r的窗口，将窗口中的特征映射到各个通道中，每个窗口的特征值对应通道中唯一的特征位置。总的来说，亚像素操作可将尺寸为C×H×W的特征图映射为r²C×H/r×W/r的特征图，使下采样的空间信息能够与通道信息复用，增大了后续卷积操作的感受野。

1.1.2　多路空间信息复用模块

不同疾病的病变在CXR图像上的大小和位置存在显著差异，这就要求网络具有可靠的多尺度特征提取能力，以充分结合特征图的多尺度特征进行融合学习。本文提出的MSIM模块不仅实现了特征图通道信息与空间信息的复用，还通过通道洗牌和超像素操作的结合，建立了更多通道间的信息交流。MSIM的具体实现方式如图2（a）所示。

输入特征图 F_in首先通过1个1×1卷积，在提取特征信息的同时将通道数降为原来的1/3，将输出的特征图复制3份，分别记为 F₁、 F₂和 F₃。 F₁先通过通道洗牌操作打乱通道顺序，再经过r=2的超像素操作和3×3卷积实现空间信息复用，得到 F₁⁺。 F₃先进行r=2的超像素操作，再通过3×3卷积进行特征学习，得到 F₃⁺。 F₁⁺和 F₃⁺最终分别通过r=2的亚像素操作还原为原始的特征图尺寸，得到 F₁⁺⁺和 F₃⁺⁺。 F₁⁺⁺、 F₃⁺⁺与 F₂经过3×3卷积后的输出特征图 F₂⁺进行逐通道拼接，得到最终的输出特征图 F_out，其表达式为：

F o u t = [F 1 + +, F 2 +, F 3 + +]

（1）

现有的多尺度处理通常基于跨不同层实现，而MSIM模块通过超像素操作和亚像素操作，增强了对同一层内多尺度信息的利用，并结合通道洗牌操作进一步增强了跨通道的信息流交互，在不引入额外参数的情况下，实现了空间和通道上的多路信息流复用。MSIM模块帮助网络捕捉具有代表性的特征，用于胸部疾病的细粒度分类，提升了网络的表现能力和预测性能。

1.2　MIA模块

网络训练阶段应更加关注病变相关的特征信息。通道注意力机制^［15］可以对通道间的依赖关系进行建模，增加病变相关通道的权重，并对无关通道进行抑制。此外，CXR图像上通常有多个病变区域，且大小、形状均不同，因此网络在训练过程中，不仅要关注特征图的全局信息，还要关注病灶在特征图中的空间位置信息。因此，本文提出的多尺度融合注意力（MIA）模块将通道注意力和空间注意力相结合，使网络更多地关注病灶关键位置，减少对无关部分的关注。MIA模块的结构如图3所示。

MIA模块以中间层特征图 X₁和包含更高级语义信息的特征图 X₂作为输入。其中， X₁在执行后续操作前先进行下采样，得到 X

1'

， X

1'

和 X₂的尺寸相同。首先， X

1'

和 X₂分别经过通道注意力模块，具体做法为：对输入特征图分别进行全局最大池化和全局平均池化，对特征映射进行两个维度的压缩，获得两种不同维度的特征表达。池化后的特征图各自通过一个多层感知器（Multilayer perceptron，MLP），即先经过一个全连接层将通道数降至原来的1/4，再通过另一个全连接层恢复通道数。两个多层感知器网络的输出在通道维度堆叠后，经Sigmoid激活函数将特征图各通道的权重归一化，得到通道注意力的权重矩阵 M_c。同时，将输入特征图 X

1'

、 X₂分别与各自的权重矩阵 M_c1、 M_c2相乘，得到 X

1 ″

和 X

2'

。

其次，将 X

1 ″

和 X

2'

进行逐元素相加，实现低层语义信息和高层语义信息的特征融合，得到 X_out。对 X_out执行空间注意力操作，具体做法为：在通道维度上对 X

o u t

分别进行最大池化和平均池化，将池化后的特征图在通道维度堆叠，通过1个7×7卷积核融合通道信息，生成通道数为1的权重矩阵，卷积后的权重矩阵经Sigmoid函数实现空间权重归一化，将归一化后的权重矩阵 M_s与 X_out相乘得到MIA模块的最终输出 X

o u t'

。MIA模块将网络训练过程中的深层信息和浅层信息相融合，能够提取病灶的多尺度信息，挖掘疾病间的潜在语义关系，自动捕捉病灶位置变化，从而提高疾病分类的准确性。

1.3　非对称移位焦点损失

样本分布不均会影响多标签分类任务准确率的提高。在ChestX-ray14数据集中，疝气、肺炎等病理正样本（疾病样本）数量较少，简单易分的负样本（无疾病样本）数量过多，使得网络优化方向倾向于无疾病样本的无效学习，只能分辨出有无疾病，无法分辨具体的疾病种类，且疾病间存在特征差异，学习难易程度也不同。为解决这一问题，本文采用优化后的焦点损失函数，将其称为非对称移位焦点损失函数。受Ridnik等^［16］的启发，当使用焦点损失函数进行多标签训练时，若设置较高的γ以降低简单易分负样本的贡献权重，则会消除罕见正样本的贡献权重，因此损失函数首先对正样本和负样本进行解耦，即：

L = 1 K ∑ k = 1 K (1 - p k) γ + l o g p k, y k = 1 1 K ∑ k = 1 K (p k) γ - l o g (1 - p k), y k = 0

（2）

式中：K为类别数量；y_k 为图片的疾病类别；p_k 为网络预测图片类别的正确概率。定义γ⁺ 和γ^- 替代焦点损失函数中的γ，设置γ⁺<γ^-，以更好地控制正样本和负样本对损失函数的贡献，从而在通过γ^- 降低易分负样本权重的同时，不会过多消除罕见正样本的贡献权重。本文设置γ⁺ =0，使正样本产生简单的交叉熵损失；设置γ^- =2，控制非对称聚焦水平。

此外，焦点损失函数通过设置参数γ调整网络对难分类样本的关注度，即γ值越大，焦点损失函数对易分负样本的权重衰减越大。然而，由于ChestX-ray14数据集中样本的不平衡程度很高，其简单易分的无关负样本过多，普通焦点损失函数只能通过设置高γ对其权重进行一定程度的衰减。因此，本文采用概率移位法设置概率偏移因子s，对非常易分的负样本执行硬阈值分割，即当它们的概率非常低时完全丢弃，使网络更加关注负样本中较难分类的部分，即：

L = 1 K ∑ k = 1 K (1 - p k) γ + l o g p k, y k = 1 1 K ∑ k = 1 K (p k s) γ - l o g (1 - p k s), y k = 0

（3）

式中：

p k s

为经概率偏移因子s处理后的网络预测图片类别的正确概率。其表达式为：

p k s = m a x (p k - s, 0)

（4）

当负样本的预测得分在0~s时，认为该负样本的分类非常容易，经概率移位运算后阈值为0，本文设置s=0.2。非对称移位焦点损失函数可使网络模型根据胸片数据集中的样本分布，更加关注正负样本中难以分类的部分，解决了焦点损失易削弱罕见疾病样本权重的问题，提高了网络的整体分类能力。

2 实验结果与分析

2.1　数据集与数据预处理

本文采用两个公开胸部X光片数据集作为评估基准，分别为美国国立卫生研究院发布的ChestX-ray14和斯坦福大学研究人员发布的CheXpert。

ChestX-ray14数据集的样本分布信息如图4所示。该数据集包含30 805名患者的112 120张正面视图X射线图像，每张图像均标记有14种常见胸腔疾病的一种或多种类型，具体为肺不张、心脏肿大、积液、渗透、肿块、肺结节、肺炎、气胸、肺实变、水肿、肺气肿、纤维化、胸膜增厚和疝气。由图4可以看出，不同疾病的样本分布存在显著的不均衡性，这种情况会增加分类网络的训练难度。

CheXpert数据集包含65 240名患者的224 316次X射线扫描图像，该数据集中每种疾病类别有阳性、阴性和不确定3种标记，其中不确定表示医生仅通过X光片尚无法判断是否患病。由于该数据集不完全开源，公开的验证集仅包含肺不张、心脏肿大、肺实变、水肿和胸腔积液5种疾病的234张图像，因此本文仅对这5种疾病的预测精度进行评估，每种疾病的样本分布如表1所示。

在数据预处理阶段，本文对CXR图像做了一系列增强操作。首先，将图像尺寸缩放至256×256，并随机裁剪为224×224；其次，以0.5的概率水平翻转图像，并在［-5°，5°］范围内随机旋转图像；最后，将图像转换为向量格式，并对RGB 3个通道进行归一化，使其更易被神经网络处理。

2.2　实现细节与评价指标

本文所有实验均在NVIDIA RTX A5000 （24 GB） GPU平台上进行，采用PyTorch开源深度学习框架，初始学习率为0.000 1，每两个轮次学习率衰减为原来的0.9倍。为提高网络的收敛速度和学习能力，实验中的骨干网络先在ImageNet数据集上进行预训练，当验证集的损失不再减少或开始增加时训练停止。

本文采用受试者工作特征（Receiver operating characteristic，ROC）曲线与ROC曲线下面积（Area under ROC curve，AUC）值作为网络识别每种病理能力的评价指标，其中ROC曲线下面积可以反映预测精度，面积越大准确率越高。在ROC曲线中，横坐标假阳率（False positive rate， FPR）表示所有未患病样本中被错误地判断为患病的样本数百分比，纵坐标真阳率（True positive rate）表示所有患病样本中被正确地判断为患病的样本数百分比。FPR和TPR的精确计算公式为：

F P R = F P F P + T N

（5）

T P R = T P T P + F N

（6）

式中：TP、FP、TN和FN分别为样本中的真阳（患病样本被正确判断为患病）、假阳（未患病样本被错误判断为患病）、真阴（未患病样本被正确判断为未患病）和假阴（患病样本被错误判断为未患病）。

AUC值越高，表明对应疾病的分类准确度越高，即网络的分类能力越强。

2.3　超参数实验分析

本节将分析MIM-Net中λ₁和λ₂的取值对网络分类精度的影响。在MIM-Net网络中，超参数λ控制了MIA模块中包含更浅层信息的特征图所占权重。λ₁为经初始特征提取后的特征图在进入第一个MIA模块前所乘的权重参数，λ₂为S₁阶段处理后的特征图在进入第二个MIA模块前所乘的权重参数。在保证其他设置不变的情况下，设置多组λ₁和λ₂的不同组合训练网络，实验结果如图5所示。

实验选择0、0.3、0.6、1作为λ的候选值，散点颜色对应右边色柱上AUC值大小，反映不同超参数组合对分类精度的影响。从图5可以看出，λ的不同取值对分类结果影响较大，当λ₁=0.3、λ₂=0.6时，网络分类效果最佳。λ值越大，输出的特征图中浅层语义信息的影响越大，这些浅层特征包含大量病灶空间位置信息，多尺度信息的融合学习有助于提高神经网络对不同疾病病灶的识别性能。

2.4　实验结果与分析

本文将MIM-Net与ChestX-ray14数据集上的先进网络进行比较，通过计算每种疾病类别的AUC值及所有类别的平均AUC值进行评估。从图6可以看出，每种疾病的ROC曲线均位于图中左上方，说明MIM-Net的整体分类性能较好，对所有疾病的预测均有良好表现。

表2为MIM-Net与其他网络的比较结果，对比网络包括Wang等^［4］提出的DCNN、Guan等^［17］提出的ConsultNet、胡锦波等^［10］提出的Deformab-CDAM-D、Wang等^［11］提出的A³Net、Chen等^［13］提出的PCSANet、Lee等^［18］提出的CheXGAT、Zhu等^［12］提出的PCAN及Chen等^［19］提出的SSGE。表中加粗数据表示该方法得到的指标最佳。实验结果表明，本文提出的MIM-Net分类能力较对比网络有显著提高，且在心脏肿大、水肿、肺气肿3种疾病的检测中效果突出，AUC值均>0.9。与所有对比网络相比，MIM-Net在7种疾病的识别上达到最优水平，对积液和肺实变的识别效果也接近最佳水平。值得一提的是，本文方法对肺炎的识别准确率比对比网络的最佳结果提高了3.9%。此外，与大多数方法一样，MIM-Net识别肺结节和渗透的能力仍需改进。渗透在影像学上边缘模糊，其诊断依赖于细微的纹理变化，肺结节属于小病变，易受无关特征的影响，这两种疾病的识别相对困难。与上述网络相比，MIM-Net充分利用不同采样阶段的残差特征，增强了疾病在空间位置上的病理特征表达，因此在大多数疾病识别上取得了较好的效果。

为验证MIM-Net的鲁棒性和泛化能力，本文在相同的实验平台和实验环境下，于CheXpert数据集上评估其性能。表3展示了MIM-Net在CheXpert上与其他网络的对比结果，对比网络包括Irvin等^［7］提出的多CNN组合模型（表3中的Ensemble）、Guan等^［17］提出的ConsultNet、Zhu等^［12］提出的PCAN及Pham等^［20］提出的DCNN。其中“U-Zeros”表示将不确定性标签数据视为未患病样本，“U-Ones”表示将不确定性标签数据视为患病样本。

从表3的实验结果来看，MIM-Net在两种标签处理方案下均取得了最优结果，平均AUC值分别为0.901和0.893，与在ChestX-ray14数据集上的结果具有一致性，显示出MIM-Net在分类任务中的优越性。当使用“U-Ones”策略时，MIM-Net对肺不张和心脏肿大两种疾病的分类精度均高于其他网络；当使用“U-Zero”策略时，MIM-Net对肺不张的AUC值比其他网络的最佳结果显著提高3.1%。CheXpert数据集上的实验表明，即便对于临床特征差异较大的疾病，MIM-Net仍然具有很高的识别精度，验证了其在不同CXR图像数据集中具有较强的泛化能力。

2.5　消融实验

为验证MIM-Net中各模块的有效性，本文在ChestX-ray14数据集上开展消融实验，研究MIA模块和MSIM模块的有效性。实验以MIM-Net为基准，通过删除相应的模块探索其对分类精度的影响。本节通过移除MIA模块并使用ResNet的瓶颈结构替换MSIM模块，以及单独替换MSIM模块和单独移除MIA模块的方式设计了3组消融实验。将消融实验测得的每种疾病AUC值和平均AUC值与本文网络的结果进行比较，消融实验结果如表4所示。

首先，单独移除MIA模块会使平均AUC值降低0.3%；其次，单独替换MSIM模块会使平均AUC值降低0.8%。实验结果显示，本文提出的两个模块将平均AUC值提升了0.9%（从0.838增加到0.847），且对每种疾病的识别准确率几乎均有提升，说明本文提出的网络对提高胸部疾病分类精度是有效的。此外，同时使用MSIM模块和MIA模块有助于网络提取多尺度特征，进一步增强了通道间和空间特定位置的病理特征表达。

同时，本文在ChestX-ray14和CheXpert数据集上进行对比实验，探讨不同损失函数对网络分类能力的影响。其中，CheXpert采用“U-Ones”策略。实验分别用二元交叉熵损失函数、普通焦点损失函数代替非对称移位焦点损失函数，实验结果如表5所示。

实验结果表明，MIM-Net在两个数据集上使用焦点损失函数获得的平均AUC值优于使用二元交叉熵损失函数的结果。焦点损失函数通过焦点因子增强了网络对难分类样本的关注，而非对称移位焦点损失函数在普通焦点损失函数的基础上，更加关注正负样本中难以分类的部分，进一步提升了网络的分类能力。

2.6　可视化分析

本节通过梯度加权类激活映射算法^［21］反向传播模型，并计算特征映射的梯度信息，生成病灶区域热力图以显示CXR图像中网络分类的关键区域，直观感受网络的分类能力。为验证网络识别的准确性，将生成的热力图与专业医生在ChestX-ray14数据集中提供的病变标注图进行比较，实验结果如图7所示。

图7中右侧热力图中突出显示的部分代表模型中最受关注的部分，也是诊断的主要依据。由图7可以看出，CXR图像中激活的区域与左侧专业医生标注的区域一致，说明本文网络的预测结果和医生给出的人工标注重合度很高。此外，突出显示的区域非常集中，肉眼可以快速定位病变发生的区域；对于不同大小的病变，网络也可以实现准确识别，进一步验证了网络的分类效果。

3 结束语

本文提出一种面向多标签胸部X光片分类任务的多尺度注意力信息复用网络MIM-Net。该网络中的MSIM模块具有很强的空间信息复用和跨通道信息交流的能力，可以快速获取不同大小病变的感受野信息；采用MIA模块实现对病灶多尺度信息的提取，减少网络特征提取过程中图像噪声及病灶无关区域的影响；使用非对称移位焦点损失函数提高网络的整体分类准确性。实验结果表明，MIM-Net在ChestX-ray14和CheXpert数据集上均取得了很好的效果。此外，本文通过病灶区域可视化，将网络关注区域与人工标注进行对比，为人工诊断提供了直观的依据，进一步说明了该网络的应用意义。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Wei X L, Li W, Zhang M M, et al. Medical hyperspectral image classification based on end-to-end fusion deep neural network[J]. IEEE Transactions on Instrumentation and Measurement, 2019, 68(11): 4481-4492.

[2]	刘桂霞, 田郁欣, 王涛, 等. 基于双输入3D卷积神经网络的胰腺分割算法[J]. 吉林大学学报: 工学版, 2023, 53(12): 3565-3572.

[3]	Liu Gui-xia, Tian Yu-xin, Wang Tao, et al. Pancreas segmentation algorithm based on dual input 3D convolutional neural network[J]. Journal of Jilin University (Engineering and Technology Edition), 2023, 53(12): 3565-3572.

[4]	王雪, 李占山, 吕颖达. 基于多尺度感知和语义适配的医学图像分割算法[J]. 吉林大学学报: 工学版, 2022, 52(3): 640-647.

[5]	Wang Xue, Li Zhan-shan, Ying-da Lyu. Medical image segmentation based on multi-scale context-aware and semantic adaptor[J]. Journal of Jilin University (Engineering and Technology Edition), 2022, 52(3): 640-647.

[6]	Wang X S, Peng Y F, Lu L, et al. ChestX-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, USA, 2017: 3462-3471.

[7]	Krizhevsky A, Sutskever I, Hinton E G. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[8]	He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, USA, 2016: 770-778.

[9]	Irvin J, Rajpurkar P, Ko M, et al. CheXpert: A large chest radiograph dataset with uncertainty labels and expert comparison[C]∥Proceedings of the AAAI Conference on Artificial Intelligence Washington, DC: AAAI Press, 2019: 590-597.

[10]	Jiang X B, Zhu Y, Cai G, et al. MXT: A new variant of pyramid vision transformer for multi-label chest x-ray image classification[J]. Cognitive Computation, 2022, 14(4): 1362-1377.

[11]	Wang W H, Xie E Z, Li X, et al. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions[C]∥2021 IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE, 2021: 548-558.

[12]	胡锦波, 聂为之, 宋丹, 等. 可形变Transformer辅助的胸部X光影像疾病诊断模型[J]. 浙江大学学报:工学版, 2023, 57(10): 1923-1932.

[13]	Hu Jin-bo, Nie Wei-zhi, Song Dan, et al. Chest X-ray imaging disease diagnosis model assisted by deformable transformer[J]. Journal of Zhejiang University (Engineering Science), 2023, 57(10): 1923-1932.

[14]	Wang H Y, Wang S S, Qin Z B, et al. Triple attention learning for classification of 14 thoracic diseases using chest radiography[J]. Medical Image Analysis, 2021, 67: 101846.

[15]	Zhu X F, Pang S M, Zhang X X, et al. PCAN: Pixel-wise classification and attention network for thoracic disease classification and weakly supervised localization[J]. Computerized Medical Imaging and Graphics, 2022, 102: 102137.

[16]	Chen K, Wang X Q, Zhang S W. Thorax disease classification based on pyramidal convolution shuffle attention neural network[J]. IEEE Access, 2022, 10: 85571-85581.

[17]	Lu Z C, Deb K, Boddeti V N. MUXConv: Information multiplexing in convolutional neural networks[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2020, 6: 12041-12050.

[18]	Woo S H, Park J, Lee J Y, et al. CBAM: Convolutional block attention module[C]∥Computer Vision-ECCV 2018. Cham, Switzerland: Springer Mature Switzerland AG, 2018: 3-19.

[19]	Ridnik T, Ben B E, Zamir N, et al. Asymmetric loss for multi-label classification[C]∥IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE, 2021: 82-91.

[20]	Guan Q J, Huang Y P, Luo Y W, et al. Discriminative feature learning for thorax disease classification in chest X-ray images[J]. IEEE Transactions on Image Processing, 2021, 30: 2476-2487.

[21]	Lee Y W, Huang S K, Chang R F. CheXGAT: A disease correlation-aware network for thorax disease diagnosis from chest X-ray images[J]. Artificial Intelligence in Medicine, 2022, 132: 102382.

[22]	Chen B Z, Zhang Z, Li Y J, et al. Multi-label chest X-ray image classification via semantic similarity graph embedding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(4): 2455-2468.

[23]	Pham H, Le T, Tran D, et al. Interpreting chest X-rays via CNNs that exploit hierarchical disease dependencies and uncertainty labels[J]. Neurocomputing, 2021, 437: 186-194.

[24]	Selvaraju R, Cogswell M, Das A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[C]∥IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2017: 618-626.

基金资助

国家自然科学基金项目(62071323)

超声医学工程国家重点实验室开放课题项目(2022KFKT004)

天津市自然科学基金重点项目(22JCZDJC00220)

AI Summary AI Mindmap

PDF (2475KB)

访问

被引

详细

导航

Received	Accepted	Published
2024-03-05
Issue Date
2026-06-15

摘要

Abstract

Graphical abstract

关键词

Key words

引用本文

0 引 言

1 本文方法

1.1 多路空间信息复用模块

1.1.1 超像素和亚像素操作

1.1.2 多路空间信息复用模块

1.2 MIA模块

1.3 非对称移位焦点损失

2 实验结果与分析

2.1 数据集与数据预处理

2.2 实现细节与评价指标

2.3 超参数实验分析

2.4 实验结果与分析

2.5 消融实验

2.6 可视化分析