融合多尺度注意力机制的冠状病毒肺炎CT诊断方法

单鹏 ,  张林 ,  肖洪明 ,  赵玉良

东北大学学报(自然科学版) ›› 2024, Vol. 45 ›› Issue (12) : 1673 -1679.

PDF (2151KB)
东北大学学报(自然科学版) ›› 2024, Vol. 45 ›› Issue (12) : 1673 -1679. DOI: 10.12068/j.issn.1005-3026.2024.12.001
信息与控制

融合多尺度注意力机制的冠状病毒肺炎CT诊断方法

作者信息 +

CT Diagnosis Method for Coronavirus Pneumonia with Integrated Multi-scale Attention Mechanism

Author information +
文章历史 +
PDF (2201K)

摘要

人工智能诊断是肺部感染的重要辅助诊断方法之一.然而,现有的方法大多基于深度学习,具有模型稳定性不足、复杂度高、准确率低的问题.提出融合多尺度注意力机制的浅层模型,实现了准确率高并且结构简单的新型冠状病毒肺炎CT诊断.首先,将收集到的两个新型冠状病毒肺炎数据集融合成一个数据集,解决了因数据集不足导致训练的模型不稳定.其次,通过在浅层网络ResNet18后3层中引入多尺度注意力,弥补了模型特征提取能力的不足.最后,搭建了一个具有3层全连接层的分类器,改进模型的分类能力,进而提高了肺部CT的分类准确率.结果表明,所提模型准确率达到95.41%,性能超过ResNet50,ResNet101,VGG16,DenseNet169等网络,并且模型参数数量仅有12.24×106,比ResNet50和VGG16等网络低50%左右.

Abstract

Artificial intelligence (AI)‑based diagnosis has become an important auxiliary method for detecting lung infections. However, most existing approaches rely on deep learning, which are often plagued by issues such as insufficient model stability, high complexity, and low accuracy. This paper presents a shallow model which incorporates a multi‑scale attention mechanism to achieve both high accuracy and a simple structure for diagnosing COVID‑19 from CT scans. Firstly, two datasets of COVID‑19 CT images are combined into a single dataset to address the issue of model instability caused by insufficient data. Secondly, by introducing multi‑scale attention(MA) in the final three layers of the shallow ResNet18 network, the model’s feature extraction capability is enhanced. Finally, classifier with three fully connected layers (CTFCL) is constructed to improve the classification performance of the model, thereby increasing the accuracy of lung CT classification. Experimental results show that the proposed model achieves an accuracy of 95.41%, outperforming networks such as ResNet50, ResNet101, VGG16, and DenseNet169. Furthermore, the model has only 12.24×106 parameters, which is approximately 50% fewer than networks like ResNet50 and VGG16.

Graphical abstract

关键词

肺炎 / 深度学习 / 多尺度注意力 / CT / 分类器

Key words

pneumonia / deep learning / multi-scale attention / CT / classifier

引用本文

引用格式 ▾
单鹏,张林,肖洪明,赵玉良. 融合多尺度注意力机制的冠状病毒肺炎CT诊断方法[J]. 东北大学学报(自然科学版), 2024, 45(12): 1673-1679 DOI:10.12068/j.issn.1005-3026.2024.12.001

登录浏览全文

4963

注册一个新账户 忘记密码

肺炎是一种由多种病原体引起的呼吸道感染,通常表现为急性发热、咳嗽、呼吸困难等症状,严重时可导致呼吸衰竭和死亡.尤其是新型冠状病毒造成的肺炎,其主要通过飞沫传播,给公共健康带来巨大挑战.为有效控制该肺炎的扩散,及时诊断并且隔离感染者是关键措施.最初检测的唯一有效技术是实时逆转录聚合酶链式反应(reverse transcription‑polymerase chain reaction,RT-PCR)1,但RT-PCR既耗时又容易造成误诊.在计算机辅助诊断技术的发展下,利用深度学习技术对新型冠状病毒肺炎进行检测得到了广泛的应用2.该技术主要利用胸部X光和肺部CT两种影像学检查来检测感染者.大多数医院都配备了X光机,但是胸部X光不能准确地鉴别软组织,肺部CT扫描则更加有效.针对肺部CT图像,研究者设计了有关新型冠状病毒肺炎的多种深度学习诊断模型,主要有两种类型.
一种是以单个网络作为骨干分类网络的模型. CoroNet3网络在Xception4的基础上添加了全连接层和Dropout层,还采用了迁移学习的方法以避免过拟合现象.实验结果显示,CoroNet在小数据集上实现了较高的准确率,同时还具备较低的计算量.然而,由于数据集数量少且患者信息不足,实验的可靠性存在一定限制. Wang等5提出了一种全自动深度学习系统,主要用于COVID-19的识别分类和预后分析.它包括3个部分:肺部区域的自动分割、非肺区域的抑制以及分类和预后分析.作者将DenseNet1216和FPN7相结合并使用了两次迁移学习,最后通过可视化算法对网络中学习到的特征进行了双重分析.实验结果显示,DenseNet121+FNP模型的准确率仅达到85%.相比之下,以ResNet508作为骨干的3D网络模型框架COVNet性能更出色,该网络优势在于特征提取中包括二维局部和三维全局两部分,为了增强模型的可解释性,研究者使用了Grad-CAM9方法对深度学习模型的敏感区域进行了可视化.实验结果表明,COVNet10具备高准确率和优秀的特征提取能力,然而,其复杂的模型结构和大的计算量在实际应用中存在一定限制.
另一种是以多网络融合的分类模型.Tiwari等11提出了一种基于多网络融合的分类模型,该模型采用了CapsNet和VGG16的结合,展现了一定的准确率,但仅适用于二分类任务. DenseCapsNet12是一种结合了密集卷积网络和胶囊神经网络的模型,充分利用了2种网络的优势,使其更加适用于小规模数据集.该方法在肺炎CT图像性能检测中取得了90.7%的准确率和90.9%的F1得分,还实现了96%的检测灵敏度. COFE-Net13是一种基于模糊逻辑原理的分类模型,它将InceptionV314,Inception ResNet-V215和DenseNet201三种网络相结合,并用于计算决策值以进行肺炎CT图像的检测分类.采用Sugeno模糊测量明显减少了对病灶区域搜索范围,但确定最佳测量仍需要耗费大量的时间和计算成本.在多个数据集上的实验取得了令人满意的效果.多融合的网络模型将两种或多种基础模型的优势结合起来,明显提升了检测效果.然而,这也导致了网络的深度增加,进而带来计算量和参数量的增加.
受上述研究启发,结合全局与局部信息提高网络对肺炎CT图的特征提取对模型性能具有巨大提升.同时为了兼顾模型的实际应用性,减少模型参数量和计算量具有重要研究意义.本文首先将收集到的两个新型冠状病毒肺炎数据集融合成一个数据集,解决了因数据集不足导致训练的网络不稳定的问题.其次,通过在浅层网络ResNet18后3层中引入多尺度注意力(multi‑scale attention,MA)模块,弥补了因网络结构简单而特征提取能力低的不足.最后,搭建了一个三层分类器CTFCL,改进网络模型的分类能力,进而提高了肺部CT影像的分类准确率.实现了准确率高并且模型结构简单的新型冠状病毒肺炎CT图分类,并且易于部署在大多应用场景.

1 实验方法

图1展示了RMCNet模型的网络结构,其主要由3部分组成:ResNet18,MA模块16以及CTFCL. CT图片在进入RMCNet网络之前先进行预处理操作,将输入图像的大小统一调整为224×224,并将训练图像进行随机裁剪,裁剪区域为原图像的50%,同时应用水平翻转来进行数据增强. ResNet18作为主干网络,主要负责从原始图像中提取3种不同尺度的特征图f1f2f3. MA模块通过提取f1f2f3上的多尺度特征,提高网络对不同尺度上的病理特征提取能力;同时,通过注意力池化将特征图f3和注意力图A融合来提高关键特征的表达能力,使网络更能关注到图像中具有辨识性的病理特征区域.3层分类器则对融合后的多尺度特征进行病情类别诊断.

ResNet18网络:ResNet18作为主干网络,具有18层深度,主要由卷积层、残差块和全连接层构成.除了输入和输出组件外,ResNet18的其余层可分为4块,分别为conv2_x,conv3_x,conv4_x和conv5_x.每块均由4个3×3卷积层组成,输出通道数分别为64,128,256和512,输出特征图大小分别为56×56,28×28,14×14和7×7.

MA模块:将ResNet18中的conv3_x,conv4_x,conv5_x块的输出作为MA模块在3个尺度上的输入f1f2f3,3个尺度的特征图的大小分别为128×28×28,256×14×14,512×7×7.分别利用3个1×1的卷积对输入特征图的通道数进行调整.

yi,j,k=c=0C-1W1,1,c,k×fi,j,c.

式中:W为卷积核;f为输入特征图;y为输出特征图;C为输入特征图的通道数;k为输出特征图的通道数;ij分别为输出特征图上的空间位置.由于卷积核大小为1×1,每个输出特征图上的像素点只与输入特征图上对应的像素点以及通道上的权重有关系,与周围像素点无关.然后将f1f2下采样到7×7大小.

ai,j,k=1m×np=0m-1q=0n-1Xi×s+p,j×s+q,k .

式中:mn为池化区域大小;s为步幅大小;X为输入特征图;a为输出特征图;pq是池化中池化区域的坐标,其取值范围分别是[0,m-1]和[0,n-1].每个池化区域内的像素值取平均值作为输出,以减小特征图的尺寸,同时可以提高模型的鲁棒性,减少过拟合;然后通过残差连接生成注意力图A(16×7×7).

在注意力池化(attention pooling,AP)17中将注意力图A和主干网络特征映射f3按照式(3)进行融合得到特征Pft(2 048×7×7).

Pft=Atf3t=1,2,,N.

式中:符号表示两个张量之间的元素相乘;N表示注意力图的数量,本文设为16.在AP之后,通过全局平均池化(global average pooling,GAP)操作来获得pft(2 048×1×1):

pft=1H×L×X(u,v) (t=1,2,,N).

其中:Xuv)表示输入特征图的第u行,第v列的元素;HL分别代表输入特征图的高度和宽度.这一步将特征图压缩成一个向量,以便于进行分类等任务.最后将生成的16个pft通过式(5)拼接得到pf .

pf=Catpf1,pf2,,pf16.

分类器中的3层全连接层参数分别设置为(8 192,128),(128,64)和(64,2);在每层的神经元内不使用激活函数,而使用线性函数.

l=M×pf+b.

其中: M 为权重矩阵;pf代表输入向量; b 为偏置向量; l 是输出向量.同时为了提高模型的泛化能力,在第一层全连接后面增加了Dropout18层,并将其参数概率值设为0.02.

2 实验结果分析

2.1 数据集

本文数据集由公共数据集SARS-CoV-2 CT和COVID-CT合并而成. SARS-CoV-2 CT数据集19(见www.kaggle.com)由巴西圣保罗医院的1 252例SARS-CoV-2阳性(COVID-19)感染者和1 230例未感染者的肺部CT图片组成.另一个数据集20包括349张(216名COVID-19患者)和463张(非COVID-19患者)肺部CT图片.按照14∶3∶3的比例将3 294张肺部扫描图片随机划分为训练集、验证集和测试集.

2.2 评价指标

为了综合评估不同模型的性能,采用召回率(recall)、精确率(precision)、F1得分、AUC值和准确率(accuracy)作为评价指标.真阳性样本数目为TP,真阴性样本数目为TN,假阳性样本数目为FP,假阴性样本数目为FN.评价指标的计算公式如下:

1) 准确率(Ac):分类模型正确预测的样本数量与总样本数量的比例.

Ac= TP+TNTP+TN+FP+FN.

2) 精确率(P):指模型在预测为阳性的样本中,实际为阳性的比例.

P=TPTP+FP.

3) 召回率(R):模型正确预测为阳性的样本数与实际阳性样本数的比例.

R=TPTP+FN.

4) F1得分:模型综合指标.

F1= 2×P×RP+R.

2.3 模型参数实验

2.3.1 超参数设置

RMCNet在PyTorch框架下实现,在两块GTX 1080TI GPU上进行训练. CT图像大小统一调整为224×224.优化器为ADAM,损失函数为二元交叉熵21,批次大小为32.

2.3.2 学习率选择

在深度学习模型的训练过程中,学习率是一个关键的超参数,它确定了每次迭代中模型参数的更新程度.适当的学习率可以加快模型的收敛速度,而过大或过小的学习率则会导致训练不稳定和性能下降等问题.

为了确定最佳的学习率,本文设计了不同的学习率组合,例如0.000 05,0.000 1,0.000 2,采用余弦退火策略,以ResNet18+SE+CTFCL(RSCNet)模型为例,图2给出了不同学习率下RSCNet的性能评价指标.当学习率为0.000 1时,模型在测试集上的准确率、精确率以及召回率值均达到最优;相比之下,当学习率为0.000 2时,模型的收敛速度会更快,但分类性能低;当学习率为0.000 05时,模型的收敛速度较慢,其召回率以及准确率比学习率为0.000 1的低.综合考虑,0.000 1应作为最优学习率设置,以达到最佳训练效果.

2.4 主流算法对比实验

表1可知,在与主流算法模型对比中RMCNet网络在测试集上实现了95.41%的准确率,96.25%的召回率以及95.45%的F1指标.同时随着模型的深度增加,其分类性能也越好. RMCNet则通过浅层的网络结构达到了最优的效果,展现了对大规模数据集依赖性低和模型训练简单的优势.在图3a的雷达图中,可以直观看出RMCNet模型在准确率、召回率和F1得分3个指标上达到最好,在AUC指标上仅次于DenseNet169和DenseNet201,并且该模型的多边形面积占比最大,表明其综合性能最好.同时表1中RMCNet模型参数数量仅为12.24×106,这比ResNet50和ResNet101模型参数数量少50%以上,比具有网络结构优势的DenseNet169和DenseNet201少9×106~24×106,是VGG16模型参数量的十分之一.此外,RMCNet模型的每秒浮点操作数(floating‑point operations per second,FLOPS)22仅为1.82×109,比其他模型低50%以上.从参数数量和FLOPS的对比结果来看,RMCNet模型具有更少的模型参数和更小的计算量,证明了该模型在保证性能的同时更具有实用性.

图4绘制了各模型分类结果的混淆矩阵,行表示实际标签,列表示模型的预测结果.结果显示:在阳性感染者中,RMCNet模型预测准确率达到96%,比其他主流模型高1%~2%.这表明该模型在减少假阴性上具有较大优势,能够实现尽可能多的患者得到正确的诊断和治疗,防止病毒进一步扩散和治疗延误.在阴性感染者中,RMCNet模型准确率也能达到95%,比除DenseNet169以外的模型都要高,展现了该模型在减少假阳性上具有较好的表现.

2.5 注意力对比实验

本文对比了3种注意力机制模块:压缩和激励(squeeze and excitation,SE)模块23、卷积块注意力模块(convolutional block attention module,CBAM)24以及MA模块.将这些模块分别集成到ResNet18+CTFCL(RCNet)模型,并选取最优学习率0.000 1.实验结果如图5所示,使用MA模块的网络在测试集上达到了最高的准确率,其次是SE模块,CBAM模块性能最低.这证明同时关注不同尺度的特征是MA模块优于其他模块的主要原因.

2.6 消融实验

为了验证RMCNet中多尺度注意力机制和分类器的有效性,本文以ResNet18为基础模型设计了消融实验.如表2所示,模型ResNet18+MA在ResNet18网络中引入MA,相较于ResNet18网络,准确率提高了0.31%,召回率提高了4.59%,但精确率下降了2.88%. ResNet18+CTFCL在ResNet18网络中引入CTFCL,准确率、精确率和召回率都有所提高,证明了分类器的有效性.同时,消融实验中模型的雷达图显示(如图3b所示)RMCNet模型的每个指标都达到了最优,这表明在ResNet18的主干网络中,MA和CTFCL在特征提取和分类方面表现出色,两者相互配合提高了胸部CT图像分类性能.

2.7 RMCNet网络可视化

为了揭示模型在分类决策过程中的依据以及模型关注的敏感性区域,使用Grad-CAM技术对肺部CT图像分类模型进行可视化分析,如图6所示.在数据集中随机选取5张阳性CT,第1~6列分别为VGG 16,ResNet50,ResNet101,DenseNet169,DenseNet201以及RMCNet的可视化结果.通过观察不同的敏感性区域,结果显示RMCNet网络对比于VGG 16,ResNet50,ResNet101等网络能够更好地关注COVID-19感染区域,同时忽略无关的背景区域,从而提高了预测结果的准确性.与其他算法相比,该模型展现出更好的定位能力和分类性能.这表明,MA模块在特征提取中起到了关键作用.

3 结 语

在肺炎CT图像分类中,现有网络模型存在准确率低、模型复杂和计算量大的问题.为了解决这些问题,本文构建了多尺度注意机制的浅层卷积神经网络对肺炎CT图像进行分类的新方法.相比于现有的方法,通过引入多尺度注意力机制,能够更好地捕捉图像中的重要特征,进而提高分类的准确性.其次,采用了2个COVID-19数据集的组合,扩大训练样本的规模,缓解由于数据集规模较小而引起的模型过拟合和不稳定性问题.最后,引入3层全连接分类器进一步提高了模型的分类性能.在实验中对比了其他主流深度学习模型,并证明了该方法在COVID-19 CT图像分类任务上的优越性能.实验结果显示,RMCNet实现了95.41%的准确率,并且具有模型结构简单和计算量小的优势,为肺炎CT图像的准确诊断和临床决策提供了新的解决方案,具有广泛的应用潜力.

参考文献

[1]

Freeman W MWalker S JVrana K E.Quantitative RT-PCR:pitfalls and potential[J].Biotechniques199926(1):112-125.

[2]

叶端胜,华云松.基于深度学习的肺炎影像分割研究[J].软件工程与应用2022(6):1490-1499.

[3]

Ye Duan‑shengHua Yun‑song.Research on pneumonia image segmentation based on deep learning[J].Software Engineering and Applications2022(6):1490-1499.

[4]

Khan A IShah J LBhat M M.CoroNet:a deep neural network for detection and diagnosis of COVID-19 from chest X‑ray images[J].Computer Methods and Programs in Biomedicine2020196:105581.

[5]

Chollet F.Xception:deep learning with depthwise separable convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu,2017:1251-1258.

[6]

Wang SZha Y FLi W Met al.A fully automatic deep learning system for COVID-19 diagnostic and prognostic analysis[J].European Respiratory Journal202056(2):2000775.

[7]

Huang GLiu ZVan Der Maaten Let al.Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu,2017:4700-4708.

[8]

Lin T YDollár PGirshick Ret al.Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu,2017:2117-2125.

[9]

Wu Z FShen C HVan Den Hengel A.Wider or deeper:revisiting the ResNet model for visual recognition[J].Pattern Recognition201990:119-133.

[10]

Li LQin L XXu Z Get al.Using artificial intelligence to detect COVID-19 and community‑acquired pneumonia based on pulmonary CT:evaluation of the diagnostic accuracy[J].Radiology2020296(2):65-71.

[11]

Lucas MLerma MFurst Jet al.RSI-Grad-CAM:visual explanations from deep networks via Riemann‑Stieltjes integrated gradient‑based localization[C]// International Symposium on Visual Computing.Cham:Springer,2022:262-274.

[12]

Tiwari SJain A.Convolutional capsule network for COVID-19 detection using radiography images[J].International Journal of Imaging Systems and Technology202131(2):525-539.

[13]

Quan HXu X SZheng T Tet al.DenseCapsNet:detection of COVID-19 from X‑ray images using a capsule neural network[J].Computers in Biology and Medicine2021133:104399.

[14]

Banerjee ABhattacharya RBhateja Vet al.COFE-Net:an ensemble strategy for computer‑aided detection for COVID-19[J].Measurement2022187:110289.

[15]

Xia X LXu CNan B.Inception-v3 for flower classification[C]//2017 2nd International Conference on Image,Vision and Computing (ICIVC).Chengdu,2017:783-787.

[16]

Ferreira C AMelo TSousa Pet al.Classification of breast cancer histology images through transfer learning using a pre‑trained inception ResNet V2[C]// International Conference on Image Analysis and Recognition.Cham:Springer,2018:763-770.

[17]

Li J XWang Y QWang Set al.Multiscale attention guided network for COVID-19 diagnosis using chest X-ray images[J].IEEE Journal of Biomedical and Health Informatics202125(5):1336-1346.

[18]

Fu J LZheng H LMei T.Look closer to see better:recurrent attention convolutional neural network for fine‑grained image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu,2017:4438-4446.

[19]

Srivastava NHinton GKrizhevsky Aet al.Dropout:a simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research201415(1):1929-1958.

[20]

Jaiswal AGianchandani NSingh Det al.Classification of the COVID-19 infected patients using DenseNet201 based deep transfer learning[J].Journal of Biomolecular Structure and Dynamics202139(15):5682-5689.

[21]

Polsinelli MCinque LPlacidi G.A light CNN for detecting COVID-19 from CT scans of the chest[J].Pattern Recognition Letters2020140:95-100.

[22]

Lin T YGoyal PGirshick Ret al.Focal loss for dense object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu,2017:2980-2988.

[23]

Li Y SChen Y PDai X Yet al.Micronet:improving image recognition with extremely low flops[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.Montreal,2021:468-477.

[24]

Hu JShen LSun G.Squeeze‑and‑excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake City,2018:7132-7141.

[25]

Woo SPark JLee J Yet al.CBAM:Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV).Munich:Springer,2018:3-19.

基金资助

中央高校基本科研业务费专项资金资助项目(N2023021)

AI Summary AI Mindmap
PDF (2151KB)

173

访问

0

被引

详细

导航
相关文章

AI思维导图

/