具有空间-通道重构卷积模块的肺音分类模型

叶娜 ,  吴辰文 ,  蒋佳霖

南方医科大学学报 ›› 2024, Vol. 44 ›› Issue (09) : 1720 -1728.

PDF (1633KB)
南方医科大学学报 ›› 2024, Vol. 44 ›› Issue (09) : 1720 -1728. DOI: 10.12122/j.issn.1673-4254.2024.09.12

具有空间-通道重构卷积模块的肺音分类模型

作者信息 +

A lung sound classification model with a spatial and channel reconstruction convolutional module

Author information +
文章历史 +
PDF (1671K)

摘要

目的 探究肺音数据的准确识别及分类。 方法 本文提出了一种结合空间-通道重构卷积(SCConv)模块的卷积网络架构以及双可调Q因子小波变换(DTQWT)与三重Wigner-Ville变换(WVT)结合的肺音特征提取方法,通过自适应地聚焦于重要的通道和空间特征,提高模型对肺音关键特征的捕捉能力。基于ICBHI2017数据集,进行正常音、哮鸣音、爆裂音、哮鸣音和爆裂音结合的分类。 结果 方法在分类的准确率、敏感性、特异性以及F1分数上分别达到85.68%、93.55%、86.79%、90.51%。 结论 所提方法在ICBHI 2017肺音数据库上取得了优异的性能,特别是在区分正常肺音和异常肺音方面。

Abstract

Objective To construct a model with a spatial and channel reconstruction convolutional module for accurate identification and classification of lung sound data. Method We propose a convolutional network architecture combining the spatial-channel reconstruction convolution (SCConv) module. A lung sound feature extraction method combining the dual tunable Q-factor wavelet transform (DTQWT) with the triple Wigner-Ville transform (WVT) was used to improve the model's ability to capture the key features of the lung sounds by adaptively focusing on the important channel and spatial features. The performance of the model for classification of normal, crackles, wheezes, and crackles with wheezes was tested using the ICBHI2017 dataset. Results and Conclusion The accuracy, sensitivity, specificity and F1 score of the proposed method reached 85.68%, 93.55%, 86.79% and 90.51%, respectively, demonstrating its good performance in classification tasks in the ICBHI2017 lung sound database, especially for distinguishing normal from abnormal lung sounds.

Graphical abstract

关键词

肺音分类 / 卷积神经网络 / 空间-通道重构卷积 / 双可调Q因子小波变换 / 三重Wigner-Ville变换

Key words

lung sound classification / convolutional neural network / spatial and channel reconstruction convolution / dual tunable Q-factor wavelet transform / triple Wigner-Ville transform

引用本文

引用格式 ▾
叶娜,吴辰文,蒋佳霖. 具有空间-通道重构卷积模块的肺音分类模型[J]. 南方医科大学学报, 2024, 44(09): 1720-1728 DOI:10.12122/j.issn.1673-4254.2024.09.12

登录浏览全文

4963

注册一个新账户 忘记密码

慢性阻塞性疾病严重危害人类健康,陈仕锋等1探讨了肺部听诊肺音对首诊慢性阻塞性肺病严重程度的判断价值,并得出肺音可以作为首诊慢阻肺严重程度判断指标。随着肺音分类研究中深度学习技术应用的不断发展,肺音信号的分析和识别也逐渐向着智能化的方向发展。
高度模块化网络架构的提出2为图像分类任务带来了新的视角,通过引入cardinality这一新维度,不仅提高了分类准确率,还降低了运算成本。此外,残差网络(ResNet)及其变体34通过简化网络结构和引入dropout机制有效防止了模型过拟合,提升了模型的泛化能力。肺音信号处理与图像数据相似,都需要处理高维度的数据并从中提取有用的特征。例如,利用ResNet的残差学习策略来构建肺音分类模型,以增强模型对肺音信号的识别能力,以及网络架构的设计思路可以应用于肺音分类模型中,提高模型的灵活性和可解释性,这对于医学诊断尤为重要。
Spatial transformer5的引入为卷积神经网络(CNN)提供了空间变换功能,这对于处理肺音信号的空间不变性问题具有重要意义。卷积注意力模块(CBAM)6通过自适应地细化特征图,提高了模型对肺音信号的识别精度。而基于强化学习的注意力机制7则能够在全局和局部层面上提取肺音信号的关键信息。此外,基于注意力机制的物体识别模型8和深层生成模型DRAW9提供了处理复杂肺音信号的新思路。特别是在处理肺音信号时,这些技术可以帮助我们更准确地定位和识别异常肺音,从而提高疾病诊断的准确性。文献[10, 11]中提出的ARSC-Net和空间-通道重构卷积(SCConv)模型,通过结合音频特征和注意力机制,以及压缩卷积层,不仅提高了肺音分类的性能还减少了计算负担。CNN-RSM模型和带有OST的ResNet模型则通过有效的特征提取和分类策略12, 13,进一步提升了肺音分类的准确率、灵敏度和特异性。Bahdanau等14提出的架构允许模型在翻译过程中关注与生成下一个目标单词相关的信息,这种机制在肺音分类中同样适用,可以帮助模型集中关注肺音信号中最相关的部分,从而提高分类的准确性。Xu等15进一步引入了基于注意力机制的方法,通过“软”确定性和“硬”随机注意力机制,使得模型能够更加灵活地关注肺音信号的关键特征,这在生成肺音的可视化表示和分类时尤为重要。Conv2Former16的研究则展示了如何通过卷积来编码空间特征,进而简化自注意力机制,这为通过肺音信号的空间特征识别不同类型的肺部疾病提供参考。Gulzar等17通过VGG16进行的迁移学习为肺音信号的特征检索和分类提供了一种有效的途径,使得我们能够利用预先训练好的模型来识别和分析肺音的异常,这对于快速准确的医疗诊断具有重要价值。这些研究成果共同推动了肺音分类技术的发展,为临床诊断提供了强有力的工具。
本文提出了一种结合双可调Q因子小波变换和三重Wigner-Ville变换的特征提取技术,以及结合SCConv模块的肺音分类模型,显著提高了肺音分类的准确性和模型的泛化能力,并在ICBHI 2017数据集上进行实验验证了其有效性。

1 数据和方法

1.1 ICBHI 2017数据集

在研究中采用ICBHI2017挑战赛的呼吸音数据库18,该数据库总共含有5.5 h的录音,包含6898个呼吸周期。数据集中的数据是从126个人中根据采集位置和采集设备等不同录制了若干段音频,共计920段音频,每段音频为10~90 s。其中,每段音频中含有若干个呼吸周期,这920段音频累计6898个呼吸周期,在这些呼吸周期中包含了3642个正常音,1864个爆裂音,886个哮鸣音以及506个爆裂音和哮鸣音的结合。尽管ICBHI2017是目前公开的最大音频处理数据集,但对于用来有效训练卷积神经网络仍然是很难泛化的且该数据集存在严重的数据不平衡问题。

1.2 数据预处理

对于正常的呼吸音其绝大多数呼吸频率范围位于60~600 hz,而异常呼吸音即爆裂音和哮鸣音的呼吸频率范围则在1000~2500 hz及以上19。ICBHI2017数据集中记录的音频采样率从4000~44 100 hz不等,为了标准化,本文统一将音频信号的采样率重新采样到4000 hz以便对其进行统一处理。同时,为了抑制环境噪音的影响应用具有2 dB通带最大衰减的五阶巴特沃斯高通滤波器来保留50~2000 hz的频带,并对信号应用最大最小归一化来映射[0,1]内的值。

1.3 特征提取

研究中采用的特征提取方法包括以下两个方式:一是直接使用短时傅里叶(STFT)变换提取特征1;二是先采用双可调Q因子小波变换(DTQWT)进行信号分解,在通过Wigner-Ville变换(WVT)将信号转换为频谱图得到特征2。

1.3.1 短时傅里叶(STFT)变换

对于特征1的提取,直接采用短时傅里叶变换获得频谱图。傅里叶变换只能反映出信号在频域的特性,无法在时域内对信号进行分析,因此后面所提出的短时傅里叶变换是为了将时域和频域联系起来,其实质是加窗的傅里叶变换。短时傅里叶变换的过程是:在信号做傅里叶变换之前乘一个时间有限的窗函数h(t),并假定非平稳信号在分析窗的短时间间隔内是平稳的,通过窗函数 在时间轴上的移动,对信号进行逐段分析得到信号的一组局部“频谱”。信号x(t)的短时傅里叶变换定义为:

STFT(t,f)=-x(τ)h(τ-t)e-j2πfτdτ

其中h(τ-t)为分析窗函数。由上式可知,信号x(t)在时间t处的短时傅里叶变换就是信号乘上一个以 为中心的“分析窗”h(τ-t)后所做的傅里叶变换。x(t)乘以分析窗函数h(τ-t)等价于信号在分析时间点 附近的一个切片。对于给定时间tSTFT(t,f)可以看做是该时刻的频谱。特别是,当窗函数h(t)1时,则短时傅里叶变换就退化为传统的傅里叶变换。对于时频分析中窗函数的宽度选择决定了是否能得到最优的局部化性能,该选择应根据信号特点进行调整,即正弦信号用大窗宽,脉冲型信号用小窗宽。短时傅里叶变换的基本算法也就是傅里叶变换,易于解释其物理意义,但它的窗宽是固定的不能进行自适应调整。

对于ICBHI2017中的肺音数据周期,研究通过对每一种肺音的各段上使用20 ms的窗口长度,10 ms的步长以及使用Hann窗加窗以捕捉到短时间内的频域信息。经过一系列操作最终获得需要进行肺音分类的四类频谱图像,并对图像大小进行调整,调整为128×128的三通道光谱图。所提取的光谱图能够很好地反映出肺音信号的能量空间分布,这些能量分布的不同也代表了各类信号特征的变化与不同。

1.3.2 双可调Q因子小波变换(DTQWT)和Wigner-Ville变换(WVT)

DTQWT是由其Q因子和过采样率(冗余)参数化的,实质上是一个完全离散的小波变换易于调节参数的振荡信号分析。振荡脉冲的Q因子是其中心频率与带宽之比。小波变换的Q因子应该根据信号的振荡行为进行合理选择。比如,在采用小波进行振荡信号(如语音等)处理和分析时,小波变换应该有一个相对较高的Q因子。然而除了连续小波变换,大多数小波变换对于小波Q因子的调优能力都想对较差。二进制小波变换具有较低的Q因子,因此非常适用于非振荡(即分段光滑)信号。

研究分析的两类异常音,爆裂音和哮鸣音也具有不同的振荡行为。爆裂音属于突然爆发的瞬态波形,可以用低Q因子小波表示;而哮鸣音往往具有振荡波形,可以用高Q因子小波表示。根据信号形态成分分析,本文采用了一种DTQWT,该变换可以将基于共振的呼吸音分解为3个成分,即瞬态成分,振荡成分和残余成分。

图1所示,通过双可调Q因子小波变换处理后的信号,得到了瞬态、振荡和残余成分后,将Wigner-Ville变换分别应用于每一个成分以获得时频表示。

WVT作为一种时频分析方法,主要用于分析非平稳信号的时频特性。WVT可以同时提供信号在时间和频率上的变化信息,相比于其他时频分析方法,它具有较高的分辨率和较好的时频局部化特性。WVT的基本思想是将信号进行时频表达,将信号在时间和频率上的变化同时呈现。它通过在时域上对信号进行窗口变换,然后再对每个窗口内的信号进行傅里叶变换来实现。WVT的计算公式如下:

W(t,f)=x(u)x*(u-t)e-2πifudu

其中,x(u)是输入信号,x*(u-t)表示信号的共轭,W(t,f)是WVT的输出,表示在时间和频率处的时频信息。

爆裂音的持续时间短于20 ms是一种比较低沉的声音,其频率在350 hz~650 hz不等;哮鸣音的持续时间则达到250 ms是一种比较高调的声音,其频率在100 hz~2000 hz不等。由于这两类异常音具有非线性和非静止的特性,研究采用Hann窗口函数用于在短时间内捕捉频域信息。将DTQWT和WVT结合起来,可以利用DTQWT的窄带分量提供的更好时频局部化特性,同时利用WVT提供的高分辨率来分析信号。在这种结合下可以利用不同Q因子下观察信号的时频特性,从而更全面地了解信号的非平稳性和频率特性。具体操作上,也就是将DTQWT处理得到的呼吸音成分分别进行WVT变换,得到时频分析。总的来说,这两种变换的结合,能够提供更好的时频分辨率、边缘定位(也就是能够精确地识别信号的起始和终止点)和抑制谐波干扰(即能够减少在频谱中出现多个频率相近的峰值)的能力,以及多尺度分析的优势。

1.4 混合样本数据增强

ICBHI2017数据集虽然是目前公开最大的肺音处理数据集,且拥有标准的实验划分要求,但它仍然存在数据集中数据之前的不平衡问题。数据的不平衡会导致在后续的分类任务中,对于获取异常肺音样本的概率会更小也会出现过拟合问题,最终导致分类任务的失败或错误。数据增强技术是一种十分实用的技术,可以用来提该神经网络的泛化能力,防止过拟合。混合数据增强的核心思想是按一定的比例随机混合两个训练样本及其标签。该技术可以有效地减少模型的过拟合问题,提高数据的多样性,同时能够使不同类别的决策边界过渡得更加平滑,这些好处也正好能够对于本文对于ICBHI2017数据集中的肺音分类有一定的提升。通过混合数据增强技术,研究得到如表1所示增强前后的呼吸周期数量。

混合数据增强技术考虑了不同类样本之间的临近关系,是使用线性插值来混合训练样本使样本多样化即通过输入特征向量的线性插值导致相关目标的线性插值20。研究根据异常肺音的特性,对于爆裂音,将爆裂音与正常音相结合从而提高爆裂音的呼吸周期数量;对于哮鸣音,将哮鸣音与正常音结合从而提高哮鸣音的呼吸周期数量;同样为了获取爆裂音和哮鸣音的结合,将爆裂音和哮鸣音进行结合从而提高其呼吸周期数量。在混合数据增强中,其混合操作如下:

x̃=λxA+(1-λ)xB
ỹ=λyA+(1-λ)yB

其中,xAxB是两个训练样本,x̃是生成的训练样本,混合比λ是从beta分布中采样而来的。混合数据增强技术能够让模型更好地泛化到未见过的样本,提高模型的鲁棒性,训练时也比较稳定。

1.5 具有SCConv重构卷积的网络架构

卷积神经网络在提取特征时会产生冗余,导致对计算资源的需求增加。SCConv模块11通过空间重建单元(SRU)和通道重建单元(CRU)有效抑制空间和通道冗余,提高模型性能。该模块可替代标准卷积层,为卷积网络特征提取提供新视角。

其中空间重建单元(SRU)通过分离-重建法减少空间冗余。分离过程利用组归一化(GN)的缩放因子评估特征图信息量,信息量大的特征图与信息量小的分离,通过更大的可训练参数值表示更丰富的空间信息。重建操作通过交叉合并加权特征,得到细化特征图,有效减少空间冗余。通道重建单元(CRU)采用分割-转换-融合策略减少通道冗余。首先,输入特征图被分割为两部分,分别对应不同比例的通道数,通过1×1卷积核压缩。接着,一部分特征进行全局卷积(GWC)和点卷积(PWC)操作后相加,另一部分仅进行PWC,并与原输入合并。最后,通过全局平均池化和Softmax权重化,融合全局空间和通道信息,提炼出精炼的通道特征。

1.5.1 SCConv-Net网络架构模型

图1所示,研究将经DTQWT与三重WVT变换后所提取的3通道特征光谱图与单独进行STFT提取的单通道特征光谱图,分别送入卷积网络中进行同时训练及特征提取。基于Bi-ResNet21网络和改进Bi-ResNet22网络,在双线性的ResNet网络模型进行特征融合后将特征送入SSResNet网络模块中进行特征处理。

图2所示,模块主要是将特征送入具有SCConv的模块中,并通过直连边进行特征融合。在SSResNet模块以前的卷积模块中均采用7×7的卷积核大小,但通过SCConv模块后我们引入了3×3的卷积模块是为了在提高模型性能的同时优化模型的计算效率和泛化能力。并且,由于SCConv模块通过空间重建单元(SRU)和通道重建单元(CRU)减少了空间和通道上的冗余,通过使用较小的卷积核能够更好捕捉更细粒度的空间特征,以充分利用特征信息。同时,SCConv作为特殊的卷积模块,提升了模型的特征表达能力,减少参数量和计算复杂度,并且具有更好的可解释性。

1.6 实验设置和评价指标

本研究中采用了ICBHI2017官方划分数据集的方法,将实验数据划分为60/40的训练集和测试集。本文实验在python3.10中采用pytorch实现了具有SCConv重构卷积模型的肺音分类,并在基于16GB内存和Apple M2芯片的MacOS系统的CPU上进行了评估。根据本文使用的网络模型,将学习率设置为10e-5,批大小为64,epoch为100且学习率以0.00001倍进行衰减,其中dropout率本文采用0.6、0.6和0.8应用在网络模型中,权重衰减指数为0.07以防止发生过拟合,从而保持权重始终在一个较小的值防止梯度爆炸。本文进行了一系列的实验,以评估本文所用特征提取和所提网络模型的有效性,并将本文的分类表现与其他先进作品10-121723-26进行比较。

本文使用了Adam优化器以提高模型训练效率和模型性能,并且该优化器在面对肺音数据的噪声时会更加敏健,这对于本研究处理大量肺音数据的模型来说可以减少训练时间和计算资源的消耗,也简化了模型训练的超参数选择过程。在本研究中,为了提升模型在肺音分类任务中的预测精度和泛化能力,主要采用了交叉熵损失函数(Cross-Entropy Loss)和Softmax激活来进行模型训练中权重的调整,从而提高分类的准确性。损失函数会接受模型的原始输出(logits)和目标类别的索引,然后自动应用Softmax函数并计算损失:

loss=-logezcorrect_classΣjezj

其中,zcorrect_class是正确类别的logit,即模型输出中对应正确类别的元素。

研究遵循官方的ICBHI 2017数据集拆分方法并使用以下评估方法,其定义为:

Se=Pc+Pw+PbNc+Nw+Nb
Sp=PnNn
AS=Se+Sp2
F1=2×Precision×RecallPrecision+Recall
Precision=TPTP+FN
Recall=TPTP+FP

其中,PcPwPbPn分别是四种肺音正确预测的呼吸周期数,NcNwNbNn、分别是每种类型分肺音周期中的实例总数。TP代表真正例的数量,即正确预测为正常肺音的数量;FP代表假正例的数量,即正确预测为异常肺音(爆裂音、哮鸣音以及两者结合)的数量;FN代表假负例的数量,即错误预测为异常肺音的正常肺音样本的数量。敏感性衡量肺音分类系统检测到的肺部疾病样本的比例,而特异性衡量肺音分类系统正确地将健康样本识别为健康的比例。在肺音分类中,AS反映了模型在区分正常肺音和异常肺音方面的整体效能,一个高的AS值表明模型在不过度误诊(保持高特异性)的同时,也能够识别出大多数的病例(保持高敏感性)。F1分数是精确度和召回率的调和平均数,能够衡量模型在识别特定类型肺音(如正常肺音、爆裂音等)时的准确性和覆盖率的平衡。这些指标是衡量自动化肺音分类系统的准确性和可靠性的重要尺度。

2 结果

2.1 Q因子选择的有效性

研究采用双可调Q因子来对数据进行特征提取,以提高模型分类的灵敏度和特异性,需要探索Q因子值来优化DTQWT的有效性。根据Selesnick27的建议,通过调整变换的Q因子,可以更好地表示振荡行为并获得信号的稀疏表示,这对于通过声音检测肺部疾病具有关键意义。因此根据Selesnick27可知对于Q因子主要存在低Q因子和高Q因子值的选择且Q值需要大于1,故对于低Q因子小波,Q值恒定为1,同时将过采样率同时设置为3。因为Q因子选择的有效性,主要针对高Q因子小波,本文进行了实验以评估不同高Q值对于模型性能的影响。本文根据官方划分数据进行了参数的探索。

表2展示了针对高Q因子小波变化在肺音信号分析中的性能评估。从Q=2到Q=6,准确率整体呈上升趋势,尤其是在Q=5时达到85.68%,表明此时模型的总体分类性能最佳。敏感性能够衡量模型正确识别正类的能力。表中数据显示,随着Q因子的增加,敏感性普遍提高,尤其是在Q=4、Q=5以及Q=6时,敏感性都升高至90%以上,表明这几个参数能够有效地识别正类。衡量识别负类能力的特异性在Q=5时达到最高,但在Q=6时略有下降。Q=5时,F1分数达到90.51%,表明这个参数值在敏感性和特异性之间取得了最佳平衡。根据以上的综合分析,Q=5时的小波变换在准确率、敏感性和F1分数上都表现出色,这使得Q=5成为一个适合用于肺音信号分析的有效参数选择,能够在保持高敏感性的同时,也不错地保持特异性,从而在整体上实现了最佳的分类性能。这可能意味着在实际应用中,选择Q=5作为小波变换的参数,能够在识别信号中的特定特征(如异常或重要的振荡行为)时,达到较高的准确性和可靠性。在实际应用中,特别是在医疗诊断领域,敏感性高意味着减少了漏诊的风险,而特异性高则意味着减少了误诊的风险。因此,选择Q=5作为参数,可以在确保不遗漏重要病理信息的同时,控制误报的数量。尽管参数Q=5的模型在当前数据集上表现良好,但其在不同人群和临床环境中的泛化能力仍需验证。未来的研究应考虑模型在多样化临床样本上的表现。

图5A~C分别表示了Q=4、Q=5以及Q=6时模型训练出来的混淆矩阵。通过混淆矩阵可以更深入地理解模型在不同类别上的表现。在正常肺音的分类上Q=5的表现最佳,正确预测的数量最多,错误分类的数量最少,表明在该因子下模型对于正常肺音的识别较为准确。同样,Q=4时,模型在正常肺音的分类上表现良好;Q=6时,模型在正常肺音上的分类略低于Q=5。从混淆矩阵中可以看出,Q=5在所有类别上都保持了较高的正确率,尤其是在正常肺音的分类上,这表明模型在这个参数下具有较好的泛化能力和分类精度。尽管在爆裂音和哮鸣音的分类上存在一定数量的误分类,但相比于Q=4和Q=6,Q=5的错误分类数量较少,这可能意味着模型在Q=5时在特征提取和分类边界划分上更为准确。总体而言,选择Q=5作为最终参数是基于模型在正常肺音分类上的高准确率以及在其他类别上相对较好的性能。这个选择有助于确保模型在实际应用中能够以较高的准确度识别和分类肺音信号,从而为临床诊断和健康监测提供可靠的支持。

2.2 特征提取的有效性

为了验证双可调Q因子小波变换(DTQWT)和三重Wigner-Ville变换(WVT)作为特征提取方法的有效性,通过实验对比,新提出的特征提取方法在肺音处理方面显示出一定潜力(表3)。

从Wavelet+STFT到DTCWT+WVT,可以看到特征提取技术的进步。DTQWT和WVT作为新的特征提取方法,提供了更丰富的频率和时间信息,有助于提高模型的准确率和敏感性。DTCWT+WVT,STFT (SCConv-Net)在敏感性和特异性指标上都很高,表明它在区分不同类别的肺音方面表现良好,能够识别出正常肺音、区别异常肺音,这对于提高肺音疾病的识别准确性上有了新的方向。尽管DTQWT和WVT提供了时频特征信息,但其在临床诊断中的具体意义尚需明确。

2.3 分类模型的有效性

研究使用的增强卷积模块在较大程度上能够更准确地识别肺音样本,这在很大程度上为疾病的识别提供了参考价值。为了证明本文所提方法的有效性,与现有方法进行了比较(表4)。

SCConv模型在肺音分类任务上的表现最为出色,其在所有评估指标上都达到了较高的水平,这表明该模型在肺音分类任务中具有显著的优势。并且SCConv模型的较高敏感性和特异性显示了其在识别疾病样本和健康样本方面的强大能力,这可能归功于其独特的结构和优化策略,使得模型能够有效地捕捉和区分肺音信号的关键特征。VGG16和LSR-Net也展现出了较高的性能,特别是在准确率和特异性方面。而CNN和CNN-RSM虽然在某些指标上表现不错,但在敏感性方面仍有待提高。CNN Snapshot Ensembles和Contrastive Embedding Learning模型在敏感性和特异性上表现相似,平均分数和F1分数也相对接近,表明它们在肺音分类任务上具有较好的平衡性能。CNN-Transformer(LPCC+MFCC)模型在F1分数上达到了最高分,这表明该模型在精确度和召回率之间达到了良好的平衡。这些结果表明,深层网络结构和有效的特征提取方法对于提高肺音分类的准确性至关重要。SCConv模型的高敏感性和特异性确实显示了其在正常和异常肺音样本识别上的能力。尽管SCConv在特定数据集上表现出色,但其泛化能力仍需在新的或未见过的肺音数据上进行验证。这一点对于模型在多样化临床环境中的适用性至关重要。

2.4 增强卷积模块的有效性(消融实验)

为了评估本研究中重构卷积增强模块是否有利于肺音的正确识别,我们进行了与以下几种方式的比较:(1)未使用重构卷积模块;(2)仅使用空间重构卷积模块;(3)仅使用通道重构卷积模块;(4)通道-空间重构卷积模块;(5)空间-通道重构卷积模块(本文)。

表5中可以看出SRU单独使用时的准确率为72.50%,而当与CRU结合作为SCConv时,准确率提升到了85.68%。这表明通道卷积CRU的加入显著提高了模型的整体性能。敏感性从87.60%提升到93.55%,特异性从82.90%提升到86.79%,这两个指标也都显示出了明显的提升,进一步证实了CRU对于提高模型性能的贡献。

CRU单独使用时的准确率为74.40%,而结合SRU作为SCConv时,准确率提升到了85.68%。这同样表明空间卷积SRU的加入对于提升模型性能有积极作用。敏感性从83.70%提升到93.55%,特异性从74.30%提升到86.79%,这两个指标的提升也证明了SRU在提高模型性能方面的有效性。

虽然CRU-SRU和SCConv(SRU-CRU)的顺序不同,但它们的组合方式是相同的。在这种情况下,CRU-SRU的准确率为82.57%,略低于SCConv的85.68%。这可能表明CRU和SRU的前后顺序对于性能有一定的影响,但整体上两者的性能相当接近。敏感性和特异性方面,CRU-SRU分别为87.48%和76.79%,而SCConv分别为93.55%和86.79%,这进一步强调了SRU和CRU一前一后的顺序在提高这两个指标上有一定优势。

从上述比较中可以看出,SCConv(SRU-CRU)在所有评估指标上都优于单独使用SRU或CRU的模块。这表明空间卷积和通道卷积的结合对于提升模型的分类性能至关重要。SRU和CRU的前后顺序似乎对于最终的性能有一定的影响,但整体而言,无论顺序如何,结合使用这两种卷积都能显著提高模型的性能。总的来说,SCConv模块在准确率、敏感性和特异性上都达到较高的水平,这表明SCConv在平衡模型的精确性和鲁棒性方面做得最好。然而,研究的目的是希望这些结果在临床实践中能体现出有效性和适用性,需要进一步的研究来关注SCConv模块在实际医疗环境中的实施效果。

3 讨论

本文提出了一种具有SCConv模块的分类模型用于肺音分析,同时采用了DTQWT和三重WVT作为特征提取方法用于肺音特征的获取。通过这两类方法的应用,对于本文的肺音分类识别有了以下贡献。首先,DTQWT和三重WVT的结合,可以利用DTQWT的窄带分量提供更好的时频局部化特性,同时利用WVT提供的高分辨率分析信号,从而更全面地了解信号的非平稳性和频率特性。其次,使用两类不同特征用于神经网络并行训练后进行特征融合再训练可以综合多样信息,提升模型的鲁棒性和泛化能力,减少过拟合的风险,从而提高模型的性能。两类不同特征作为三通道和一通道进行线性特征融合用于模型的特征处理可有效提升特征表达能力、增强模型的鲁棒性和泛化能力,并增加模型的灵活性。最后,引入SCConv模块可以提升特征表达能力、减少参数量和计算复杂度,并且具有更好的可解释性,相比于注意力机制在传统卷积分类模型中更具优势。本文通过在ICBHI 2017肺音数据集上进行的相关实验,验证了本文所提方法在肺音分类上的有效性。虽然ICBHI 2017数据集为肺音分类研究提供了有价值的数据,但其是否能够全面代表实际临床中的肺音特征仍需进一步探讨。未来的研究希望考虑更多样化的数据集,包括不同年龄、性别、种族和疾病阶段的患者。

综上所述,本文提出的特征提取方法、肺音分类模型等技术手段,能够有效地提高肺音分类的准确性;在后续工作中尝试通过参数自适应选择、并行计算优化等方面的改进进一步提升结合DTQWT和三重WVT的特征提取方法的效果和适用性,同时研究应关注模型在实际医疗环境中的实施效果。

参考文献

[1]

陈仕锋, 黄敏於, 彭显如, . 肺音可以作为首诊慢阻肺严重程度的判断指标[J]. 南方医科大学学报, 2020, 40(2): 177-82.

[2]

Xie SN, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA. IEEE, 2017: 5987-95.

[3]

Zagoruyko S, Komodakis N. Wide Residual Networks[J]. BMVC 2016, 2016: 87.1-87.12.

[4]

Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, inception-ResNet and the impact of residual connections on learning[J]. Proc AAAI Conf Artif Intell, 2017, 31(1): 4480-8.

[5]

Jaderberg M, Simonyan K, Zisserman A, et al. Spatial transformer networks[EB/OL]. 2015: arXiv: 1506.02025.

[6]

Woo S, Park J, Lee JY, et al. CBAM: convolutional block attention module[EB/OL]. 2018: arXiv: 1807.06521.

[7]

Mnih V, Heess N, Graves A, et al. Recurrent models of visual attention[EB/OL]. 2014: arXiv: 1406.6247.

[8]

Ba J, Mnih V, Kavukcuoglu K. Multiple object recognition with visual attention[J]. arXiv E Prints, 2014: arXiv:

[9]

Gregor K, Danihelka I, Graves A, et al. DRAW: a recurrent neural network for image generation[EB/OL]. 2015: arXiv: 1502.04623.

[10]

Xu L, Cheng JH, Liu J, et al. ARSC-net: adventitious respiratory sound classification network using parallel paths with channel-spatial attention[C]//2021 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). Houston, TX, USA. IEEE, 2021: 1125-30.

[11]

Li JF, Wen Y, He LH. SCConv: spatial and channel reconstruction convolution for feature redundancy[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver, BC, Canada. IEEE, 2023: 6153-62.

[12]

古依聪, 郭 涛, 李 成, . 基于LBP和Mixup数据增强后的肺音识别[J]. 计算机与数字工程, 2023, 51(1): 268-72.

[13]

Chen H, Yuan XC, Pei ZY, et al. Triple-classification of respiratory sounds using optimized S-transform and deep residual networks[J]. IEEE Access, 2845, 7: 32845-52.

[14]

Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv E Prints, 2014: arXiv:

[15]

Xu K, Ba J, Kiros R, et al. Show, attend and tell: neural image caption generation with visual attention[EB/OL]. 2015: arXiv: 1502.03044.

[16]

Hou QB, Lu CZ, Cheng MM, et al. Conv2Former: a simple transformer-style ConvNet for visual recognition[J]. IEEE Trans Pattern Anal Mach Intell, 2024, doi: 10.1109/TPAMI.2024.3401450 . Online ahead of print.

[17]

Gulzar H, Li JY, Manzoor A, et al. Transfer Learning based Diagnosis and Analysis of Lung Sound Aberrations[J]. Int J Bioinform Biosci, 2023, 13(1): 29-40.

[18]

Rocha BM, Filos D, Mendes L, et al. Α respiratory sound database for the development of automated classification[C]//International Conference on Biomedical and Health Informatics. Singapore: Springer, 2018: 33-37.

[19]

Bohadana A, Izbicki G, Kraman SS. Fundamentals of lung auscultation[J]. N Engl J Med, 2014, 370(8): 744-51.

[20]

Perez L, Wang J. The Effectiveness of Data Augmentation in Image Classification using Deep Learning[J]. arXiv E Prinst, 2017: ar Xiv:1712. 04621.

[21]

Ma Y, Xu XZ, Yu Q, et al. LungBRN: a smart digital stethoscope for detecting respiratory disease using bi-ResNet deep learning algorithm[C]//2019 IEEE Biomedical Circuits and Systems Conference (BioCAS). Nara, Japan. IEEE, 2019: 1-4.

[22]

Wu CW, Ye N, Jiang JL. Classification and recognition of lung sounds based on improved Bi-ResNet model[J]. IEEE Access, 2024, 12: 73079-94.

[23]

Nguyen T, Pernkopf F. Lung sound classification using snapshot ensemble of convolutional neural networks[C]//2020 42nd Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC). Montreal, QC, Canada. IEEE, 2020: 760-3.

[24]

Song WJ, Han JQ, Song HW. Contrastive embeddind learning method for respiratory sound classification[C]//ICASSP 2021‑2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toronto, ON, Canada. IEEE, 2021: 1275-9.

[25]

包善书, 车 波, 邓林红. 基于双源域迁移学习的肺音信号识别[J]. 计算机工程, 2023, 49(9): 295-302, 312.

[26]

田思远. 基于CNN-Transformer的肺音信号分类研究[D]. 银川: 北方民族大学, 2023.

[27]

Selesnick IW. Wavelet transform with tunable Q-factor[J]. IEEE Trans Signal Process, 2011, 59(8): 3560-75.

基金资助

RIGHTS & PERMISSIONS

版权所有©《南方医科大学学报》编辑部2021

AI Summary AI Mindmap
PDF (1633KB)

151

访问

0

被引

详细

导航
相关文章

AI思维导图

/