心血管疾病是全球范围内导致死亡的主要原因之一。据美国心脏病学会统计,心血管疾病导致的死亡人数占总死亡人数的1/3
[1,2]。据推算,中国目前患心血管病的人数有3.3亿人,且患病率仍持续增长
[3]。世界卫生组织进一步预测,在2030年,因心血管疾病而死亡的人数将达到2360万
[4]。因此,心血管疾病的早期检测与诊断对降低死亡率具有重要临床意义。
心电图(ECG)作为记录心脏电活动的重要无创检测手段,能够反映心肌细胞在心动周期中的去极化和复极化过程
[5]。因其具有操作简单、成本低廉、安全无创等显著优势
[6, 7],ECG检测成为临床心血管疾病筛查和诊断的常规检查项目。然而,ECG信号分析仍面临诸多挑战:首先,ECG波形形态复杂多变,易受个体差异和采集环境影响
[5];其次,传统ECG解读高度依赖专科医生的临床经验,不仅分析效率低下,还存在主观判断差异等问题
[8];此外,全球范围内医疗资源分配不均,进一步加剧了ECG诊断的延迟问题。因此,开发自动化的ECG信号分类方法具有重要现实意义。
近年来,心电信号自动分类研究经历了从传统方法到深度学习的显著演进。早期研究主要依赖于手工特征提取结合支持向量机等传统机器学习方法,然而这类方法在临床实践中表现欠佳
[9, 10]。一方面ECG信号易受环境噪声干扰导致波形形态变异,另一方面传统方法依赖于手工提取特征,难以有效捕捉ECG搏动中的细微特征差异,从而导致分类准确率受限。随着深度学习的迅速发展,深度神经网络(DNN)已成为解决分类、分割、检测等问题的热门方法。深度学习方法主要通过对大量数据进行深层的特征提取,实现对数据更高效的表达。与传统的机器学习方法相比,深度学习方法无需手动提取特征,通过不同的网络层学习信号的深层特征,能有效应对患者个体内和个体间的变化,在保证实时性的同时显著提升分类性能
[11 -13]。
在深度学习的早期研究中,Yıldırım等
[14]构建了16层深度卷积神经网络(CNN)用于MIT-BIH心律失常数据库分类。但深层卷积神经网络在训练过程中可能造成梯度消失或梯度爆炸问题,之后,邓力
[15]、Brito
[16]等采用残差网络(ResNet)架构有效提取ECG信号中的多层次时空特征,实现不同节拍类型的自动精确分类。ResNet通过跳跃连接,将输入传递到后面层,能够有效缓解梯度消失问题。随着深度学习技术的不断更新,近年来,模型融合技术展现出巨大潜力:Luo等
[17]提出一种结合CNN和LSTM的深度学习模型,针对CPSC2018数据集实现多标签分类。Zhang等
[18]提出集中结合多分支卷积神经网络(MCNN)和双向长短期记忆网络(BLSTM)对ECG信号进行分类。但静态特征拼接的CNN-LSTM混合模型缺乏时序-空间的动态交互机制,难以捕捉ECG信号中局部波形畸变与全局节律紊乱的关联性。Li等
[19]、Zhu等
[20]提出了一种结合SE模块和ResNet的深度神经网络,对心室早搏(PVC)进行识别。Le等
[21]使用3个独立的SEResNet18网络针对ECG信号的I导联、II导联和V1导联进行特征提取并分类。虽然SE-ResNet混合模型通过通道注意力提升特征选择性,但SE模块仅考虑通道维度权重分配,忽视了ECG信号在时间维度上的动态特征变化规律。
在上述研究基础上,本文提出一种新型的时空协同网络模型,该模型创新型地将残差学习机制融入LSTM时序建模过程,在传统LSTM单元间引入跨层跳跃连接,使梯度能够穿透深层时序网络传播,有效缓解心电图长时序依赖建模中梯度衰减问题。同时引入TemporalSE模块,实现通道特征和时序特征的自适应校准。在CPSC2018数据集上的实验验证证明,该模型对12导联ECG信号的分类准确率达到99.70%,F1值达到0.9653,体现了较强的分类性能,具备进一步研究与应用的潜力。
1 材料和方法
1.1 实验数据
本文使用2018年中国生理信号挑战赛(CPSC)提供的官方数据集
[22]和一个私有数据集。CPSC2018的训练集包含了6877条记录,每条记录的时长不等,最短为6 s,最长为60 s,采样率为500Hz。该数据集包括正常ECG信号和8种异常ECG信号,其中异常ECG信号类型具体包括房颤(AF)、一度房室传导阻滞(I-AVB)、左束支传导阻滞(LBBB)、右束支传导阻滞(RBBB)、室性早搏(PVC)、房性期前早搏(PAC)、ST段降低(STD)和ST段抬高(STE)。私有数据集采集自南方医科大学第七附属医院就诊患者,包含9571个样本。每个样本采样时长为10s,采样率为1000Hz。该数据集共包含9个类别:窦性心律(SR)、窦性心律不齐(SA)、窦性心动过缓(SB)、窦性心动过速(ST)、心房颤动(AF)、室性早搏(PVC)、肢体导联低电压(LVLL)、不完全性右束支分支传导阻滞(IRBBB)和左心室肥大(LVH),各类别分布详情见表(
表1)。由于私有数据集的原始采样率(1000 Hz)与CPSC2018数据集采样率(500Hz)不同,为保持一致性,在进行分类前,先将私有数据集数据降采样至500Hz。该数据集已获得南方医科大学第七附属医院伦理委员会审批(伦理批号:2025-0005),并严格遵循数据隐私保护的相关要求。为将数据集用于分类任务,本文对类别标签采用了独热编码的方法。
考虑到CPSC2018数据集在采集过程中各条记录的持续时间不同,所以在进行模型训练之前,先对信号进行分割预处理
[23],将信号长度统一为7500个采样点,有效规避输入信号长度不一致问题,确保模型训练的规范性和稳定性。本研究提出基于滑动窗口的ECG信号分割方法(
图1)。
当样本长度不足7500个采样点,进行补零对齐;当样本长度超过7500个采样点,不足7500×1.5个样本点,直接进行截断处理;当样本长度超过7500×1.5个样本点,样本被分成n段,每个片段长度包含7500个采样点,片段之间重叠3750个采样点。计算公式如下:
设
为原始信号,
为分割处理后的信号,
为信号总长度,
为分割后信号片段长度,
为片段间重叠长度,
、
、
均以采样点计算。其中
取值7500采样点,
取值为3750采样点。对原始CPSC2018数据集的ECG信号进行分割处理,得到各类别分布(
表 2)。
为改善数据集存在的类别不平衡问题,本文采用了合成少数类过采样技术(SMOTE)对样本进行扩充
[24],以缓解类别不平衡可能对模型训练带来的影响。
1.2 模型框架
本文提出了一种改进的ResLSTM-TenporalSE网络模型,该模型通过多模块协同优化实现对ECG信号的高效特征提取与分类。模型通过长短期记忆网络(LSTM)能够有效捕捉ECG信号中的长期依赖关系,同时在LSTM层间建立跨层跳跃连接,使梯度可以通过残差路径直接反向传播,提升12导联ECG信号的时序建模稳定性;此外,创新性引入时序压缩-激励(TemporalSE)模块,在传统对特征通道进行自适应校准的基础上引入时序感知能力,实现对特征通道的时空动态校准。
ResLSTM-TenporalSE整体模型架构(
图2)。输入数据为采样率500Hz的12导联心电信号,每导联包含7500个采样点。信号首先通过卷积层提取局部特征;随后信号传入由多个ResBlock构成的ResLayer,每个ResBlock包含残差连接结构,有效缓解深层网络梯度消失问题,通过LSTM层和TemporalSE模块捕捉信号中长期时间依赖关系的同时动态校准特征响应;最终通过全连接层和激活层完成ECG信号的分类。
1.2.1 ResNet结构
深度残差网络首先由He等
[25]于2016年首次提出,其最初目的旨在提高基于ImageNet数据库的分类性能。相比于传统卷积神经网络,ResNet通过引入残差结构(
图 3),将原始映射函数
分解为
,学习
残差函数,能够有效解决梯度消失和爆炸问题。残差网络的核心是残差连接,通过重构深层神经网络的梯度传播路径,将输入直接传递到后续层,将学习目标由传统的输入输出映射
转变为残差映射,简化了深层网络的优化过程,比单纯学习
更为高效
[26]。
本文搭建的网络基于残差连接的核心思想,在ResBlock1和ResBlock2(
图 2B)两种残差块皆由LSTM层、最大池化层(MaxPool)、批量归一化(Batch Normalization)、激活层(Relu)和TemporalSE模块构成。在ResBlock1中,LSTM层首先捕获信号的时间序列特征,随后MaxPool层执行降维操作,批量归一化和Relu激活层分别实现特征标准化和非线性变换。残差连接机制将时间序列特征与卷积特征融合,最后,由TemporalSE模块实施特征通道加权优化,用于提升特征表达的针对性。ResBlock2采用不同的特征处理策略,残差连接直接将原始信号与处理后的信号融合,再经由TemporalSE模块进行通道注意力分配。该结构设计有助于在特征变换过程中保留输入信号的细节信息,减缓特征提取可能导致的信息损失。
ResBlock1主要用于提取和精炼ECG信号的高层次特征,ResBlock2侧重于保留输入信号的原始细节信息。两种残差结构在网络中联合使用,旨在实现对ECG信号多层次特征的综合建模与表达。
1.2.2 LSTM模块
传统的神经网络无法捕捉序列数据的长短期依赖关系,而递归神经网络(RNN)通过内部记忆结构解决了这一问题。RNN在每一步计算中将当前时刻特征和前一时刻的隐藏状态作为输入,有效提取序列数据中的时序依赖性。但在处理长序列时仍面临梯度消失和爆炸问题
[27]。
LSTM作为RNN的改进变体,通过引入门控机制有效缓解了上述问题
[28]。LSTM的基本工作原理如下(
图 4),LSTM单元通过输入门、遗忘门和输出门控制信息的传递和更新,从而能够动态调整记忆状态。
输入ECG信号在传入ResLayer前经过卷积处理后表示为高维特征
(
图2A)。LSTM在每个时间步的输入包括当前输入
、前一时刻的隐藏状态
和单元状态
,为了实现信息的跨时间步传递,LSTM利用输入门、输出门和遗忘门进行一系列计算
[7][29]。LSTM在每个时间步的核心计算过程如下:首先,遗忘门
通过公式(2)决定保留多少前一时刻的单元状态信息,过滤ECG信号中的无关低频噪声:
其中,表示激活函数,是遗忘门的输出权重,是遗忘门的偏执向量。
输入门通过公式(3)决定当前输入对单元状态的影响,并通过公式(4)计算候选单元表示当前时刻的信息更新:
其中,是输入门的输出权重,是输入门的偏执向量,是候选状态权重。
接着,通过公式(5)根据遗忘门和输入门更新当前时刻的单元状态;最后,输出门通过公式(6)筛选无关信息,并通过公式(7)从单元状态中提取信息传递到下一时间步,得到当前隐藏状态:
其中,是输出门的输出权重,是输出门的偏执向量。
本文提出的ResLSTM-TemporalSE模型在LSTM层中引入了残差连接结构,利用残差连接将浅层信号细节特征与深层时序特征进行跨尺度融合,在抑制梯度异常现象的同时提升特征捕获效率。于此同时,LSTM层通过其记忆状态的动态更新机制,使模型能够建模ECG信号中的时间依赖关系,为后续的分类任务提供时序信息支持。
1.2.3 TemporalSE模块
SE模块通过显示建模通道间的依赖关系(
图5),自适应地重新校准通道特征响应,优化模型性能
[30]。首先,Squeeze操作采用全局平均池化将输入特征的每个通道压缩为单一数值,以捕捉全局信息。随后,Excitation机制利用全连接层和激活函数计算通道注意力权重,从而强化关键特征通道的表达能力。
在本模型中,TemporalSE模块在传统SE模块基础上并行引入了时序注意力机制,设计一种双支路并行处理结构(
图 2C),以增强传统SE模块对时间维度的处理能力。在特征处理机制上,支路a保留传统SE模块的通道注意力生成路径;支路b则同时应用最大池化和全局平均池化,通过并联的最大池化和全局平均池化得到更全面的特征表示,经LSTM层建模时序依赖后生成时间敏感的通道权重。两条支路的输出通过逐元素相乘得到融合权重,这种设计既保持了SE模块的通道校准能力,又增强了对时序感知的能力。
1.3 实验设置
数据集按照4∶1的比例划分为训练集(Train set)和独立测试集(Test set),为评估模型分类性能的有效性和稳定性,采用五折交叉验证方法将训练集划分为训练集1(Train set1)和验证集(Val set)对模型进行训练和评估(
图6)。模型在训练集上进行100次迭代训练,训练过程中记录每折验证集的分类准确率,选取最优结果作为该次迭代的最终性能指标。实验整体流程包括数据预处理,特征提取以及最终输出分类结果关键环节(
图7)。
1.4 评估指标
本文选用正确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1值(F1-score)作为模型的评估指标,以全面评估模型的分类性能
[31]。Accuracy表示模型正确分类的样本占总样本的比例;Precision反映了模型预测正类的准确性;Recall衡量了模型识别正类的能力;针对类不平衡的数据集,F1值能够更全面地评估模型的性能
[32]。上述指标从不同角度反应模型在心电分类任务中的表现,全面评估模型在不同类别上的分类性能。各指标的计算公式如下(8)~(11)所示。
其中TP表示正确预测为正类的样本数,FP表示将负类预测为正类的样本数,TN表示正确预测为负类的样本数,FN表示将正类预测为负类的样本数。
2 结果
2.1 实验结果
在1.3节实验条件下,绘制了模型分别在两个数据集的训练集1和验证集上的分类准确率随训练过程的变化曲线(
图8)。
为验证模型结构的有效性及评估TemporalSE模块的性能和空间分布对模型的影响,本文设计了对比实验(
表3)。实验结果显示,在两个数据集上,ResLSTM-TemporalSE模型均能取得较好的分类效果,TemporalSE模块在模型中的全局分布(而非局限于单个ResBlock输出层或最终ResLayer输出层),能够有效捕捉ECG信号时序特征,显著提升分类性能。本研究针对变体模型在CPSC2018数据集中各类别ECG信号分类任务中的表现进行了F1值评估(
图9)。
2.2 ResLSTM-TemporalSE与其他分类模型性能比较
在相同实验条件下,将本模型与其他现有ECG信号分类模型在两个数据集上进行性能对比,模型整体取得较好结果(
表4)。实验结果表明,ResLSTM-TemporalSE模型取得较优分类性能,这一结果验证了模型的有效性,在进行ECG分类任务时能够更好地捕捉数据的特征。
2.3 消融实验
为评估ResLSTM-TemporalSE网络中各模块的贡献及其对分类性能的影响,本文在1.3节实验条件下针对两个数据集进行了消融实验(
表5)。在CPSC2018数据集上,本文提出的模型综合表现最佳,取得了最高的准确率99.70%、精确率0.9966和F1分数0.9653,相比基线ResNet的96.65%准确率提升显著。加入SE模块的ResNet-SE和ResLSTM-SE模型也展现了优越性能。然而,在更具挑战性的私有数据集上,模型性能普遍下降,本文模型仍以最高准确率82.77%和F1分数0.7723领先。
3 讨论
心血管疾病作为全球主要的健康威胁之一,其早期诊断具有重要意义。ECG作为一种非侵入性检测技术,能够有效记录心脏电活动,为疾病诊断提供重要依据。但传统人工ECG分析存在效率低、主观性强等局限性。针对这一问题,本文提出了一种基于ResLSTM-TemporalSE神经网络的12导联ECG信号自动分类方法,该模型整合残差连接、LSTM和TemporalSE模块的优势,能够有效识别CPSC2018数据集中的正常及8种异常心电信号类型并在私有数据集上进行验证取得了较好效果。
在模型训练之前,针对CPSC2018数据集ECG信号进行数据分割,解决信号不等长问题,同时针对两个数据集使用SMOTE过采样技术改善数据集类别不平衡问题。融合LSTM的ResNet网络在获取ECG信号时序特征的同时改善了深度神经网络中可能出现的梯度消失问题,TemporalSE模块通过结合时序信息和通道注意力机制,使模型更聚焦于关键时序特征,提升模型对ECG信号的分类精度和鲁棒性。
本文提出的ResLSTM-TemporalSE模型在ECG信号分类任务中表现出卓越性能。在CPSC2018数据集上,该模型的分类准确率达到99.70%,精确度、召回率和F1值分别达到了0.9966、0.9370和0.9653,展现了出色的分类性能;在私有数据集上,该模型的分类准确率达到82.77%,精确度、召回率和F1值分别达到了0.6811、0.8961和0.7723,虽然模型在私有数据集上整体分类性能较CPSC2018数据集有所下降,但综合F1值体现了模型在新场景下具备稳健的分类能力。同时将本实验提出的模型与两种变体模型(仅在每个ResLayer层输出后添加TemporalSE模块和仅在最后的ResLayer层输出后添加TemporalSE模块)进行性能对比分析,两个数据集的实验结果均表明相较于仅在网络末端引入TemporalSE模块的简化设计,采用多层次TemporalSE模块增强在各评价指标均得到显著提升。通过消融实验验证了各模块的贡献,在CPSC2018数据集中,模型以99.70%的准确率、0.9966精准度与0.9653 F1值取得最优结果,较次优模型(ResLSTM-SE)准确率提升了0.08个百分点、F1值提升了0.0029,验证了时序注意力机制对ECG信号特征提取的有效性;同时,引入SE模块的变体模型(ResNet-SE和ResLSTM-SE)相较基础网络准确率均有所提升,验证了SE模块的有效性。在反应真实场景的私有数据集中,本文模型仍以82.77%准确率与0.7723 F1值保持领先。在对比实验中,本文模型在CPSC2018和私有数据集上均展现出最优性能:CPSC2018中,以99.70%准确率(超Hwang等
[35]的99.51%)和0.9653 F1值达到当前最优;在私有数据集上,模型以82.77%准确率(超Zhang等
[34]的80.36%)和0.8961召回率(相较于Zhang等
[34]的0.8396提升6.65%)显著降低漏诊风险,其0.7723 F1值保持最优结果(超越Zhang等
[34]的0.7674)。模型跨域衰减率仅19.9%(F1值),远低于Ribeiro等
[33]模型的63.9%,证实其卓越的临床鲁棒性,为心电的自动分类提供可靠解决方案。
本研究提出的ResLSTM-TemporalSE模型专注于12导联ECG信号的自动分类。12导联ECG信号能够全方位地反映心脏电活动,其中一些导联对于某些异常心电图具有关键诊断价值
[20],为充分利用这一优势,本模型LSTM层的基础上增加残差连接结构,关注ECG信号时序特性的同时关注跨通道的关联性,TemporalSE模块能够有效融合ECG信号中不同时间尺度的特征信息并为特征通道分配权重,增强重要通道的特征表达能力,并抑制冗余信息干扰,提升模型对ECG信号的特征提取能力和分类性能。
尽管本文提出的模型在对两个数据集的分类任务中取得了一定效果,但该模型仍存在一定的局限性。首先,作为一种端到端的深度学习模型,难以直观理解模型的决策依据。为阐明模型的决策依据,在后续工作中尝试将LSTM状态轨迹与ECG波形叠加进行可视化,将关键维度的和值随时间变化的曲线与原始ECG信号在同一时间轴,通过视觉对比验证状态拐点或跃迁与临床事件的时序关联性,或通过注意力机制直接生成热力图覆盖于对应的ECG波形,标识模型决策所依赖的关键时间片段。其次,该模型采用多层残差连接结构和时序注意力机制,虽提升特征提取能力,但导致模型计算复杂度较高。后续尝试压缩模型(如剪枝、量化、知识蒸馏)等方法优化网络架构,提高计算效率。目前,模型的训练和评估依赖于CPSC2018公开数据集和由南方医科大学第七附属医院采集的私有数据集,数据来源的多样性和代表性相对有限。未来工作将模型应用于更多样化的公开和私有数据集,进行更全面的跨中心、跨设备验证,进一步评估和提升模型的鲁棒性和普适性。
综上所述,本文提出的ResLSTM-TemporalSE模型在ECG信号分类中取得了优异的表现。该模型通过深度融合残差结构、长短期记忆网络和时序注意力机制,显著提升了ECG信号的特征提取能力和时序建模效果,从而实现了高精度的分类性能。尽管仍存在一些局限性,但该模型为心电信号自动分类提供了有效的解决方案,具有广阔的应用前景。
国家重点研发计划项目“柔性穿戴式医疗器械测试与评价装置开发”(2023YFC2414502)
广州市重点研发计划农业和社会发展科技专题项目“基于知识图谱的自主AI判图心电检测技术与心电数据库的研发”(2023B03J1337)