帕金森病(Parkinson’s disease,PD)是最常见的神经退行性疾病,我国65岁以上老年人群中帕金森病的患病率约为1.7%,80岁以上超过4%
[1]。特发性震颤(essential tremor,ET)是发病率最高的运动障碍疾病,其发病率随年龄增长而增加,在65岁以上老年人群中达到5.79%
[2]。PD主要以静止性震颤为主,ET主要以运动性震颤为主,两者症状存在一定的重叠性,如震颤和步态异常,因此在鉴别诊断上较为困难。目前对这两种疾病的诊断主要依赖神经科医师通过临床评定量表进行面对面评估,这种方法主观性强、耗时长且复杂
[3]。一项研究报告显示,约1/3的PD患者被误诊为ET,导致这些患者未能及时接受适当的治疗
[4]。
为了克服传统诊断方法的不足,基于传感器的智能诊断方法应运而生
[5]。此类方法利用人工智能对患者的运动数据进行分析,从而提取肢体的运动学特征,实现对运动障碍疾病的客观、准确诊断和评估,目前已有不少基于可穿戴设备对PD和ET进行诊断和鉴别的研究
[6-7]。基于视频的鉴别诊断技术无需任何特殊设备,仅通过电脑或智能手机摄像头即可实现远程、无接触、无创诊断
[5]。由于基于视频的方法相比可穿戴传感器更难提取运动特征,同时模型性能对结果的影响较大,目前相关研究较少且准确度低
[8-9]。本研究旨在开发一种基于上肢运动视频分析的智能诊断方法,结合人体姿态估计与深度学习技术,实现PD与ET的高效鉴别,克服传统方法的局限性,提升诊断准确性与临床应用可行性。
1 对象与方法
1.1 研究对象
收集2021年11月19日— 2024年1月16日在解放军总医院门诊就诊的患者。纳入标准:(1)PD患者符合UK脑库PD临床诊断标准,包括运动减少、至少1个附加症状(肌肉强直、静止性震颤或直立不稳),以及3个或以上确诊标准(如单侧起病、存在静止性震颤、疾病逐渐进展等);(2)ET患者符合美国运动障碍学会及世界震颤研究组织提出的ET诊断标准,包括核心诊断标准(如双手及前臂动作性震颤、不伴有其他神经系统体征等)和次要诊断标准(如病程超过3年、有家族史等);(3)有能力并愿意参加所有研究访视;(4)无认知障碍,能够在治疗期间与医师沟通感受;(5)无重度焦虑、抑郁;无严重心血管疾病、脑血管疾病。本研究已获得解放军总医院伦理委员会批准(S2018-021-00/01),所有受试者均签署知情同意书。
1.2 视频任务选择与设计
参考国际帕金森与运动障碍震颤工作组撰写的关于震颤分类的共识声明
[10],选用临床评估PD最常用的统一帕金森病评定量表(Unified Parkinson's Disease Rating Scale,UPDRS)
[11]和评估ET最常用的Fahn-Tolosa-Marin震颤评定量表(Fahn-Tolosa-Marin Tremor Rating Scale,FTM-TRS)
[12]作为任务设计依据。通过总结UPDRS量表的第3部分(运动功能评估)和FTM-TRS量表中与震颤评估相关的运动任务,我们最终选择了两个量表中均包含的3种上肢运动任务进行视频采集,即双手动作性震颤(手指指鼻)、双手前臂回旋运动(翻手掌)、双手手掌运动(握拳张开),见
图1。受试者的视频数据在神经科医师的指导下采集。受试者以舒适的姿势坐在椅子上,并根据FTM-CRST量表的标准,在神经科医师的引导下执行上述3种运动任务。采集过程通过小米平板的后置摄像头全程记录。最终,从上述3种任务中共收集到1 136个视频(视频分辨率为1 920×1 080,帧率为30 fps,格式为mp4)。
1.3 软件环境及研究框架
采用AMD Ryzen 9 5950X CPU和NVIDIA GeForce RTX 3090 GPU进行数据处理、模型训练与测试。使用PyTorch 2.5.1和CUDA 12.4进行深度学习模型的训练与推理,并基于MMPose 1.2.0框架对人体姿态估计模型提取PD与ET患者在运动任务视频中手腕和手指的关键点坐标,生成手部运动的关键点序列及统计学特征。采用基于Transformer架构的时间序列预测与分类模型对这些关键点序列进行分类分析。模型架构见
图2。
1.4 手部关键点坐标序列和运动特征提取
我们调研了多种人体姿态估计方法(Paddle Detection
[13]、AlphaPose
[14]、MMPose
[15])与不同的检测器(YOLOv3
[16]、Faster-RCNN
[17]和RTMDet
[18])结合的姿态估计性能,经过比较,我们发现基于MMPose框架的RTMPose(Real-Time Multi-Person Pose Estimation based on MMPose)模型
[19]在平衡模型性能和复杂性方面表现最佳,并显示出较强的检测鲁棒性。
最终我们选取效果最佳的RTMPose模型应用于患者的运动任务视频进行人体姿态估计,并提取视频中每1帧图像的人体关键点坐标。对所选择的3种评估运动任务——双手动作性震颤(手指指鼻)、双手手掌运动(握拳张开)和双手前臂回旋运动(翻手掌),分别以左手和右手作为评估对象,对视频中的每1帧图像进行全身姿态估计并提取目标手的手腕和手指关键点坐标,形成共计8组手部关键点坐标序列,每组坐标序列的维度为6(分别代表手腕和5个手指的坐标),输出结果见
图3。接下来,对于其中的每组坐标序列,我们将RTMPose-L模型输出的绝对坐标转换为相对坐标,即每个手部关键点的坐标减去其在第1帧中的坐标,得到表示位移的相对坐标。使用得到的相对坐标序列,计算速度、加速度、振幅、频率和熵5种坐标序列上的统计特征,并将坐标序列与从坐标序列上得到的统计特征保存,作为下一步特征提取和分析的输入。见
图3。
1.5 手部关键点坐标序列分类
我们采用PatchTST (Patch Time Series Trans- former)模型
[20]对手部关键点坐标序列进行分类。用于分类的PatchTST模型首先将输入序列划分为多个长度为P的补丁块,通过Transformer的编码器对每个输入补丁进行特征提取并输出补丁预测,最后将输出结果展平为一维向量,并通过全连接层进行PD与ET的分类。
我们采用五折交叉验证将所有手部关键点坐标序列按患者编号分组,每组中的坐标序列来自同一患者,然后将这些分组划分为5个互斥的子集,每次使用其中4个子集作为训练集,剩余1个子集作为验证集,重复5次,每次使用不同的验证集进行训练与测试。
1.6 模型性能对比设置
为了进一步验证本研究方法的有效性,我们选择了基于Transformer架构的时间序列分类模型PatchTST,Kovalenko等
[8]、Hayashida等
[9]使用的逻辑回归、XGBoost、随机森林和支持向量机模型,以及常用的长短期记忆网络模型(long short-term memory,LSTM)和Informer模型,进行对比分析,并计算准确率(accuracy,ACC)、曲线下面积(area under curve,AUC)、F1值(F1 Score)评估模型的分类性能。
2 结果
2.1 受试者信息
截至2024年1月16日,共纳入PD患者14例,ET患者63例。其中PD组包含男性10例,女性4例,平均年龄(68±7)岁(范围:53 ~ 78岁),中位年龄68(IQR:67 ~ 74)岁,视频数据量(mp4) 553。ET组包含男性46例,女性17例,平均年龄(64±9)岁(范围:30 ~ 80岁),中位年龄66(IQR:61 ~ 70)岁,视频数据量(mp4) 583。
2.2 模型鉴别性能
本研究通过五折交叉验证评估了不同特征组合与模型在3种上肢运动任务中的分类性能。结果显示,基于Transformer架构的PatchTST模型在融合手部关键点坐标序列与统计学运动特征时表现最优。尤其在双手动作性震颤(手指指鼻)任务中显著优于其他模型。见
表1 ~
表4。
在双手动作性震颤(手指指鼻)任务中,PatchTST模型在融合手部关键点坐标序列与统计学运动特征组合下的性能最佳,较传统机器学习模型提升超过12%。对比基线实验发现,传统机器学习模型如逻辑回归、支持向量机(Support Vector Machine,SVM)在处理高维时序数据时性能受限,而LSTM因梯度问题表现最差。对3种运动任务的模型性能结果分析发现,双手动作性震颤(手指指鼻)任务因动作简单且震颤特征显著,模型整体性能最佳。前臂回旋运动(翻手掌)任务的患者姿态变异性大,导致模型性能下降。
通过分析发现,基于x、y坐标的手部关键点序列特征直接反映手部运动轨迹的时空动态,但缺乏对运动特性的量化描述,统计学运动特征(速度、加速度、振幅、频率和熵)的动态指标信息密度较低。两者均低于其在关键点坐标序列与统计学运动特征组合下的准确度,说明单一统计特征难以表征复杂运动模式。而手部关键点坐标序列与统计学运动特征结合时,融合了时空轨迹与动态特性,模型的分类效果最佳。
2.3 PatchTST模型性能的可视化
我们绘制了PatchTST模型在3种运动任务中融合手部关键点坐标序列与统计学运动特征的混淆矩阵和ROC曲线,见
图4。结果显示,模型在双手动作性震颤(手指指鼻)任务中表现出色,混淆矩阵显示分类准确率较高,误分类样本较少。ROC曲线的AUC值接近1,在不同阈值下具有良好的区分能力。各折线的AUC值均较高,表明模型在不同数据子集上的表现稳定。双手前臂回旋运动(翻手掌)任务中混淆矩阵显示50个假阳性以及40个假阴性。与动作性震颤任务相比,这一任务的分类表现略逊一筹,假阳性数量较高。ROC曲线不同折的AUC值范围0.764 ~ 0.934,各折线的AUC值存在一定的波动,模型在不同数据子集上的表现不够稳定,但平均值仍达到了0.816。双手手掌运动(握拳张开)任务中的模型表现良好,预测和实际值的分布合理,具有较高的分类准确率。
3 讨论
本研究提出了一种基于视频分析的智能诊断框架,通过融合人体姿态估计与深度学习,实现了PD与ET的客观精准鉴别诊断,在双手动作性震颤任务中AUC达到了0.957。相较于传统依赖主观量表或可穿戴设备的鉴别方法,该方案仅需普通摄像头即可捕捉患者上肢运动特征,在提升诊断客观性的同时降低了技术门槛。
目前PD与ET的鉴别主要依赖神经科医师对临床症状的主观评估(如UPDRS、FTM-TRS等),该过程依赖较强的经验与培训背景,量表间重测信度和评分者间一致性有限。此外,某些症状如姿势性震颤或起始动作迟缓在两类疾病中均有表现,进一步增加了临床判断的困难。尽管近年来可穿戴设备(如惯性测量单元IMU)在识别运动障碍方面展现出一定潜力,但其设备成本、使用依从性以及对患者日常行为的干扰仍是主要限制。英国国家健康与护理卓越研究所NICE 2023年指南已明确推荐可穿戴技术用于PD监测
[21],而本研究通过非接触式视频分析进一步拓展了这一方向的应用场景,尤其适用于医疗资源匮乏地区或行动不便的老年患者。
截至2025年2月10日,我们在Web of Science、EI、PubMed等多个数据库检索了以PD与ET视频鉴别诊断为主题的相关研究,最终仅筛选出2篇基于视频对PD和ET进行鉴别的研究。现有研究在数据采集与模型泛化性上面临显著挑战。如Hayashida等
[9]要求患者在绿幕前保持30 cm的距离拍摄,其复杂操作流程严重限制临床推广,且单一任务设计导致分类准确率仅为0.56;Kovalenko等
[8]采用OpenPose框架提取关键点,尽管在低端设备上兼容性较好,但其算法精度与模型灵活性(如检测器不可调整)已落后于最新技术。这些研究多数采用静态图像或有限动作片段,忽略了震颤节律和动作序列的时间依赖性,对震颤频率、幅度及波动性的建模能力有限,因此无法有效表征PD与ET在运动控制机制上的核心差异。
本研究通过RTMPose-L模型实现高精度关键点检测,并创新性地将手部关键点坐标转换为相对位移、速度、加速度及运动熵等多维度时序特征。结合PatchTST模型的自注意力机制,系统可有效捕捉震颤节律异常和运动协调性障碍的长程依赖关系,最终在指鼻试验任务中达到0.917的准确率与0.957的AUC,较Kovalenko等
[8]报告的0.770的准确率提升19%。本研究设计了3种标准化上肢运动任务(指鼻试验、握拳张开、前臂旋前旋后),通过多任务特征融合增强模型对异质性症状的识别能力。研究结果表明,即便在计算资源受限的场景下,XGBoost模型仍能在握拳张开任务中维持0.883的准确率。此外,基于关键点坐标的分析策略规避了背景、光照或服装等混杂因素的干扰,无需特殊拍摄设备即可保证结果稳定性,较传统视频分析方法更具普适性,提高了基于该方法的设备在基层医疗机构落地的可行性。
此外,本研究也有一定的局限性。当前研究受限于PD患者样本量,未对震颤主导型与非震颤亚型进行分层分析。未来工作将联合神经科医师构建更大规模的多中心数据集,并探索可解释性AI技术(如注意力权重可视化与震颤频谱分析相结合的策略),以增强诊断透明度和亚型鉴别能力。
综上,本研究已验证基于普通视频的运动分析技术在PD/ET鉴别中的可行性,弥补了现有主观量表及可穿戴技术在临床应用中的缺陷,为运动障碍疾病的远程化、标准化评估提供了新范式。
数据共享声明 本研究相关数据可根据合理要求,通过联系通信作者获取。