PDF
摘要
针对远程光电容积描记法(rPPG)在非接触式血氧饱和度(SpO2)测量中存在的时空特征建模不足以及复杂场景下鲁棒性差的挑战,提出了一种趋势感知时空融合网络(trend-aware spatio-temporal fusion network, TAST-Net).该网络通过一个创新的双路融合架构,将3D卷积神经网络(3D CNN)分支提取的局部生理特征与ViViT(video vision transformer)分支捕捉的全局时空依赖进行协同融合.为增强模型对信号动态变化的敏感性,设计了一种结合均方误差与皮尔逊相关性损失的加权组合损失函数.在2个公开数据集上的实验结果表明,TAST-Net表现出优秀的性能:在PURE(pulse rate estimation)数据集上均方根误差(eRMS)为0.53%,平均绝对误差(eMA)为0.37%,皮尔逊相关系数(R)为0.96;在更具挑战性的VIPL-HR(visual information processing and learning-heart rate)数据集上,eRMS为0.84%,eMA为0.57%,R为0.82,其综合性能优于其他对比方法 .研究结果表明,TAST-Net为从面部视频中实现准确、稳健的SpO2估计提供了一个有效的方案,并验证了融合局部与全局特征策略在rPPG信号处理中的有效性.
关键词
远程光电容积描记法
/
深度学习
/
非接触
/
血氧饱和度估计
/
面部视频
Key words
基于面部视频的非接触式血氧饱和度估计方法[J].
东北大学学报(自然科学版), 2026, 47(1): 42-51 DOI: