Gait-ViT:基于Vision Transformer的跨视角步态识别方法

沈澍; 王森; 黄苏岩; 张秉睿

doi:10.20009/j.cnki.21-1106/TP.2025-0058

小型微型计算机系统 ›› 2026, Vol. 47 ›› Issue (3) : 646 -652. DOI: 10.20009/j.cnki.21-1106/TP.2025-0058

Gait-ViT:基于Vision Transformer的跨视角步态识别方法

沈澍, 王森, 黄苏岩, 张秉睿

作者信息 +

Author information +

文章历史 +

PDF

摘要

步态识别作为一种远程生物特征识别技术，在医疗康复、刑侦侦查及社会治安等领域展现出广泛的应用前景.近年来，随着深度学习的快速发展，步态识别方法逐渐从传统的卷积神经网络(Convolutional Neural Network, CNN)转向更为先进的Transformer架构.尽管CNN在图像处理任务中表现优异，但其对图像关键区域的关注能力有限，而注意力机制则能够通过聚焦图像局部区域来学习更具判别性的特征.为此，本文提出了一种融合注意力机制的Vision Transformer模型(Gait-ViT)用于步态识别，该方法首先将步态轮廓划分成多个小块并转化成块序列；然后通过位置嵌入和类嵌入对序列中的位置信息进行重新排列和编码；最后，将向量序列反馈给Vision Transformer进行预测.Gait-ViT模型在CASIA-B和OU-MVLP两个公开步态数据集上分别取得了98.1%和91.2%的识别准确率，验证了所提模型的有效性.