基于多尺度注意力与特征融合的行人重识别方法研究

吴宇森; 于宝华; 荣江; 张数

doi:10.13880/j.cnki.65-1174/n.2025.23.004

石河子大学学报（自然科学版） ›› 2025, Vol. 43 ›› Issue (01) : 122 -132. DOI: 10.13880/j.cnki.65-1174/n.2025.23.004

基于多尺度注意力与特征融合的行人重识别方法研究

吴宇森, 于宝华, 荣江, 张数

作者信息 +

Author information +

文章历史 +

PDF

摘要

行人重识别又称行人再识别,是一种在跨摄像头环境下识别相同行人的技术。目前,由于行人姿势变化、灯光角度、障碍遮挡等问题影响,导致现有方法提取行人特征受到干扰较大,影响识别效果。针对该问题,提出将NFormer嵌入主干网络的不同层级,构建多尺度注意力模块(Multi-Scale Attention-NFormer, MSAN),提取细节丰富的底层特征与表征能力强的高层特征进行融合;提出结合可学习视觉中心与多层感知器,构建了基于可学习视觉中心与多层感知器的特征融合模块(Feature Fusion with Learnable Visual Centers and Multilayer Perceptron, FFLM),提取关联位置信息的局部特征与长距离依赖的全局特征,并将其融合获取更具辨别性的特征表达。为了使主干网络与头部网络更适用于特征融合任务,对ResNet50的激活函数和搭建架构进行改进,保留了更丰富的特征信息;在头部网络添加BN层和GeM池化,缓解了损失函数优化方向不同步的问题。实验结果表明,所提方法在Market-1501和DukeMTMC-reID数据集上的首位命中率分别达到了95.8%、90.2%,平均精度均值为93.0%、84.7%,所提取的特征更具有判别性,识别率更高。