基于特征融合的视频行人重识别算法

宋京浩 ,  姬晓飞 ,  孙英超 ,  王竹筠

沈阳航空航天大学学报 ›› 2025, Vol. 42 ›› Issue (3) : 51 -57.

PDF (1292KB)
沈阳航空航天大学学报 ›› 2025, Vol. 42 ›› Issue (3) : 51 -57. DOI: 10.3969/j.issn.2095-1248.2025.03.007
信息科学与工程

基于特征融合的视频行人重识别算法

作者信息 +

Video person re-identification algorithm based on feature fusion

Author information +
文章历史 +
PDF (1322K)

摘要

视频行人重识别是一种在多摄像机监控网络中识别特定行人的技术。相较于基于单帧图像的方法,该类算法可以提供更多的行人信息,但也存在着模型复杂、构建特征不对齐等问题。提出一种基于特征融合的视频行人重识别算法,算法包含全局分支和空间变换的局部分支。全局分支提取行人的全局特征,捕捉行人的粗粒度信息和整体的上下文信息。空间变换的局部分支将空间变换矩阵插入局部分支,对特征进行重新学习,学习有区分性的局部区域特性并缓解特征不对齐的问题。通过多分支结构,将局部特征和全局特征有效融合,并通过时间平均池化聚合特征加强特征的多元化,增强模型的鲁棒性。最终,利用交叉熵和软边界三元损失进行模型训练。在Mars 和 DukeMTMC-Video 数据集上的测试结果验证了所提算法的可行性,其在 Mars数据集的 mAP、Rank-1 分别达到82.25%、89.76%,具有较好的实用性。

Abstract

Video person re-identification is a technology for identifying specific person in a multi-camera surveillance network. Compared to the methods based on single-frame images, this type of algorithms can provide more person information, but it also has issues such as model complexity and misalignment in constructing features. To address those issues, a feature fusion-based video person re-identification algorithm was proposed. The proposed algorithm included a global branch and a local branch with spatial transformation. The global branch extracted the global features of person, capturing coarse-grained information and overall contextual information of the person. The local branch with spatial transformation integrated a spatial transformation matrix into the local branch to learn discriminative local regional features and alleviating the issue of feature misalignment. By utilizing a multi-branch structure, the algorithm fused local and global features and aggregated features through temporal average pooling to enhance the diversity of features and improve the robustness of the model. Finally, the model was trained using cross-entropy and a soft boundary triplet loss. The test results on the Mars and DukeMTMC-Video datasets have verified the feasibility of the proposed algorithm. Specifically, the Mars dataset achieves mAP and Rank-1 accuracies of 82.25% and 89.76% respectively, demonstrating excellent practicality.

Graphical abstract

关键词

行人重识别 / 深度学习 / 多损失函数 / 多分支结构 / 特征融合

Key words

person re-identification / deep learning / multi-loss function / multi-branch structure / feature fusion

引用本文

引用格式 ▾
宋京浩,姬晓飞,孙英超,王竹筠. 基于特征融合的视频行人重识别算法[J]. 沈阳航空航天大学学报, 2025, 42(3): 51-57 DOI:10.3969/j.issn.2095-1248.2025.03.007

登录浏览全文

4963

注册一个新账户 忘记密码

行人重识别也称行人再识别1,旨在将人物图像/视频在两个或更多非重叠摄像头视图之间进行匹配的任务。行人重识别在智能监控2、人员活动分析3等领域有巨大的发展潜力,引起了学者的广泛关注。
行人重识别分为基于图像的行人重识别和基于视频的行人重识别,提取一个鲁棒性强且辨识度高的特征对行人重识别的研究具有重要意义。基于图像的行人重识别专注于提取行人的整体信息。Zhou等4提出了一种针对行人重识别任务设计的全尺度卷积神经网络(omni-scale network,OSNet),该网络可以学习全尺度特征,其同时使用点卷积和深度卷积代替标准卷积,极大程度地降低了参数量,并取得了不低于残差网络(residual network,Resnet)5的性能,但该方法仅考虑了行人的整体信息表示,因此易受遮挡、姿势变化、背景复杂等因素的影响。Li等6提出了和谐注意力卷积神经网络(harmonious attention convolutional neural network,HA-CNN),使用一个全局分支和一个局部分支同时训练网络,全局网络使用Inception7网络提取全局特征,局部分支使用多分支结构,利用注意力机制对不同的感兴趣区域重新学习。该方法充分利用了全局信息和局部信息的互补性,取得了很好的效果。基于图像的行人重识别算法相对简单且容易实现,但其仅关注单帧图像,获取的信息有限且缺乏时空信息,识别的准确率难以进一步提高。
基于视频的行人重识别方法通过提取帧级特征,并将多个帧级特征进行聚合,得到含有时空信息的行人特征。Li等8提出了一个双流卷积网络,通过将多个多尺度3D(multi-scale 3D,M3D)卷积层插入到2D CNN网络中构建一个新颖的多尺度3D网络,用2D卷积神经网络对空间特征进行提取,通过注意力层和多尺度3D卷积对时间特征进行提取,将学习到的空间与时间表示相结合作为最终的特征,然而这种方法未考虑特征对齐的问题。为解决这个问题,一些学者利用姿态估计或分割技术,使网络集中关注主体,避免从背景中提取嘈杂信息。如Suh等9使用OpenPose模型将基于部位的特征用于行人重识别。Ristani等10使用基于全卷积网络(fully convolutional network,FCN)的预训练分割模型来分割行人主体用于行人重识别。二者使用姿势估计和分割技术,使网络关注主体,并避免从背景中提取特征,以此解决特征不对齐问题。但这些方法引入了额外的网络模型,使本来就复杂的行人重识别网络更加复杂,无法满足实际应用的需求。
基于视频的行人重识别算法提升了行人重识别的准确性,但这类算法也存在着模型复杂且计算量大、没有很好地将局部和全局信息进行融合、特征不对齐等一系列问题。为此,本文提出一种基于特征融合的视频行人重识别算法。该算法主要包括全局和局部两个分支,全局分支通过轻量级的OSNet网络提取行人的全局特征图,提取行人的整体信息,并引入全局上下文(global context,GC)注意力11模块和改进的正交融合模块12,分别对全局上下文信息和网络输出全局特征进行增强。局部分支使用区域注意力和空间变换矩阵相结合的方法,对行人感兴趣区域进行重新学习,再送入GC模块和正交融合模块,对学习得到的特征进行增强,进一步解决特征不对齐的问题。该算法使用轻量化网络降低了模型的复杂性,采用全局与局部特征相结合的策略进行行人重识别,实现全局特征与局部特征互补利用。本文对所提方法在公开的Mars和 DukeMTMC-Video数据集上测试了其可行性。实验结果表明,该算法有效提高了行人重识别的准确性。

1 行人重识别算法总体设计

本文的网络模型主要包括全局分支和局部分支,算法整体框图如图1所示。具体处理步骤如下:

1)视频数据处理。由于基于视频的行人重识别数据中相邻的数据在姿态上没有太大变化,特征聚合会存在大量冗余信息,为此在特征提取之前采用限制性随机采样(restricted random sampling,RRS),对数据集每间隔8帧进行采样,并把每8帧中的第一帧作为该组的代表。

2)全局分支处理。将输入图片送入主干网络进行特征提取,之后经过Conv5层进行处理,将Conv5层得到的特征通过GC注意力模块增强特征全局上下文之间的联系,并将其与Conv4层输出特征进行正交融合,得到更丰富、更具细节的行人全局特征。

3)局部分支处理。将Conv5层提取的特征经过tanh 缩放,再进行维度重新转化,使网络关注4个不同区域的特征,并为每个特征插入可学习的空间变换矩阵,之后将这4个特征分别与Conv4层输出的特征相加来丰富相应的局部特征,并通过OSblock块进行卷积操作,借此学习高度和宽度的变换,从而获得4个既关注不同区域又能够对齐的局部特征。

2 特征融合网络结构及实现

2.1 全局分支

本文采用的OSNet是专为行人重识别搭建的,使用深度可分离卷积取代标准卷积大量降低了计算量,引入残差模块减少了过拟合的风险,通过统一聚合门进行自适应聚合,得到多尺度特征,取得了与ResNet相近的性能。全局分支中,输入图片首先经过backbone后获得维度为16×8×512的特征图,之后通过GC注意力模块捕获全局上下文信息,增强网络输出的能力。同时因为OSNet的Conv5层对特征进行降维造成了细节的损失,为此引入了改进的正交融合模块,利用Conv4层的特征对经过GC注意力模块增强的特征再增强,补充Conv5因降维而损失的细节信息,输出更丰富的特征表示。

2.2 基于区域注意力引导的局部分支

基于区域注意力引导的局部分支对全局特征进行操作,通过区域注意力强制学习其在每个输入中潜在的T个判别性区域/部位。该方法通过学习一个转换矩阵建模为

Al=h0x0wy

该矩阵通过改变两个比例因子(hw)和空间位置(xy)进行图像裁剪、平移和各向同性缩放操作。为了限制模型的复杂性,采用固定hw预定义区域大小,有效建模部分为xy,输出维度为2T。利用简单的通道注意力将OSNet第5层输出作为输入,以进一步减小参数值,并对其执行tanh 缩放,将区域位置参数转换为百分比,以便允许将单个区域定位到输入图像边界之外,然后将其维度重新排列为2×T×C。之后分别为每个区域插入转移矩阵并使用全局特征来丰富这些局部特征,使其能够通过简单的卷积来学习这种变换关系,并通过GC注意力进一步增强学习,通过改进的正交融合模块使其与全局特征相互促进,提高模型的表达能力。

2.3 GC 注意力模块

GC注意力是全局注意力的一种,通过全局注意力图对所有位置的特征加权平均,并将上下文信息聚合到每个特征中,捕捉并整合全局信息。GC注意力机制如图2所示。

首先,采用1×1卷积和softmax函数获得注意力权重并通过注意力池化得到全局上下文特征;然后,依次经过一个1×1卷积、一个ReLU、一个1×1卷积计算每个通道的重要性;最后,逐个元素相加,将全局上下文特征聚合到每个元素的特征中。

2.4 改进的正交融合模块

正交融合模块通过正交化处理来确保融合后的特征向量保持最大的独立性,从而增强模型的表征能力。但其只能进行全局特征和局部特征的融合,为此对其进行改进,增加对不同层次特征的融合,改进的正交融合模块如图3所示。

为有效地融合特征,Conv5输出特征经过平均池化、线性层得到特征向量 Fg,然后与需要融合的且经过均值池化的特征向量 Fl送入改进的正交融合模块。该模块首先计算特征向量 Fl在特征向量 Fg上的投影,之后利用 Fl减去其在 Fg上的投影分量,得到与 Fg不相关的垂直分量,将其通过Gem池化后与 Fg进行拼接,在增强特征表达能力的同时,减少了冗余信息的融合。

2.5 损失函数

为了增强模型的辨识能力,采用交叉熵损失和软边界三元组损失对网络进行约束。在本文中,交叉熵损失定义为

LCE=-i=1Nqilog2piqi=0,niqi=1,n=i

式中:N为训练数据中行人总类别数;n为行人的标签;L为正确匹配行人ID的可能性。

软边界三元组损失公式为

Ltriplet=i=1Pa=1Ka+maxp=1,2,,kxa(i)-xp(i)2-maxn=1,2,,Kj=1,2,,Pjixa(i)-xn(j)2+

式中:xa(i)为当前得到的特征向量;xp(i)为正样本的特征向量;xn(i)为负样本的特征向量;α为超参数。

网络总损失函数为

L=Lglobal+λLlocal+LCE

式中:Lglobal为全局分支损失函数;Llocal为局部分支损失函数。二者均使用软边界三元组损失,LCE为交叉熵损失;λ根据经验设置为1。

3 实验结果

3.1 数据集

为了验证该算法的有效性,使用视频行人重识别中公开的Mars、DukeMTMC-VideoReID数据集进行实验。

1)Mars数据集是由香港中文大学发布的一个提供更具挑战性场景的数据集,是视频行人重识别研究的一个常用数据集。该数据集包含1 261个行人身份的17 503条轨迹,另有3 248条干扰轨迹。

2)DukeMTMC-VideoReID数据集是Duke大学提供的一个用于行人重识别的视频数据集。该数据集包含702个行人身份的2 196条轨迹用于训练,702个行人身份的2 636条轨迹用于测试,另有408个行人身份作为干扰数据。

3.2 实验设置

实验使用Python语言和PyTorch框架实现,在具有NVIDIA GeForce RTX3060 12G的机器上进行。在训练过程中,每个视频由采样后的5帧组成,每帧的高度为256,宽度为128。在被传递到网络之前,图像使用ImageNet的RGB均值和标准差进行归一化。网络使用adaw优化器进行训练,权重的衰减率为0.000 5。训练次数设置为200,初始学习率设置为2×10-4,每隔50个epoch,衰减为原来的1/10。

3.3 消融实验

为验证本文算法的有效性,在Mars数据集上进行了验证测试,各模块消融实验测试结果如表1所示。加入GC模块后,Rank-1和mAP分别提升1.27%和1.59%;加入改进的正交融合后分别提升1.82%和1.43%;二者都加入后Rank-1和mAP分别提升2.88%和1.49%。从实验结果可以看出,GC模块增强了特征的全局上下文信息,改进的正交融合模块增强了特征捕获细节信息的能力,提高了模型的表达能力。

不同分支消融实验结果如表2所示。全局与局部分支相结合比只使用全局分支的Rank-1和mAP分别提升0.16%和0.15%,证明局部分支特征与全局分支特征具有一定的互补性,全局分支和局部分支的联合是有效的,学习到的整体轮廓信息和局部细粒度特征信息丰富了特征的表达能力,同时对空间变换矩阵进行学习,解决了特征不对齐的问题,提升了网络的识别能力和准确度。

3.4 与其他方法对比

为了验证算法的有效性,在Mars数据集和DukeMTMC-VideoReID数据集上与其他先进的方法进行比较,对比结果如表3所示。对比的算法包括M3D、VRSTC13、COSAM14、STA15、DPRN16等。由表3可知,本文提出的轻量化模型在Mars数据集上的Rank-1和mAP分别为89.76% 和80.25%,超越了大部分方法,显示了其优越性。在DukeMTMC-VideoReID数据集,本文算法的Rank-1和mAP分别为95.53% 和93.13%,达到与其他方法相近的结果,验证了本算法的可行性和有效性。

3.5 可视化验证

为了更好地证明算法的有效性,本文在Mars数据集上进行了可视化处理,可视化排序结果图如图4所示。第一列代表查询图像,随后列出的检索结果按照与查询图像的相似度从高到低进行排序,共展示了排名前5位的检索,实线框代表识别正确的行人,虚线框代表识别错误的行人。根据展示结果可知,本文提出的算法在应对遮挡或特征不对齐问题时表现出色,能够有效地缓解这些问题对行人重识别造成的负面影响。

同时,对网络关注的热图进行可视化,如图5所示。从图5可以看出,本文方法能够关注更多的显著区域,同时面对遮挡和不对齐情况时,本文方法表现更优,有效缓解了遮挡和特征不对齐问题。

4 结论

本文提出一种基于特征融合的视频行人重识别算法,以OSNet为主干,包含全局分支和空间变换局部分支。全局分支经GC模块和正交融合模块增强特征,使其更具鲁棒性;局部分支通过区域注意力学习判别性特征,用全局特征丰富自身,解决特征不对齐问题。两分支融合使网络获取多样化信息,3D平均池化聚合多帧特征缓解遮挡。该算法在两个公开数据集上验证有效。

参考文献

[1]

杨永胜,邓淼磊,李磊,.基于深度学习的行人重识别综述[J].计算机工程与应用202258(9):51-66.

[2]

Yang Y SDeng M LLi Let al. A review of pedestrian re-identification based on deep learning[J]. Computer Engineering and Applications202258(9): 51-66.

[3]

Zhou ZHuang YWang Wet al.See the forest for the trees:joint spatial and temporal recurrent neural networks for video-based person re-identification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:6776-6785.

[4]

Zhou K YYang Y XCavallaro Aet al.Omni-scale feature learning for person re-identification[C]//2019 IEEE/CVF International Conference on Computer Vision.Seoul:IEEE,2019:3702-3712.

[5]

He K MZhang X YRen S Qet al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Re-cognition.Las Vegas:IEEE,2016:770-778.

[6]

Li WZhu X TGong S G.Harmonious attention network for person re-identification[C]//2018 IEEE/ CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:2285-2294.

[7]

Szegedy CVanhoucke VIoffe Set al.Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:2818-2826.

[8]

Li J NZhang S LHuang T J.Multi-scale 3D convolution network for video based person re-identification[J].Proceedings of the AAAI Confe-rence on Artificial Intelligence201933(1):8618-8625.

[9]

Suh YWang JTang Set al. Part-aligned bili-near representations for person re-identification[C]//Proceedings of the European Conference on Computer Vision,Cham:Springer,2018:402-419.

[10]

Ristani ESolera FZou R Set al.Performance measures and a data set for multi-target,multi-camera tracking[C]//ECCV 2016 Workshops.Cham:Springer International Publishing,2016:17-35.

[11]

Cao YXu J RLin Set al.GCNet:non-local networks meet squeeze-excitation networks and beyond[C]//2019 IEEE/CVF International Conference on Computer Vision Workshop.Seoul:IEEE,2019:1971-1980.

[12]

Yang MHe D LFan Met al.DOLG:single-stage image retrieval with deep orthogonal fusion of local and global features[C]//2021 IEEE/CVF International Conference on Computer Vision.Montreal:IEEE,2021:11752-11761.

[13]

Hou R BMa B PChang Het al.VRSTC:occlusion-free video person re-identification[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach:IEEE,2019:7183-7192.

[14]

Subramaniam ANambiar AMittal A.Co-segmentation inspired attention networks for video-based person re-identification[C]//2019 IEEE/CVF International Conference on Computer Vision.Seoul:IEEE,2019:562-572.

[15]

Fu YWang X YWei Y Cet al.STA:spatial-temporal attention for large-scale video-based person re-identification[J].Proceedings of the AAAI Conference on Artificial Intelligence201933(1):8287-8294.

[16]

Yang XLiu L CWang N Net al.A two-stream dynamic pyramid representation model for video-based person re-identification[J].IEEE Transactions on Image Processing202130:6266-6276.

基金资助

国家自然科学基金(62003224)

AI Summary AI Mindmap
PDF (1292KB)

67

访问

0

被引

详细

导航
相关文章

AI思维导图

/