PDF
摘要
针对行人重识别中水平切片方法由于分块特征感受野之间存在交叉重叠带来的分块数量限制问题,提出一种基于Transformer的行人重识别网络结构。首先,输入图像经过CNN网络提取中间特征图,并将特征图进行分块,对每块特征进一步切分成像素级token向量;然后,对各像素级token向量展平并加入位置编码和全局token向量,输入Transformer IN编码器中;接着,对得到的全局token向量进一步加入分类token向量和位置编码后,输入Transformer OUT编码器,得到最终的编码器输出;最后,取分类token向量并加上全连接后,利用softmax和交叉熵损失对行人进行分类。在Market-1501、Duke MTMC-re ID数据集上的实验结果表明,本方法能够更细粒度地提取特征,并利用Transformer的全局把控能力,进一步提高了切片的数量和分类的精度。
关键词
深度学习
/
行人重识别
/
transformer
/
自注意力
Key words
莫建文, 莫伦麟
基于Transformer的行人重识别网络[J].
桂林电子科技大学学报, 2023, 43(03): 195-201 DOI:10.16725/j.cnki.cn45-1351/tn.2023.03.012