基于改进VisionTransformer模型的团队体育视频多目标跟踪深度学习框架

曹伟, 王晓勇, 刘咸祥

中北大学学报(自然科学版) ›› 2024, Vol. 45 ›› Issue (06) : 832 -842.

PDF
中北大学学报(自然科学版) ›› 2024, Vol. 45 ›› Issue (06) : 832 -842.

基于改进VisionTransformer模型的团队体育视频多目标跟踪深度学习框架

    曹伟, 王晓勇, 刘咸祥
作者信息 +

Author information +
文章历史 +
PDF

摘要

多目标跟踪(MOT)技术为团队体育视频监测和分析提供了全新的可能性,能够实时跟踪多个运动员并支持对比赛动态的多维度分析与理解。然而,在复杂的团队运动场景下,诸如运动员之间的相互遮挡、快速移动以及目标身份的频繁变换等问题,都可能降低跟踪性能。为此,本文提出了基于VisionTransformer的端到端深度学习MOT框架,主要包括检测网络和记忆网络两个部分。检测网络由卷积神经网络(CNN)骨干网、VisionTransformer编码器和解码器组成,采用ResNet50作为特征提取器,并引入局部注意力(LA)模块替代传统前馈神经网络(FFN)层。通过全局注意力和局部卷积的结合,得到更全面的特征表示。记忆网络由记忆编码模块和时空记忆解码器组成。记忆编码模块负责聚合目标嵌入信息,其中,短时互注意力(CA)模块关注即时状态,而长时记忆CA模块则挖掘了记忆涵盖的时间跨度内的显著特征,捕捉长时间间隔内的依赖关系和关联,从而有效保留了跟踪对象的时间上下文信息。时空记忆解码器在嵌入融合过程中综合考虑了编码帧、候选嵌入和轨迹嵌入信息,解决了MOT中的多目标检测和身份关联。时空记忆机制能够有效地保留目标历史状态的观察结果,并结合注意力机制对目标状态进行准确预测。实验结果表明,所提框架在团队体育视频公开数据集SportsMOT上实现了75.7%的HOTA和98.5%的MOTA结果,优于其他先进的MOT方法。此外,所提框架在通用公开数据集MOT17和MOT20上的多个指标取得了最优或次优性能,进一步验证了所提方法的有效性和鲁棒性。

关键词

多目标跟踪 / 深度学习 / 团队体育视频 / Vision Transformer / 时空记忆 / 注意力机制

Key words

引用本文

引用格式 ▾
基于改进VisionTransformer模型的团队体育视频多目标跟踪深度学习框架[J]. 中北大学学报(自然科学版), 2024, 45(06): 832-842 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

79

访问

0

被引

详细

导航
相关文章

AI思维导图

/