基于双流特征增强网络的视频行为识别

赵晨; 冯秀芳; 董云云; 温昕; 曹若琛

doi:10.16355/j.tyut.1007-9432.20230692

太原理工大学学报 ›› 2025, Vol. 56 ›› Issue (03) : 495 -505. DOI: 10.16355/j.tyut.1007-9432.20230692

基于双流特征增强网络的视频行为识别

赵晨, 冯秀芳, 董云云, 温昕, 曹若琛

作者信息 +

Author information +

文章历史 +

PDF

摘要

【目的】双流卷积网络主要通过融合视频的空间流特征和时间流特征以达到较高的识别精度，传统双流卷积使用光流或者时间位移模块来提取时间特征，使用光流的缺点在于光流抽取工作量繁重，而使用时间位移模块的缺点在于会破坏原本视频帧的空间特征和通道特征。【方法】提出了一种双流特征增强网络Two-stream Feature Enhancement Network(TFEN)解决上述问题，针对时间位移导致的特征破坏问题，提出了空间增强时间位移模块Spatial EnhancementTemporal Shift Module(SE-TSM)和通道增强时间位移模块Channel Enhancement-Temporal Shift Module(CE-TSM)，在每次时间位移后进行特征增强以改善特征受损。针对光流问题提出了融合基于帧差的时间流网络，相较于光流，使用帧差耗时短易操作。针对帧差运动信息微弱问题，提出了运动增强模块Sports Improvement Module(SIM)增强运动特征以提高性能。【结果】本文网络在公开视频数据集UCF101和HMDB51上分别达到了96.1%和75.7%的精度，优于目前主流网络。