PDF
摘要
针对现有异常检测方法在语义上下文利用和时空特征建模方面的不足,提出一种基于视频描述增强和双流特征融合的视频异常检测方法。自动化提取视频描述,利用对比语言-图像预训练(constrastive language-image pre-training, CLIP)模型进行编码,作为视频上下文语义特征辅助视频异常检测;引入一种时空自适应嵌入模块,分别捕捉视频中细微的时序变化和复杂的空间结构,并进行有效的时空融合;利用精心设计的跨模态对齐模块将上下文语义特征与时空视觉特征进行深度融合,更准确地捕捉异常事件的时空-语义联合特征。试验结果显示,该方法在ShanghaiTech和CUHK Avenue数据集上的检测指标曲线下面积AUC分别达到97.54%和90.54%,证明该方法在公开视频异常检测数据集上表现优异,具有强大的鲁棒性,为视频异常检测提供一种有效的解决方案。
关键词
视频异常检测
/
视频描述
/
时空自适应嵌入
/
时序Transformer
/
空间Transformer
Key words
基于视频描述增强和双流特征融合的视频异常检测方法[J].
山东大学学报(工学版), 2025, 55(05): 110-119 DOI: