PDF
摘要
深度伪造视频检测是目前计算机视觉领域的热点研究问题。针对现有基于卷积神经网络(CNN)或视觉Transformer(ViT)的深度伪造检测技术普遍存在训练和测试阶段耗时较长、跨数据集检测精度显著下降等问题,提出一种融合CNN和ViT的检测方法。基于细节增强卷积(DEConv)和空间分组坐标注意力模块设计了一个卷积神经网络编码器模块,二者组合成特征提取分支;再与改进的ViT模块进行连接,模型兼具局部提取和全局建模的能力;最后,提出人脸非关键区域掩码策略(key-detect mask, KDM),使模型更专注于人脸关键区域,减少次要特征的干扰,提高模型在多扰动场景下的稳健性。试验结果表明,该方法在3个主流数据集上的平均视频级ROC曲线下面积(AUC)达99.13%,在跨库泛化性试验中平均视频级AUC达86.54%,该模型优于其他方法。
关键词
深度伪造检测
/
视觉Transformer
/
人脸关键点
/
注意力机制
Key words
融合CNN与ViT的深度伪造人脸篡改视频检测方法[J].
东华大学学报(自然科学版), 2025, 51(06): 62-69 DOI:10.19886/j.cnki.dhdz.2024.0393