融合CNN与ViT的深度伪造人脸篡改视频检测方法

陈傲; 白恩健; 吴贇; 曹誉文; 蒋学芹

doi:10.19886/j.cnki.dhdz.2024.0393

东华大学学报（自然科学版） ›› 2025, Vol. 51 ›› Issue (06) : 62 -69. DOI: 10.19886/j.cnki.dhdz.2024.0393

融合CNN与ViT的深度伪造人脸篡改视频检测方法

陈傲, 白恩健, 吴贇, 曹誉文, 蒋学芹

作者信息 +

Author information +

文章历史 +

PDF

摘要

深度伪造视频检测是目前计算机视觉领域的热点研究问题。针对现有基于卷积神经网络(CNN)或视觉Transformer(ViT)的深度伪造检测技术普遍存在训练和测试阶段耗时较长、跨数据集检测精度显著下降等问题，提出一种融合CNN和ViT的检测方法。基于细节增强卷积(DEConv)和空间分组坐标注意力模块设计了一个卷积神经网络编码器模块，二者组合成特征提取分支；再与改进的ViT模块进行连接，模型兼具局部提取和全局建模的能力；最后，提出人脸非关键区域掩码策略(key-detect mask, KDM),使模型更专注于人脸关键区域，减少次要特征的干扰，提高模型在多扰动场景下的稳健性。试验结果表明，该方法在3个主流数据集上的平均视频级ROC曲线下面积(AUC)达99.13%,在跨库泛化性试验中平均视频级AUC达86.54%,该模型优于其他方法。