多尺度感知与边界引导的图像篡改检测方法

陈海鹏 ,  张世博 ,  吕颖达

吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (06) : 2114 -2121.

PDF (1486KB)
吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (06) : 2114 -2121. DOI: 10.13229/j.cnki.jdxbgxb.20231027
计算机科学与技术

多尺度感知与边界引导的图像篡改检测方法

作者信息 +

Multi⁃scale context⁃aware and boundary⁃guided image manipulation detection method

Author information +
文章历史 +
PDF (1520K)

摘要

针对传统图像篡改检测方法存在边界模糊、提取特征尺度单一、忽略背景信息等问题,本文提出多尺度感知与边界引导的图像篡改检测方法。首先,使用改进的金字塔视觉变压器提取篡改图像的空间细节和基础特征。其次,通过边缘感知模块探索与伪造区域边缘相关的信息,生成边缘预测图。再次,利用边缘引导模块突出所提取特征中的关键通道,减少冗余通道的干扰。然后,通过多尺度上下文感知模块,从多个感受野学习伪造区域丰富的上下文信息。最后,利用特征融合模块交替关注篡改图像的前景和背景,精确分割伪造区域。将本文方法在5个常用的公开图像篡改检测数据集上进行定量和定性对比,实验结果表明,本文方法可以有效检测伪造区域,并且优于其他方法。

Abstract

Aiming at the problems of traditional image manipulation detection methods, such as fuzzy boundaries, single scale of extracted features, and ignoring background information, this paper proposes an image manipulation detection method based on multi-scale context-aware and boundary-guided. First, spatial details and base features of manipulated images are extracted using an improved pyramid vision transformer. Second, information related to the edge of the falsified region is explored by an edge context-aware module to generate an edge prediction map. Again, the edge guidance module is utilized to highlight the key channels in the extracted features and reduce the interference of redundant channels. Then, the rich contextual information of the manipulated region is learned from multiple sensory fields through the multi-scale context-aware module. Finally, the feature fusion module is utilized to accurately segment the manipulated region by focusing alternately on the foreground and background of the manipulated images. Comparing this paper's method quantitatively and qualitatively on five commonly used public image manipulation detection datasets, the experimental results show that this paper's method can effectively detect manipulated regions and outperforms other methods.

Graphical abstract

关键词

计算机应用 / 图像篡改检测 / 多尺度上下文感知 / 边界引导

Key words

computer application / image manipulation detection / multi-scale context-aware / boundary guidance

引用本文

引用格式 ▾
陈海鹏,张世博,吕颖达. 多尺度感知与边界引导的图像篡改检测方法[J]. 吉林大学学报(工学版), 2025, 55(06): 2114-2121 DOI:10.13229/j.cnki.jdxbgxb.20231027

登录浏览全文

4963

注册一个新账户 忘记密码

0 引 言

图像篡改检测是多媒体取证和计算机视觉领域重要的研究课题之一12。近年来,随着数字图像处理技术的进步,图像处理已经成为一种常见的社交活动3。例如,一些人将处理后的图片分享到网络上,丰富了日常生活。然而,一些人利用图像处理技术进行保险欺诈、制造虚假新闻甚至散播政治谣言,对社会稳定和国家安全造成一定的负面影响4。因此,开发一种可靠的模型检测篡改图像中的伪造区域是十分重要的。

为了降低篡改图像带来的危害,研究人员提出了不同的图像篡改检测方法。受到传统检测方法的启发,早期的一些方法主要是通过构造手工特征捕获异常信息。例如,噪声不一致性5、基于离散余弦变换系数的量化效应6、彩色滤波阵列7等。由于这些方法需要大量的先验知识,很容易被有针对性地屏蔽。因此,如何自适应地提取篡改图像特征是提升模型泛化性和鲁棒性的关键。

近年来,一些基于深度学习的方法在图像篡改检测任务中彰显出巨大潜力,极大提高了模型的泛化性和鲁棒性。例如,文献[8]提出一种包括边缘预测、细化和分割的三阶段网络,实现伪造区域检测。文献[9]通过建模物体层面的视觉不一致性信息,为图像篡改检测提供了新的思路。文献[10]使用边缘特征增强模块和边缘监督策略融合篡改痕迹,进一步提高了检测性能。尽管这些方法取得了显著的成绩,但是仍然存在一些问题:①边界模糊问题。现有的方法大都忽略了边缘信息的重要性,即使实现了边界定位,也没有细化边界特征,从而在模糊的边界下提供了不理想的预测结果;②提取特征尺度单一。先前的方法仅从单一尺度进行特征学习,忽略了一些重要的上下文信息,在面对形状不规则和尺度变化较大的伪造区域时,通常无法分割完整的伪造区域;③忽略背景信息。由于伪造区域常被归类到前景中,以往的方法只关注前景信息,而忽略了背景信息,中断了前景信息和背景信息之间的联系,在遇到前景和背景高度相似的篡改图像时,检测精度降低。

为解决上述问题,本文提出了多尺度感知与边界引导的编解码网络(Multi-scale context-aware and boundary guidance network,MCBG-Net),专注于从输入图像中学习多尺度上下文感知特征和边缘特征,以实现精准分割伪造区域。MCBG-Net的主要贡献如下:①设计了一个简单有效的边缘感知模块EAM,通过集成低层次的局部边缘信息和高层次的全局位置信息对边缘信息进行建模;②采用边缘引导模块EFM,探索关键通道减少噪声干扰;③利用多尺度上下文感知模块MCAM,从多个感受野学习伪造区域丰富的上下文信息;④设计了特征融合模块FFM,交替关注篡改图像的前景和背景,精准分割伪造区域;⑤在5个常用的公开数据集上的实验结果表明,该方法优于现有的其他方法。

1 本文方法

1.1 整体网络结构

本文方法的整体结构由5个主要部分组成:骨干网络、边缘感知模块、边缘引导模块、多尺度上下文感知模块和特征融合模块,其结构如图1所示。首先,骨干网络采用ImageNet数据集上预训练的PVTv211网络模型,逐层提取篡改图像的空间细节和基础特征。其次,利用边缘感知模块探索伪造区域的边缘轮廓。再次,利用边缘引导模块突出关键通道,减少冗余通道的干扰。然后,通过多尺度上下文感知模块学习伪造区域丰富的上下文信息,以提高特征学习的表征能力。最后,利用特征融合模块逐级重构最终的检测结果,并采用多级监督的方式进行网络训练。

1.2 边缘感知模块

良好的边缘先验知识有助于识别伪造区域的边缘轮廓。虽然低级特征包含了丰富的边缘特征,但是也引入了许多无关信息。因此,需要高级语义信息促进对伪造区域边缘的检测。为此,本文提出了边缘感知模块EAM,结合浅层局部边缘信息和深层全局位置信息指导边缘特征学习,具体结构如图2所示。

将低级特征f1和高级特征f4作为此模块的输入建模与伪造区域相关的边缘信息。首先采用1×1的卷积操作,将高级特征f4的通道数更改为256,并通过双线性插值法进行上采样,以增大特征图的尺寸。其次,沿着通道维度将两个分支的特征拼接。最后,通过3×3卷积操作、1×1卷积操作和Sigmoid激活函数生成边缘注意力图fe

1.3 边缘引导模块

通常情况下,会默认每个通道在后续任务中起到相同的作用,但在实际情况中,某些通道包含的语义信息意义并不大。为此,本文提出边缘引导模块EFM,采用通道注意力机制生成表示各通道权重的注意力图,突出关键通道信息,以增强特征表示,具体结构如图3所示。

将PVTv2提取的基础特征fii1,2,3,4和边缘注意力图fe作为此模块的输入。首先对fe执行下采样操作,然后在它们之间进行像素级的乘操作,并使用额外的跳跃连接和3×3的卷积操作,获得初始融合特征fie。接着,采用全局平均池化操作聚合fie,并通过一维卷积操作和Sigmoid激活函数生成通道注意力图。然后,应用像素级的乘操作将通道注意力图与fie融合,引导网络学习关键通道特征。最后,采用1×1的卷积操作减少通道数,得到输出特征fia

1.4 多尺度上下文感知模块

由于单一尺度的特征学习通常忽略了一些重要的上下文信息,影响最终的检测结果12。为此,本文基于人类视觉系统识别目标的过程,设计了多尺度上下文感知模块MCAM,采用膨胀卷积和非对称卷积同时增强感受野,帮助网络学习丰富的上下文信息,具体结构如图4所示。

MCAM共包含2个并行的分支,第一个分支采用膨胀率为3的3×3卷积操作,第二个分支采用3×3的卷积操作、1×3和3×1的非对称卷积操作。然后,将两个分支的特征沿着通道维度拼接起来。最后,通过3×3的卷积操作,得到通道数为64的特征图。

1.5 特征融合模块

由于篡改手段的多样性,存在前景和背景高度相似的篡改图像,先前的网络主要关注前景信息,而忽略了背景信息,导致模型的检测效果不够理想。因此,本文提出了具有前景路径和背景路径的特征融合模块FFM,以增强篡改图像中前景和背景的特征表示,实现互补和去噪,具体结构如图5所示。

将MCAM的输出特征Fi和上一层FFM的输出特征Fdi-1作为此模块的输入。对于前景路径,沿着通道维度将输入拼接,再通过卷积操作、批量归一化和ReLU激活函数,得到前景特征;对于背景路径,本文设计了背景关注分量选择性地关注背景信息。此过程可表示如下:

Fbg=C1-σFdi-1Fi

式中:C·为包含3×3的卷积操作、批量归一化和ReLU非线性激活;1-σ(Fdi-1)为背景注意力图。

最后,沿着通道维度将前景特征Ffg、背景特征Fbg和上一层FFM的输出特征Fdi-1拼接,得到最终输出特征Fdi

1.6 损失函数

构建网络过程中,由于存在篡改图像前景和背景高度相似的情况,因此需要选择更加合适的损失函数提高检测伪造区域的精度。结合各数据集的特性和本文网络结构,实验选用两种监督方式,即伪造区域边缘监督Ge和伪造区域掩码监督Gr

对于Ge,实验采用骰子损失函数处理正负样本之间的强烈不均衡;对于Gr,因前景像素数量远小于背景像素数量时,网络可能会严重偏向于学习背景信息。为此,实验选用加权二分类交叉熵损失函数和加权IoU损失函数,引导网络提取伪造区域的结构特征。

由于本文采用多级监督的方式进行训练,解码器的每一层输出一张伪造区域检测图像。因此,最终的损失函数如下所示:

Ltotal=i=14LwBCEPi,Gr+LwIoUPi,Gr+
λLdicePe,Ge

式中:λ为一个参数,在本文实验中设置为4;Pe为伪造区域的边缘预测图;Pi为伪造区域的掩码预测图。

2 实验结果及分析

2.1 数据集及评价指标

本文使用5个常用的公开图像篡改检测数据集验证网络的检测性能,分别是CASIA13、NIST14、Columbia15和COVER16、IMD202017。其中Columbia不包含训练集,因此本文使用CASIA数据集进行训练。各数据集的详细情况如表1所示。

为了验证本文网络的检测性能,采用的评价指标包括F1分数和AUC(ROC曲线下方面积大小)。F1分数和AUC用来衡量每个像素的二分类性能,取值范围为0~1,分数越高表示网络检测性能越好。

2.2 实验环境及参数设置

本文实验基于开源的深度学习框架PyTorch,所有实验均在Ubuntu 18.04操作系统上进行,显卡为NVIDIA GeForce RTX 3090独立显卡。模型训练过程中使用动量为0.9的Adam优化器,初始学习率为0.000 1。图像输入尺寸为256×256,每个batch包含64张图片。

2.3 结果及分析

2.3.1 实验结果对比

为了验证本文方法完成图像篡改检测任务的有效性,将本文方法与最新的深度学习模型ManTra18、SPAN19、MVSS20、GSRNet8、DenseFCN21、LocateNet22和EMTNet10进行比较,实验结果如表2所示。由表2可以看出,在平均AUC上,本文方法与最优方法(GSRNet)相差0.041;但在平均F1分数上,本文方法高于次优方法(EMTNet)0.057。对图像取证而言,应确保尽可能多的疑似篡改图像被正确判定为篡改图像是至关重要的,因为某些篡改图像的恶意应用会对社会造成严重的负面影响,如新闻造假等。F1分数较高意味着本文方法能够捕获大部分正例样本,减少错误分类的情况,更加适用于现实场景。因此,本文提出的方法具有最佳的整体性能。

伪造区域的可视化检测结果如图6所示。由图6可以看出,本文方法在图像篡改检测任务中取得了很好的检测结果,在边界模糊、小尺寸伪造区域、前景和背景高度相似等情况下,均实现了较为精准的定位。这主要得益于本文方法所选择的骨干网络能够有效提取篡改图像的基础特征,并配合方法中各模块对多尺度上下文信息进行深入挖掘以及对边缘特征进行了有效学习。

2.3.2 消融实验

为了验证本文方法各模块的有效性,进行了消融实验。本文训练了多个网络,分别对边缘感知模块、边缘引导模块、多尺度上下文感知模块和特征融合模块的有效性进行了分析。将仅包含PVTv2的网络命名为Baseline,在此基础上逐级添加各模块,以此评估每个模块的有效性。所有实验均在具有挑战性的数据集CASIA上进行,实验结果如表3所示。

(1)边缘感知模块的有效性分析。由表3可以看出,在边缘感知模块的辅助下,网络b在所有评价指标上均优于网络a。例如,F1分数由0.595提升至0.617,AUC由0.800提升至0.816。证明了边缘感知模块可以有效提取边缘先验知识,以实现对伪造区域的精确检测。

(2)边缘引导模块的有效性分析。通过比较网络c与网络b,可以发现添加边缘引导模块后,网络的性能明显提升。例如,F1分数由0.617提升至0.634,AUC由0.816提升至0.835。这主要是因为边缘引导模块采用了通道注意力机制,减少了冗余通道的干扰,从而达到细化伪造区域边界的目的。

(3)多尺度上下文感知模块的有效性分析。由表3可知,在引入多尺度上下文感知模块后,网络的性能进一步提升。例如,F1分数由0.634提升至0.639,AUC由0.835提升至0.841。这表明了多尺度上下文感知模块捕获的全局上下文信息,有利于提高特征学习的表征能力。

(4)特征融合模块的有效性分析。表3数据显示,在特征融合模块的帮助下,网络取得了显著的检测效果。例如,F1分数由0.639提升至0.647,AUC由0.841提升至0.848。这些数据对比证明,特征融合模块可以交替从前景和背景提取有效信息,从而精准分离篡改图像的前景和背景,使检测结果更加准确。

2.4 鲁棒性分析

为了验证本文方法的鲁棒性,在NIST上应用3种后处理方法(JPEG压缩、高斯噪声、高斯模糊)检测网络的性能。鲁棒性结果如表4所示。

表4可以看出,本文方法受JPEG压缩影响较小,表现出了较强的鲁棒性,而受高斯噪声和高斯模糊影响较大,这可能是因为边缘感知模块提取边缘特征时引入了额外的信息。后续的工作可以考虑通过交互学习的方式融合相邻层次的特征,以获得更准确的空间信息,进一步提升网络的鲁棒性。

3 结束语

本文针对现有图像篡改检测方法的不足,提出了多尺度感知与边界引导的图像篡改检测方法。首先,使用骨干网络提取篡改图像的空间细节和基础特征。其次,通过边缘感知模块探索与伪造区域相关的边缘信息。再次,利用边缘引导模块突出所提取特征中的关键通道信息,从而实现有效的特征表示。然后,采用多尺度上下文感知模块学习伪造区域不同尺度的上下文信息,进而提高特征学习的表征能力。最后,利用特征融合模块交替关注篡改图像的前景和背景,生成可视化检测结果。实验结果表明,本文方法在多个图像篡改检测数据集上的检测性能稳定,并优于其他对比方法。

参考文献

[1]

Shi Z, Chen H, Zhang D. Transformer-auxiliary neural networks for image manipulation localization by operator inductions[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(9): 4907-4920.

[2]

钟辉, 康恒, 吕颖达, 基于注意力卷积神经网络的图像篡改定位算法[J]. 吉林大学学报: 工学版, 2021, 51(5): 1838-1844.

[3]

Zhong Hui, Kang Heng, Ying-da Lyu, et al. Image manipulation localization algorithm based on channel attention convolutional neural networks[J]. Journal of Jilin University (Engineering and Technology Edition), 2021, 51(5): 1838-1844.

[4]

石泽男, 陈海鹏, 张冬, 预训练驱动的多模态边界感知视觉Transformer[J]. 软件学报, 2023, 34(5): 2051-2067.

[5]

Shi Ze-nan, Chen Hai-peng, Zhang Dong, et al. Pretraining-driven multimodal boundary-aware vision transformer[J]. Journal of Software, 2023, 34(5): 2051-2067.

[6]

Xu D, Shen X, Lyu Y, et al. MC-Net: Learning mutually complementary features for image manipulation localization[J]. International Journal of Intelligent Systems, 2022, 37(5): 3072-3089.

[7]

Mahdian B, Saic S. Using noise inconsistencies for blind image forensics[J]. Image and Vision Computing, 2009, 27(10): 1497-1503.

[8]

Lin Z, He J, Tang X, et al. Fast, automatic and fine-grained tampered JPEG image detection via DCT coefficient analysis[J]. Pattern Recognition, 2009, 42(11): 2492-2501.

[9]

Popescu A C, Farid H. Exposing digital forgeries in color filter array interpolated images[J]. IEEE Transactions on Signal Processing, 2005, 53(10): 3948-3959.

[10]

Zhou P, Chen B C, Han X, et al. Generate, segment, and refine: towards generic manipulation segmentation[C]//Proceedings of the AAAI Conference on Artificial Intelligence, New York, USA, 2020: 13058-13065.

[11]

Wang J, Wu Z, Chen J, et al. Objectformer for image manipulation detection and localization[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 2364-2373.

[12]

Lin X, Wang S, Deng J, et al. Image manipulationdetection by multiple tampering traces and edge artifact enhancement[J]. Pattern Recognition, 2023, 133:109026-109036.

[13]

Wang W, Xie E, Li X, et al. PVT v2: improved baselines with pyramid vision transformer[J]. Computational Visual Media, 2022, 8(3): 415-424.

[14]

胡林辉, 陈保营, 谭舜泉, 基于Convnext-Upernet的图像篡改检测定位模型[J/OL]. [2023-09-10].

[15]

Hu Lin-hui, Chen Bao-ying, Tan Shun-quan, et al. Convnext-Upernet based deep-learning model for image forgery detection and localization[J/OL]. [2023-09-10].

[16]

Dong J, Wang W, Tan T. Casia image tampering detection evaluation database[C]∥2013 IEEE China Summit and International Conference on Signal and Information Processing, Beijing, China, 2013: 422-426.

[17]

Guan H, Kozak M, Robertson E, et al. MFC datasets: Large-scale benchmark datasets for media for ensic challenge evaluation[C]∥2019 IEEE Winter Applications of Computer Vision Workshops (WACVW), Waikoloa, USA, 2019: 63-72.

[18]

Hsu Y F, Chang S F. Detecting image splicing usinggeometry invariants and camera characteristics consistency[C]∥2006 IEEE International Conference on Multimedia and Expo, Toronto, Canada, 2006: 549-552.

[19]

Wen B, Zhu Y, Subramanian R, et al. COVERAGE: a novel database for copy-move forgery detection[C]∥2016 IEEE International Conference on Image Processing (ICIP), Phoenix, USA, 2016: 161-165.

[20]

Novozamsky A, Mahdian B, Saic S. IMD2020: a large-scale annotated dataset tailored for detecting manipulated images[C]∥Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision Workshops, Snowmass Village, USA, 2020: 71-80.

[21]

Wu Y, AbdAlmageed W, Natarajan P. Mantra-net: Manipulation tracing network for detection and localization of image forgeries with anomalous features[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 9543-9552.

[22]

Hu X, Zhang Z, Jiang Z, et al. SPAN: spatial pyramid attention network for image manipulation localization[C]∥Proceedings of the European Conference on Computer Vision (ECCV), Glasgow, UK, 2020: 312-328.

[23]

Chen X, Dong C, Ji J, et al. Image manipulation detection by multi-view multi-scale supervision[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 14165-14173.

[24]

Zhuang P, Li H, Tan S, et al. Image tampering localization using a dense fully convolutional network[J].IEEE Transactions on Information Forensics and Security, 2021, 16: 2986-2999.

[25]

Zhuo L, Tan S, Li B, et al. Self-adversarial training incorporating forgery attention for image forgery localization[J]. IEEE Transactions on Information Forensics and Security, 2022, 17: 819-834.

基金资助

国家自然科学基金面上项目(62276112)

国家自然科学基金区域联合基金子项目(U19A2057)

吉林省科技发展计划重点研发项目(20230201088GX)

安徽高校协同创新项目(GXXT-2022-044)

AI Summary AI Mindmap
PDF (1486KB)

175

访问

0

被引

详细

导航
相关文章

AI思维导图

/