基于Diff-AdvGAN的图像对抗样本生成方法

赵宏 ,  马宇轩 ,  宋馥荣

吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (12) : 4052 -4062.

PDF (5545KB)
吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (12) : 4052 -4062. DOI: 10.13229/j.cnki.jdxbgxb.20240555
计算机科学与技术

基于Diff-AdvGAN的图像对抗样本生成方法

作者信息 +

Image adversarial examples generation based on Diff⁃AdvGAN

Author information +
文章历史 +
PDF (5677K)

摘要

针对基于生成对抗网络的对抗样本生成方法(AdvGAN)所存在的扰动偏离关键区域且可控性不强,导致对抗样本攻击效果欠佳、真实性较低的问题,提出了Diff-AdvGAN对抗样本生成方法。首先,利用自适应空间特征融合模块(ASFF)融合图像的不同尺度特征图。其次,将融合后的特征图输入生成器生成扰动,并使用随机微分引导模块(SDGM)增强扰动的可控性,生成对抗样本。最后,将对抗样本输入判别器和目标模型,迭代计算损失值并反馈至生成器,以生成攻击性能较强的扰动。实验结果表明,Diff-AdvGAN方法在MNIST数据集上对LeNet C、VGG11和C&Wmodel模型的攻击成功率均大于99%,在CIFAR-10数据集上对ResNet18和ResNet32模型的攻击成功率分别为96.17%和95.82%;同时生成的扰动处于图像关键区域,稀疏性高、幅度小,均优于对比方法。

Abstract

To address the problems of poor attack performance and low authenticity of adversarial examples caused by the perturbations generated by the adversarial example generation method based on generative adversarial networks (AdvGAN) deviating from key image regions and lacking controllability, a Diff-AdvGAN adversarial example generation method was proposed. Firstly, an Adaptively Spatial Feature Fusion (ASFF) module was employed to fuse featusare maps of the images at different scales. Then, the fused feature maps werere input into a generator to produce perturbations, and a Stochastic Differential Guide Module (SDGM) was used to enhance the controllability of the perturbations and generate adversarial examples. Finally, the adversarial examples are fed into a discriminator and a target model, the loss values were iteratively calculated and fed back to the generator to generate stronger perturbations with improved attack performance. Experimental results show that the Diff-AdvGAN method achieves attack success rates of over 99% on the MNIST dataset for the LeNet C, VGG11, and C&W models, and attack success rates of 96.17% and 95.82% for the ResNet18 and ResNet32 models on the CIFAR-10 dataset. Moreover, the perturbations generated by this method can accurately locate in the critical regions of the images, exhibiting high sparsity and small magnitudes, demonstrating significant advantages compared to comparison method.

Graphical abstract

关键词

对抗样本 / 生成对抗网络 / 扩散模型 / 随机微分引导模块 / 自适应空间特征融合

Key words

adversarial examples / generative adversarial networks / diffusion models / stochastic differential guide module / adaptive spatial feature fusion

引用本文

引用格式 ▾
赵宏,马宇轩,宋馥荣. 基于Diff-AdvGAN的图像对抗样本生成方法[J]. 吉林大学学报(工学版), 2025, 55(12): 4052-4062 DOI:10.13229/j.cnki.jdxbgxb.20240555

登录浏览全文

4963

注册一个新账户 忘记密码

0 引 言

近年来,深度神经网络(Deep neural network,DNN)在计算机视觉领域取得了巨大成功,被广泛应用于图像分类1、人脸识别2、自动驾驶3等场景。然而研究发现4,如果在图像中添加一定的扰动噪声生成对抗样本,DNN模型则会输出错误的结果,给实际应用DNN的系统带来极大安全隐患。例如在自动驾驶场景中,若攻击者对交通“停止”标志添加微小扰动5,自动驾驶系统可能会将其错误识别为“允许行驶”或其他标志,从而导致交通事故。因此,研究对抗样本的生成方法和过程,对检测和评价DNN模型的稳定性和安全性具有重大意义。

按照生成方式的不同,可将对抗样本生成方法分为基于梯度的生成方法、基于优化的生成方法和基于生成模型的生成方法。Goodfellow等6提出了基于梯度的快速梯度符号法(Fast gradient sign method,FGSM),通过在梯度相反方向增加扰动,增大损失函数值,从而误导模型分类。Kurakin等7在FGSM基础上提出了基础迭代方法(Basic iterative method,BIM),BIM能沿梯度增加的方向进行多次迭代,生成较为精准的扰动。基于梯度方法生成对抗样本的过程直观且速度较快,但有限的迭代次数不易构造有效扰动,导致攻击成功率较低。Carlini等8提出基于优化的C&W方法,通过优化预定义的最佳目标函数生成微小的扰动。与C&W方法优化单一目标函数不同,Baluja等9提出的对抗性变换网络(Adversarial transformation networks,ATNs)方法通过优化一组联合目标函数生成真实的对抗样本。相较于基于梯度的方法,基于优化方法生成的对抗样本真实性较高,但寻找目标函数的最佳超参数时间开销大,导致攻击效率较低。

随着对抗样本相关研究的持续深入,预训练的生成模型可快速、有效地生成扰动。因此,GAN被广泛应用于对抗样本的生成任务。Zhao等10基于WGAN11提出了一种两阶段的对抗样本生成方法,首先在输入图像的低维隐特征空间中寻找扰动隐变量,其次在隐特征空间中搜索对抗样本,由隐变量生成较自然的对抗样本。Zhang12提出了一种图像到图像转换结构的对抗样本生成方法,无需输出中间扰动向量,直接由生成器将原始图像映射为对抗样本,由于扰动与原始图像的潜在边缘和形状更加匹配,因此生成的对抗样本更为自然。Xiao等13提出一种基于GAN的对抗样本生成方法AdvGAN,通过生成器将原始图像中的噪声转化为扰动,再将扰动与原始图像叠加生成对抗样本,利用判别器区分对抗样本和原始图像,以保证生成的对抗样本与原始图像更接近。同时通过目标模型对对抗样本分类,计算损失值并反馈至生成器,使生成器生成更具攻击性的扰动1415。之后,Jandial等16在AdvGAN基础上提出了AdvGAN++,该方法将输入由原始图像更换为更易受扰动影响的隐层特征向量,提升了攻击成功率,同时改变了生成器的编码-解码结构,减少了训练时间。扩散模型因其强大的图像生成能力1718也被运用到对抗样本的生成中,其主要思路是不改变图像的像素空间,对扩散模型压缩后的潜在映射进行扰动。Dai等19提出了AdvDiff方法,在扩散模型逆向生成过程中进行稳定采样,以生成不受限制的对抗样本。Chen等20通过对预测图像进行扰动,将其潜在代码引导到分类器的对抗样本空间,以此生成不受限的对抗样本。Liu等21提出了Adv-Diffusion框架,在潜在空间而非原始像素空间中生成难以察觉的扰动,从而成功攻击人脸识别模型。

基于GAN的方法在模型训练完成后,无需获取目标模型参数,通过生成器可快速批量地生成对抗样本,攻击效率高、实用性较强。但该方法仍然存在部分问题,如随着网络层数的加深,当AdvGAN获得图像的深层全局特征时,会丢失部分浅层细节特征,导致生成的扰动偏离图像关键区域,影响攻击效果。同时,AdvGAN生成的扰动从图像噪声中采样得到,可控性不强,导致生成的对抗样本分布偏离原始图像,降低了对抗样本的真实性。

针对以上问题,本文基于特征融合和噪声扩散原理,提出了一种改进的图像对抗样本生成方法Diff-AdvGAN(Diffusion-AdvGAN),以克服AdvGAN的缺陷。引入自适应空间特征融合模块(Adaptively spatial feature fusion,ASFF)融合深层和浅层特征图,生成的特征图包含全局特征和细节信息,使生成器在图像关键区域生成扰动,提升对抗样本的攻击效果。同时,利用随机微分引导模块(Stochastic differential guide module, SDGM)优化扰动,增强扰动可控性,生成真实性高的对抗样本。

1 Diff-AdvGAN模型设计

1.1 AdvGAN模型结构

AdvGAN13模型结构如图1所示,由生成器、判别器、目标模型等模块构成。对抗样本生成过程为:将原始图像输入生成器生成扰动;然后,将扰动与原始图像叠加形成对抗样本;接着,将对抗样本输入判别器和目标模型,通过二者的损失函数计算损失值LGAN和误判损失值Ladv,并将其反馈至生成器,使生成器生成更高质量的扰动。反复迭代以上过程,即可生成质量较高的对抗样本。

1.2 Diff-AdvGAN模型结构

本文提出的改进对抗样本生成方法Diff-AdvGAN模型结构如图2所示。Diff-AdvGAN主要包含ASFF、生成器G、SDGM、判别器D和目标模型f。ASFF负责对不同尺度特征图进行自适应融合;生成器G负责生成扰动;SDGM负责优化扰动并生成对抗样本;判别器D区分对抗样本和原始图像并计算对抗损失;目标模型f对对抗样本分类并计算误判损失,将对抗损失和误判损失反馈至生成器,使生成器生成与原始图像难以区分且具攻击性的对抗样本。Diff-AdvGAN模型训练过程如算法1所示。

算法1 Diff-AdvGAN模型训练过程

输入:原始图像x0

输出:对抗样本x'

1. 将原始图像x0输入ASFF中,生成包含全局特征和细节的融合特征图y

2. 将y输入生成器G中生成扰动δ

3. 将δ输入SDGM模块中进行优化,并生成对抗样本x'

4. 将x0x'输入判别器D中判别,计算对抗损失LGAN

5. 将x'输入目标模型f中分类,计算误判损失Ladv

6. 损失函数反向传播,更新生成器参数

7. 重复以上步骤,直至模型收敛

1.3 自适应空间特征融合模块ASFF

特征融合旨在利用不同层级的特征图信息,提高模型对输入图像的处理能力。当AdvGAN模型通过编码器获得输入图像的深层特征图时,会丢失浅层特征图包含的细节信息。因此,在获取包含全局信息的深层特征过程中,需通过特征融合获取浅层特征的细节信息。ASFF22解决了不同特征尺度不一致的问题,可自适应地学习每个尺度上特征映射的融合空间权重,且推理开销非常小。这使得ASFF可针对不同图像按照合适的权重大小灵活融合,而非简单地相加或级联特征图。

Diff-AdvGAN模型在原始图像输入生成器前,引入自适应空间特征融合模块对不同尺度的特征图进行自适应融合,获取图像的全局特征和细节信息,使生成器更好地捕获图像的多尺度信息,从而在图像关键区域生成扰动,提升对抗样本的攻击效果。特征融合过程如图3所示。

首先,原始图像x0经卷积层的下采样得到3个待融合的特征图x1x2x3。其次,以x3分辨率特征为标准进行融合,改变x1x2的通道数和分辨率。对x1先执行步长为2的最大池化操作,再进行3×3卷积操作;对x2使用一个3×3的卷积层(步长为2)进行下采样,分别生成与x3相同通道数和分辨率的特征图,记作x13x23。最后,对x13x23x33特征图分别进行1×1卷积得到对应的权重参数αβγ,将缩放后的特征图x13x23x33与各自权重相乘后再相加,得到包含全局特征和细节信息的融合特征图y。计算公式如下所示:

y=αx13+βx23+γx33

式中:αβγ分别为不同尺度特征图的空间重要性权重,αβγ[0,1]且α+β+γ=1

1.4 生成器模块

生成器输入融合特征图后生成扰动,如图4所示,其包含4个残差块和3个反卷积层。残差块用于加强深层网络训练的稳定性,防止模型性能退化,增强特征表达能力。反卷积层将残差块输出的特征图转换为扰动,前两个反卷积层执行反卷积操作后先使用实例归一化加速模型收敛,再使用ReLU激活函数缓解梯度消失问题,最后一层反卷积层使用Tanh激活函数。

1.5 随机微分引导模块SDGM

引入扩散模型(Diffusion models,DMs)23构造SDGM,SDGM引导扰动优化,增强扰动可控性,使生成的对抗样本与原始图像相似,SDGM分为前向过程q和反向过程pθ。定义原始图像数据分布服从x0~q(x0),其中0表示初始状态。将前向过程分为离散的时间步T,在前向过程中逐步将高斯噪声加入x0T步生成噪声样本[x1,x2,,xt,xT],其遵循定义为q(xt|xt-1)=N(xt;1-βtxt-1,βtI)的马尔可夫链。通过累加单步前向过程,得到前向过程q的定义为:

qxt|x0=Nxt;α¯txt-1,(1-α¯t)I

式中:N为高斯分布;βt为位于区间(0,1)的固定值,其随着t的增加而增加;αt=1-βtα¯t=Πi=1tαi。噪声方差由βt确定,均值由βt和当前带噪的数据分布确定。

反向过程旨在通过去噪函数从高斯噪声数据分布xT~N(0,I)中恢复原始图像数据。利用重采样策略,可将训练修改的U-Net网络作为去噪器,将去噪过程视为参数θ的优化过程。反向过程pθ定义为:

p(x0:T)=p(xT)t=1Tpθ(xt-1|xt)
pθ(xt-1|xt)~N(xt-1;μθ(xt,t),σt2I)

式中:θ为可学习的参数;μθ(xt,t)σt2I分别为反向过程的均值和方差。

为后续方便使用,定义噪声xt~xt-1的去噪过程为xt-1=Pθ(xt,t),其中Pθ为去噪函数。

SDGM模块优化扰动,生成对抗样本的过程为:前向过程运行K步得到原始图像x0扩散后的分布xK~q(xK|x0)。接着,将生成器生成的扰动δ输入SDGM,并与前向过程产生的xK相结合,即xK+δ。最后,将xK+δ作为输入,运行反向去噪过程x'=Pθ((Pθ(Pθ(xK+δ,K),K-1),0),优化扰动δ并生成对抗样本x'。由于推理时间和内存的限制,本文采用加速采样策略的去噪扩散隐式模型(Denoising diffusion implicit models,DDIM)24。先将时间步T=1 000子采样得到Td=40,取K=0.2T=200,子序列Kd=8。接着,使用缩放后的KdK运行SDGM模块优化扰动,生成真实性高的对抗样本。

1.6 判别器模块

判别器的功能区分输入为原始图像还是对抗样本,结构如图5所示,包含4个卷积层用于提取图像特征。其中,卷积核大小为3×3,步长为1。每层执行卷积操作后,使用批归一化加速训练增强模型的泛化能力,使用LeakyReLU激活函数对输出特征进行非线性变换。最后一层将图像映射为单一标量值,通过Sigmoid函数输出对抗样本的置信度,Sigmoid函数输出值越接近1,表示输入越接近原始图像;输出值越接近0,表示输入越接近对抗样本。

1.7 损失函数

Diff-AdvGAN模型训练中的损失函数包括:对抗性损失LGAN、目标模型f的误判损失Ladv和限制扰动大小的软铰链损失Lhinge。对抗损失LGAN指导生成器生成的样本难以被判别器区分。LGAN的计算公式如下所示:

LGAN=Ex0logD(x0)+Ex0log(1-D(x'))

式中:D()为判别器的输出;x0为原始图像;x'为对抗样本。

根据目标模型f的输出计算误判损失LadvLadv指导生成器生成攻击性强的对抗样本,鼓励对抗样本的预测概率分布与原始图像的分布存在显著差异,使目标模型产生错误预测。误判损失Ladv计算公式如下所示:

Ladv=Ex0lf(x')

式中:lf为训练目标模型f的损失函数。

为限制扰动的大小,保持对抗样本的真实性和自然性,在训练过程中使用基于l2范数的软铰链损失稳定生成模型的训练。Lhinge计算如下所示:

Lhinge=Ex0max0,δ2-c

式中:常数c为优化间距;δ为扰动。

因此,Diff-AdvGAN模型在训练过程中的损失函数L如下所示:

L=Ladv+α'LGAN+β'Lhinge

式中:α'β'为超参数,用于调节对抗损失和软铰链损失的相对权重,以便更好地平衡生成器的目标。

2 实验设计和结果分析

2.1 数据集

为评估Diff-AdvGAN模型生成对抗样本的性能,选择MNIST、CIFAR-10、ImageNet-1K数据集进行实验。其中,MNIST数据集共有7万张灰度手写数字图片,包含训练集6万张、测试集1万张,每张图片大小为28×28。CIFAR-10数据集包含10个类别的RGB彩色图片,其中训练集5万张、测试集1万张,每张图片大小均为32×32。ImageNet-1K数据集为ImageNet的子集,包含120多万个训练样本、5万个验证样本,涵盖1 000个类别。

2.2 评价指标

实验采用分类准确率(Accuracy,ACC)、攻击成功率(Attack success rate,ASR)、l0l1l2范数衡量模型性能。其中,ACC用于衡量目标模型对原始图像的分类能力,分类准确率越高,说明目标模型的分类能力越强,能更好地评估攻击模型的性能。假设共有N个原始图像,其中目标模型成功分类m个,则分类准确率ACC如下所示:

ACC=mN×100%

ASR用于衡量攻击模型对目标模型的误导能力,攻击成功率越高,说明攻击模型对目标模型的攻击能力越强。假设攻击模型共生成Nadv个对抗样本,其中n个对抗样本成功误导目标模型,则攻击成功率ASR为:

ASR=nNadv×100%

l0范数指对抗样本相对原始图像修改的像素个数,其限制了可更改的像素数量,但不限制每个像素更改的程度。l0范数的值越小,说明图像中改动的像素点数量越少,扰动的稀疏性越高。

l1范数指对抗样本与原始图像各个元素的绝对差值之和。l1范数的值越大,说明对抗样本与原始图像的差异越明显。

l2范数指对抗样本相对原始图像像素变化量的平方和的平方根,其限制了累积的更改,在更改数量与程度之间达到一种平衡状态。l2范数的值越小,说明添加在图像中的扰动幅度越小。

2.3 实验设置

实验环境为Linux操作系统,系统版本为Ubuntu 18.04.6 LTS 64位,处理器为Intel(R) Xeon(R) Gold 5218 CPU @ 2.30 GHz 24-core processor 48,内存176 GB,所用GPU为NVIDIA A100。

在训练目标模型的过程中,使用Adam作为优化器,epoch设为120,batchsize设为128,初始学习率设为0.001,并在第50个和第80个epoch后将学习率降为之前的10%。

在训练攻击模型Diff-AdvGAN的过程中,batchsize设为64,使用初始学习率为0.001的Adam训练100个epoch,并在第50个和第80个epoch后将学习率衰减10倍,扰动阈值设为0.3。

2.4 实验结果分析

在无目标攻击的情况下,各方法在MNIST测试集上攻击LeNet C模型生成500张对抗样本的所需时间如表1所示,计算时忽略模型和数据集加载时间,仅记录对抗样本生成过程所需的时间。AdvGAN方法生成速度最快,不足0.01 s即可生成对抗样本。扩散模型的推理速度使得AdvDiff的生成时间较长。C&W方法最慢,生成对抗样本所需时间高达3 h左右。其中,Diff-AdvGAN方法慢于AdvGAN方法,但远快于AdvDiff和C&W方法,这是因为Diff-AdvGAN方法在生成对抗样本时增加了特征融合和优化扰动操作,导致模型复杂度比AdvGAN方法高,所以生成时间明显增加。

2.4.1 无防御攻击评估

在未设置防御的情况下,评估各类生成算法在MNIST和CIFAR-10数据集上生成对抗样本的攻击成功率。在MNIST数据集上攻击LeNet C、VGG11、C&Wmodel(C&W方法中使用的MNIST分类模型)时,Diff-AdvGAN方法攻击成功率均大于99%。在CIFAR-10数据集上攻击ResNet18和ResNet32模型时,Diff-AdvGAN方法攻击成功率均大于95%。如表2所示,相较于其他攻击方法,Diff-AdvGAN方法对各目标模型的攻击都取得了最优结果。其中,FGSM对所有目标模型的攻击成功率最低,如攻击VGG11模型时,准确率仅为56.61%,攻击成功率远低于其他方法。AdvGAN++将AdvGAN的输入更换为隐层特征向量,使攻击成功率有所提升。Diff-AdvGAN方法相比AdvGAN、AdvGAN++、AdvDiff方法有更高的攻击成功率。具体分析,相比AdvGAN和AdvDiff方法,Diff-AdvGAN在MNIST数据集上攻击LeNet C模型时,攻击成功率分别提升了1.58%和5.28%,在CIFAR-10数据集上攻击ResNet18模型时,攻击成功率分别提升了1.65%和5.03%。以上结果说明,Diff-AdvGAN方法生成的对抗样本对目标模型的误导更有效。

同时,实验统计了各攻击方法生成对抗样本的范数值,以评估扰动的变化程度。分别以在MNIST数据集上攻击C&Wmodel模型生成对抗样本和在CIFAR-10数据集上攻击ResNet32模型生成对抗样本为例。如表3所示,所有方法中,FGSM表现最差。Diff-AdvGAN方法在l0l1l2范数上的表现几乎全优于AdvGAN、AdvGAN++和Zhang12方法,与C&W方法均获得两项最优的范数值,C&W方法生成的对抗样本真实性高,范数值很小。其中,AdvDiff方法在l2范数上的表现优于Diff-AdvGAN,由于AdvDiff可在扩散逆生成过程中进行稳定采样,因此扰动幅度较小。Diff-AdvGAN方法在MNIST数据集上的l0范数仅为148.68,在CIFAR-10数据集上l1范数仅为11.6,远远低于其他方法,这表明Diff-AdvGAN方法生成的扰动稀疏性高,构造了较真实的对抗样本。

2.4.2 有防御攻击评估

防御情况下的攻击指对目标模型采取防御手段,若对抗样本仍能成功误导目标模型,则证明对抗样本在防御情况下的攻击依然有效。对抗训练是常用的防御策略,指将攻击模型生成的对抗样本和原始图像同时作为训练集,对目标模型进行对抗训练,以提高目标模型的鲁棒性。使用3种对抗训练方法进行防御:标准FGSM对抗训练(Adv)6、集成对抗训练(Ens)25、迭代训练(Iter-Adv)26,将原始图像与对抗样本按照1∶1组成新的数据集对目标模型进行对抗训练,以验证Diff-AdvGAN方法在防御情况下的有效性。

图6为FGSM、AdvGAN、AdvGAN++、Diff-AdvGAN方法在不同对抗训练策略下的攻击成功率。从图6中可以看出,当攻击执行防御策略的目标模型时,Diff-AdvGAN方法取得的攻击成功率最高。如图6(c)所示,防御情况下在CIFAR-10数据集上攻击Wide-ResNet34模型效果最为显著,Diff-AdvGAN相比AdvGAN++方法,面对Adv防御时攻击成功率提升了33.18%,面对Ens防御时成功率提升了29.73%,面对Iter-Adv防御时成功率提升了21.5%。其他情况下,Diff-AdvGAN方法的攻击效果也均优于FGSM、AdvGAN方法,以上结果充分证明了Diff-AdvGAN方法在防御条件下的攻击有效性。

2.4.3 消融实验

为了进一步验证Diff-AdvGAN方法中关键模块的作用,在MNIST数据集上针对LeNet C模型、在CIFAR-10数据集上针对ResNet32模型进行消融实验。在AdvGAN基准模型基础上,将只采用自适应空间特征融合模块的实验命名为+ASFF,将只采用随机微分引导模块的实验命名为+SDGM。

表4所示,Diff-AdvGAN在各评价指标上均取得最优结果,说明Diff-AdvGAN方法的特征融合策略和优化扰动策略可提升对抗样本的攻击成功率,提高扰动稀疏性,降低扰动幅度。具体分析,+ASFF、+SDGM相比AdvGAN方法,在MNIST数据集上的攻击成功率分别提升了1.2%和0.66%,在CIFAR-10数据集上分别提升了0.74%和0.31%,说明结合全局特征和细节信息的特征融合策略能使生成器在图像关键区域生成扰动,生成的对抗样本更易误导目标模型。同时,+SDGM相比+ASFF,l0l1l2范数均下降,说明通过SDGM模块优化扰动,增强了扰动的可控性,生成的扰动稀疏性高、整体幅度小,提高了对抗样本的真实性。

2.4.4 对抗样本可视化

图7图8分别展示了MNIST和CIFAR-10数据集上生成的对抗样本示例。从图7(b)和图8(b)中可以看出,AdvGAN方法生成的扰动偏离图像关键区域,条状噪声较多,扰动幅度过大。Diff-AdvGAN方法融合了图像全局特征和细节信息,使生成器在图像关键区域生成扰动,且经SDGM模块优化,增强了扰动可控性。如图7(c)和图8(c)所示,扰动大多分布在图像关键区域,稀疏性高,幅度小且生成的对抗样本真实性高。

为验证Diff-AdvGAN方法对高分辨率图像的攻击性能,在ImageNet数据集上攻击了预训练的VGG16_BN(top-1错误率为23.7%,top-5错误率为6.8%)模型,将ImageNet验证集作为测试集生成了5万张对抗样本。经过多次测试,Diff-AdvGAN方法的攻击成功率均大于99%。如图9所示,生成的扰动在决定图像类别的关键区域,扰动稀疏性高、幅度小,生成的对抗样本人眼不易区分。

3 结束语

本文提出了一种改进的图像对抗样本生成方法Diff-AdvGAN,通过自适应空间特征融合模块获取图像的全局特征和细节信息,使生成器在图像关键区域生成扰动,提升了攻击效果。同时,构造了一个随机微分引导模块,利用其反向过程增强扰动的可控性,提升了扰动的稀疏性并降低了幅度,生成了真实性高的对抗样本。实验结果表明,Diff-AdvGAN方法生成的关键扰动可有效误导目标模型,且稀疏性高、幅度小,生成的对抗样本更加真实。

参考文献

[1]

Kim I, Baek W, Kim S. Spatially attentive output layer for image classification[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Los Alamitos, CA, USA, 2020: 9533-9542.

[2]

Boutros F, Damer N, Kirchbuchner F, et al. Elasticface: Elastic margin loss for deep face recognition[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, LA, USA, 2022: 1578-1587.

[3]

Hausler S, Garg S, Xu M, et al. Patch-netvlad: Multi-scale fusion of locally-global descriptors for place recognition[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Los Alamitos, CA, USA, 2021: 14141-14152.

[4]

Szegedy C, Zaremba W, Sutskever I, et al. Intriguing properties of neural networks[C]∥2nd International Conference on Learning Representations, Banff, AB, Canada, 2014: 23-41.

[5]

吉顺慧, 胡黎明, 张鹏程, . 基于稀疏扰动的对抗样本生成方法[J]. 软件学报, 2023, 34(9): 4003-4017.

[6]

Ji Shun-hui, Hu Li-ming, Zhang Peng-cheng, et al. Adversarial example generation method based on sparse perturbation[J]. Journal of Software, 2023, 34(9): 4003-4017.

[7]

Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples[J/OL]. [2025-05-01].

[8]

Kurakin A, Goodfellow I J, Bengio S. Adversarial examples in the physical world[C]∥5th International Conference on Learning Representations, Toulon, France, 2017: 1-14.

[9]

Carlini N, Wagner D. Towards evaluating the robustness of neural networks[C]∥2017 IEEE Symposium on Security and Privacy, San Jose, CA, USA, 2017: 39-57.

[10]

Baluja S, Fischer I. Adversarial transformation networks: learning to generate adversarial examples[J/OL]. [2025-05-01].

[11]

Zhao Z L, Dua D, Singh S. Generating natural adversarial examples[C]∥6th International Conference on Learning Representations, Vancouver, BC, Canada, 2018: 1-15.

[12]

Arjovsky M, Chintala S, Bottou L. Wasserstein generative adversarial networks[C]∥Proceedings of the 34th International Conference on Machine Learning, Sydney, NSW, Australia:, 2017: 214-223.

[13]

Zhang W J. Generating adversarial examples in one shot with image-to-image translation GAN[J]. IEEE Access, 2019, 7: 151103-151119.

[14]

Xiao C W, Li B, Zhu J Y, et al. Generating adversarial examples with adversarial networks[C]∥Proceedings of the 27th International Joint Conference on Artificial Intelligence, Stockholm, Sweden, 2018: 3905-3911.

[15]

黄帅娜, 李玉祥, 毛岳恒, . 基于集成advGAN的黑盒迁移对抗攻击[J]. 吉林大学学报: 工学版, 2022, 52(10): 2391-2398.

[16]

Huang Shuai-na, Li Yu-xiang, Mao Yue-heng, et al. Black-box transferable adversarial attacks based on ensemble advGAN[J]. Journal of Jilin University (Engineering and Technology Edition), 2022, 52(10): 2391-2398.

[17]

刘悦文, 孙子文. 抵御对抗攻击的生成对抗网络IWSN入侵检测模型[J]. 江苏大学学报: 自然科学版, 2025, 46(5): 562-569.

[18]

Liu Yue-wen, Sun Zi-wen. Intrusion detection model based on generative adversarial networks in IWSN against adversarial attacks[J]. Journal of Jiangsu University (Natural Science Edition), 2025, 46(5): 562-569.

[19]

Jandial S, Mangla P, Varshney S, et al. AdvGAN++: harnessing latent layers for adversary generation[C]∥2019 IEEE/CVF International Conference on Computer Vision Workshop, Los Alamitos, CA, USA, 2019: 2045-2048.

[20]

Singh J, Gould S, Zheng L. High-fidelity guided image synthesis with latent diffusion models[C]∥2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, BC, Canada, 2023: 5997-6006.

[21]

Podell D, English Z, Lacey K, et al. SDXL: improving latent diffusion models for high-resolution image synthesis[J/OL]. [2024-05-03].

[22]

Dai X L, Liang K S, Xiao B. AdvDiff: generating unrestricted adversarial examples using diffusion models[J/OL]. [2024-05-03].

[23]

Chen X Q, Gao X T, Zhao J J, et al. Advdiffuser: Natural adversarial example synthesis with diffusion models[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision, Paris, France, 2023: 4562-4572.

[24]

Liu D C, Wang X J, Peng C L, et al. Adv-diffusion: Imperceptible adversarial face identity attack via latent diffusion model[C]∥Proceedings of the AAAI Conference on Artificial Intelligence, 2024, 38(4): 3585-3593.

[25]

Liu S T, Huang D, Wang Y H. Learning spatial fusion for single-shot object detection[J/OL]. [2024-05-03].

[26]

Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851.

[27]

Song J M, Meng C L, Ermon S. Denoising diffusion implicit models[J/OL]. [2024-05-03].

[28]

Tramèr F, Kurakin A, Papernot N, et al. Ensemble adversarial training: attacks and defenses[C]∥6th International Conference on Learning Representations, Vancouver, BC, Canada, 2018: 1-20.

[29]

Madry A, Makelov A, Schmidt L, et al. Towards deep learning models resistant to adversarial attacks[C]∥6th International Conference on Learning Representations, Vancouver, BC, Canada, 2018: 1-23.

基金资助

国家自然科学基金项目(62166025)

AI Summary AI Mindmap
PDF (5545KB)

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/