元微调对抗训练：面向多类型对抗攻击的对抗训练改进方法

刘文钊; 杨奎武; 陈越; 郭靖臣; 胡学先

doi:10.3969/j.issn.1671-0673.2025.04.014

信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (04) : 470 -477. DOI: 10.3969/j.issn.1671-0673.2025.04.014

网络空间安全

元微调对抗训练：面向多类型对抗攻击的对抗训练改进方法

刘文钊 ¹^,² ,
杨奎武 ¹ ,
陈越 ¹ ,
郭靖臣 ¹ ,
胡学先 ¹

作者信息 +

Meta Fine-Tuning Adversarial Training: An Improved Adversarial Training Approach for Multiple Types of Adversarial Attacks

Wenzhao LIU ¹^,² ,
Kuiwu YANG ¹ ,
Yue CHEN ¹ ,
Jingchen GUO ¹ ,
Xuexian HU ¹

Author information +

文章历史 +

PDF (1865K)

摘要

作为提高模型鲁棒性的重要技术，对抗训练存在训练成本高昂、无法抵御多种对抗攻击的问题。提出一种基于元学习的对抗训练改进方法，通过结合预训练微调和扩散模型数据生成策略，设计了双分支训练架构：一个分支在l_∞鲁棒模型上进行微调以提高l_∞鲁棒性；另一个分支针对组合对抗攻击训练，增强模型对非l_p 范数攻击的防御能力。训练中，两个分支的权重通过混合模型进行融合，并以定期重新初始化，使最终模型同时具备抵御l_∞攻击和组合对抗攻击的能力。实验结果表明，所提方法在保持l_∞鲁棒性的同时，在组合对抗鲁棒性基准（CARBEN）上对组合对抗攻击的防御达到了优异水平。

Abstract

Adversarial training, as an important technique for enhancing model robustness, faces problems of high training costs and inability to defend against multiple adversarial attacks. An improved adversarial training approach based on meta-learning is proposed. By integrating pre-training fine-tuning and diffusion model data generation strategies, a dual-branch training architecture is designed. One branch is fine-tuned on an l_∞ robust model to improve its l_∞ robustness, and the other branch trains against composite adversarialattacks to enhance the model’s defense capabilities against non-l_p norm attacks. During training, the weights of both branches are fused through a mixed model and periodically reinitialized, enabling the final model to simultaneously resist both l_∞ attacks and composite adversarial attacks. Experimental results show that the proposed approach maintains l_∞ robustness while achieving superior defensive performance against composite adversarial attacks on the composite adversarial robustness benchmark (CARBEN).

Graphical abstract

关键词

对抗训练 / 组合对抗攻击 / 对抗鲁棒性 / 元学习

Key words

adversarial training / composite adversarial attack / adversarial robustness / meta-learning

引用本文

引用格式 ▾

刘文钊,杨奎武,陈越,郭靖臣,胡学先. 元微调对抗训练：面向多类型对抗攻击的对抗训练改进方法[J]. 信息工程大学学报, 2025, 26(04): 470-477 DOI:10.3969/j.issn.1671-0673.2025.04.014

登录浏览全文

4963

注册一个新账户忘记密码

尽管深度神经网络在许多领域表现出色，但对抗攻击严重威胁了模型的鲁棒性和可靠性。对抗攻击通过在输入数据中添加微小扰动来欺骗神经网络，从而导致潜在的安全风险。多种防御方法已被提出^[1]，其中对抗训练被证明最为有效^[2]。但对抗训练的成本数十倍于普通训练方法，尤其是很多先进的鲁棒模型都采用了如WideResNet70-16（WRN70-16）等大型架构，因而如何在现有模型基础上改进鲁棒性成为关键问题。

在鲁棒模型上进行微调以提高鲁棒性和应对不同类型攻击的能力受到广泛关注。然而，微调后的模型可能导致原有鲁棒性降低，进而影响特征表示及下游任务。同时，鲁棒过拟合和正常泛化与对抗鲁棒性间的权衡问题进一步增加微调的难度^[3]。文献[4]采用扩散模型生成的数据进行对抗训练，将模型的l_∞鲁棒性提升至70%以上，显著突破传统方法的鲁棒性瓶颈。然而，随着对抗攻击方法的不断演变，现有对抗训练框架仍面临根本性局限：其防御机制主要针对单一攻击类型（如l_∞扰动），难以抵御组合对抗攻击（Composite Adversarial Attack, CAA）^[5]和保留语义特征的非l_p 对抗攻击^[6]（如颜色、几何和纹理扰动等新型攻击）。针对CAA的防御方法广义对抗训练（Generalized Adversarial Training, GAT）^[5]虽能提升组合扰动下的鲁棒性，但会牺牲模型对单一攻击的防御能力。

针对以上问题，借鉴元学习思想，提出一种结合预训练微调和扩散模型生成数据的元微调对抗训练方法。该方法通过两个分支实现：一个分支基于扩散模型生成的数据持续微调，以保持l_∞鲁棒性增长；另一分支在组合对抗攻击上进行对抗训练，使模型具备防御非l_p 对抗攻击的能力。通过动态参数更新融合两分支的鲁棒性，形成一个兼具l_∞鲁棒性和抵御非l_p 对抗攻击能力的混合模型。实验表明，所提方法在标准对抗鲁棒性基准（Standardized Adversarial Robustness Benchmark, RobustBench）^[7]和组合对抗鲁棒性基准（Composite Adversarial Robustness Benchmark, CARBEN）^[5]上，不仅保持了模型的l_∞鲁棒性，而且对组合对抗攻击表现出更强的防御能力。

1 相关工作

1.1 对抗训练

对抗训练方法是增强模型鲁棒性的有效手段，其核心思想是将对抗样本纳入训练过程，可以形式化为寻找最优模型参数，使得在最具挑战性的对抗样本上损失最小，如优化问题1所示：

a r g m i n f E (x, y) ~ 𝒟 m a x x - x a d v p ≤ ε 𝓁 C E (f (x a d v), y)

。

其中：

E

[·]表示期望函数；( x,y)

~ 𝒟

表示输入样本 x 及其对应标签y从数据分布

𝒟

中采样得到；

∙ p

表示l_p 范数度量；

ε

表示限定对抗扰动的范围；

𝓁 C E

表示交叉熵损失函数；f表示神经网络模型；

x a d v

表示对抗样本。内部最大化是在满足l_p 范数约束下求使损失函数最大的对抗样本

x a d v

，同时最小化模型f在对抗样本上的期望损失。

对抗训练的现有研究主要分为两个方向：一是单攻击类型防御，研究者通过改进训练过程^[8]或引入额外数据^[4]来提升效果，但通常仅针对特定l_p 攻击，泛化能力有限；二是多攻击类型防御，研究者尝试联合优化多范数对抗样本^[9]，或将攻击从单一l_p 范数扩展到组合语义攻击（Semantic Attack, SA）进而进行GAT^[5]，但后者可能导致单一l_∞攻击的防御性能下降。

通过引入扩散模型生成的数据，基于对抗训练阐明扩散模型（Adversarial Training-Elucidating Diffusion Model, AT-EDM）^[4]进行对抗训练，在维持高l_∞鲁棒性的同时，不仅提高干净样本的准确度，而且通过双分支训练框架扩展对非l_p 攻击的防御。

1.2 微调技术

微调技术是在预训练模型基础上进一步训练以适应特定任务的方法，在对抗鲁棒性领域可分为3类。

1）通过参数约束与结构设计保留预训练特征的鲁棒性。TWINS（Two-Wing NormliSation）框架^[10]通过分离冻结网络与自适应网络的双分支结构，保留预训练模型批归一化层统计特性，但其性能依赖较低鲁棒性的模型。RiFT（Robustness Critical Fine-Tuning）方法^[11]通过识别非鲁棒关键模块进行微调，但模块选择过程需依赖复杂计算且对模型架构敏感。Surgical Fine-Tuning^[12]通过选择性更新特定层参数，但效果受限于人工设计的微调策略。

2）通过优化扩展模型对多类型攻击的防御范围。E-AT（Extreme norm Adversarial Training）方法^[13]通过交替优化l₁和l_∞威胁模型的对抗样本，实现对多种威胁模型的鲁棒性，但防御范围仍局限于传统l_p 扰动。WiSE-FT（Weight-Space Ensembles for Fine-Tuning）方法^[14]通过权重空间线性插值提高模型在多种分布偏移下的性能，但未专门针对对抗攻击设计。

3）结合特定训练机制实现鲁棒性迁移。对抗对比学习^[15]将预训练阶段的对比学习与对抗样本生成结合，通过特征空间一致性约束增强模型鲁棒性，但效果受限于预训练任务与下游任务相关性。文献^[16]提出基于动态学习率调度的对抗微调方法，但其鲁棒性上限受限于源模型的鲁棒性。

本文提出的双分支动态融合架构，通过在先进的鲁棒模型上进行较少轮次的微调，充分利用微调技术的效率优势，达到了与RobustBench上先进模型相当的鲁棒性，同时通过元学习的思想动态融合两个分支的模型参数，突破了对单一l_p 攻击的防御局限，超过了CARBEN上的防御模型。

2 元微调对抗训练方法

2.1 方法概览

方法的整体框架包含两个分支和3个模型，如图1所示。两个分支分别为l_∞ 对抗训练分支和组合对抗训练分支，分别对应l_∞ 攻击鲁棒模型M₁和组合对抗攻击鲁棒模型M₂。混合模型M_g用于初始化两个分支的模型参数，并且在训练过程中混合两个分支的模型参数。

第1个分支采用l_∞ 范数对抗样本作为输入训练模型M₁，并将其参数以比例

β

更新到混合模型M_g中。第2个分支是从攻击集合中按照随机顺序对图片依次施加攻击，然后将攻击后的图片作为输入训练模型M₂，将其参数以比例（1- β）更新到混合模型M_g中。模型M_g以指数滑动平均的方式更新，即将自身的历史模型参数和两个分支的模型参数以一定比例混合，并以一定的间隔初始化两个分支的模型。参与训练的样本是原始数据集和扩散模型生成的数据集以一定比例混合的样本数据集。

**2.2 l_∞ 对抗训练分支**

l_∞ 对抗训练分支的设计主要基于两个方面的考虑：1）采用已有的先进l_∞ 鲁棒模型的参数作为初始化，减小对抗训练开销，保证模型具有更高的鲁棒性起点；2）在采用扩散模型生成的数据作为对抗训练的数据来源时，减轻鲁棒过拟合的影响，同时保证干净准确率。对抗训练的学习目标采用基于替代损失最小化的权衡启发式对抗防御（Tradeoff-Inspired Adversarial Defense via Surrogate-Loss Minimization, TRADES）损失^[3]，如优化问题2所示：

a r g m i n θ 1 E (x, y) ∼ 𝒟 [𝓁 C E (f θ 1 (x), y) + λ ⋅ m a x x a d v ∈ ℬ p (x, A l ∞, ε) 𝓁 K L (f θ 1 (x), f θ 1 (x a d v))] 。

其中：

θ 1

表示l_∞ 对抗训练分支1的模型参数；

𝓁 K L

表示Kullback-Leibler散度；

λ

表示用来平衡干净准确率和鲁棒准确率的超参数；

A l ∞

表示采用l_∞ 投影梯度下降（Projected Gradient Descent, PGD）对抗攻击；

ℬ p

表示以原始样本

x

为中心、半径为

ε

的p-范数球，定义了对抗样本

x a d v

的约束范围。

在CIFAR-10（Canadian Institute for Advanced Research-10）上，仅用原始数据集不能达到较好的鲁棒准确率，需要与扩散模型生成的数据混合，才能达到最优结果。如图1所示，

η

是生成数据混合比例，训练时混合后的数据需同时输入两个分支。

2.3 组合对抗训练分支

组合对抗训练分支基于当前表现最优的鲁棒模型进行较少轮次的微调，同时用扩散模型生成的数据增加该分支的鲁棒泛化能力，训练目标如优化问题3所示：

a r g m i n θ 2 E (x, y) ∼ 𝒟 m a x x a d v ∈ ℬ p (x; Ω; S) 𝓁 C E (f θ 2 (x a d v), y)

。

其中：

θ 2

表示组合对抗训练分支2的模型参数；

Ω = {A 1, A 2, …, A N}

表示攻击集合；

S = {ε 1, …, ε N}

表示相应攻击的扰动范围的集合，

ε n = [a n, b n]

表示扰动范围。

记

ℐ N = {i} i = 1 N

，给定分配函数

φ : ℐ N → ℐ N

，那么组合对抗样本可表示为

x a d v = A φ (N) (A φ (N - 1) (⋯ A φ (1) (x)))

（1）

A n (x)

表示为寻找扰动

δ n

，使得模型在扰动样本上的损失最大化，如优化问题4所示：

a r g m a x δ n ∈ ε n 𝓁 (f (A n (x; δ n)), y)

。

对于最优攻击顺序

φ *

的求解，即是求优化问题3中的最大化问题，如优化问题5所示：

m a x φ 𝓁 (f (A φ i (N) (A φ i (n - 1) (⋯ A φ i (1) (x)))))

。

通过优化问题4和优化问题5仅优化单个攻击无法保证对其他攻击在整个攻击序列的优化，通过定义双随机调度矩阵

Z t = [z 1, …, z N] T

，其中

z j ∈ R N, ∑ i z i j = ∑ j z i j = 1

，以及代理对抗样本

x s u r r = z N T A (⋯ (z 2 T A (z 1 T A (x))))

，其中

A T = (A 1, …, A N)

，将优化问题5的最大化问题转化为调度矩阵的迭代更新：

Z t = 𝒮 e x p Z t - 1 + ∂ 𝓁 (f (x s u r r), y) ∂ Z t - 1

（2）

式中，

𝒮 ·

表示Sinkhorn归一化，保证每次迭代后得到的矩阵仍然是双随机的。接着利用匈牙利分配算法得到优化后的攻击顺序：

φ * (j) ≔ a r g m a x z j, ∀ j ∈ {1, …, N}

（3）

考虑到训练效率，组合语义对抗攻击采用随机顺序，评估时采用攻击顺序

φ *

。攻击集合

Ω

中采用了色调攻击、饱和度攻击、亮度攻击、对比度攻击、旋转攻击和PGD攻击，扰动

δ n

通过下式求解：

δ n t = c l i p ε n (δ n t - 1 + α ⋅ s i g n (∇ δ n t - 1 𝓁 (f (A n (x; δ n t - 1)), y)))

（4）

式中：

c l i p ·

操作将值限制在特定范围

ε n

内，当值小于下界时取下界，大于上界时取上界，否则保持原值；

s i g n ·

函数返回梯度的符号（正为+1，负为-1，零为0）。

得到扰动后，色调（Hue）攻击、饱和度（Saturation）攻击在相应语义空间中的值分别表示为：

x H u e t = H u e (x a d v t) = c l i p [0,2 π] (x H u e + δ H u e t)

（5）

x S a t t = S a t (x a d v t) = c l i p [0,1] (x S a t ⋅ δ S a t t)

（6）

亮度（Brightness）攻击、对比度（Contrast）攻击、旋转（Rotation）攻击对 x 施加扰动后的对抗样本分别表示为：

x a d v t = A B r i (x) = c l i p [0,1] (x + δ B r i t)

（7）

x a d v t = A C o n (x) = c l i p [0,1] (x ⋅ δ C o n t)

（8）

x a d v t (i', j') = A R o t (x (i, j)),

i' j' = c o s δ R o t t ⋅ i + s i n δ R o t t ⋅ j + (1 - c o s δ R o t t) ⋅ o c - s i n δ R o t t ⋅ o c - s i n δ R o t t ⋅ i + c o s δ R o t t ⋅ j + s i n δ R o t t ⋅ o c + (1 - c o s δ R o t t) ⋅ o c

（9）

式中：

o c

表示图像中心点坐标；

δ R o t t

表示t步骤旋转角度扰动，初始角度

δ R o t 0

从扰动范围

ε R o t = [a R o t, b R o t]

中均匀采样，扰动更新遵循式（4）。

2.4 元学习过程

混合模型的参数初始化由已发布的l_∞ 鲁棒模型提供。当两个分支完成各自任务的训练后，需混合模型参数以获得同时具备双重鲁棒性的模型。利用模型权重平均可以获得平坦的损失景观，提高模型鲁棒性。同时，神经网络的模式连通性质表明不同局部最小值在参数空间中可由简单路径连接，且路径上能获得相似损失值。

利用以上性质，两个分支分别采用模型权重平均：

θ 1' (t) = τ ⋅ θ 1' (t - 1) + (1 - τ) ⋅ θ 1 (t)

（10）

θ 2' (t) = τ ⋅ θ 2' (t - 1) + (1 - τ) ⋅ θ 2 (t)

（11）

式中：

τ

表示指数滑动平均的衰减率；

θ 1 (t)

和

θ 2 (t)

分别表示两个分支在第t步训练后的模型参数；

θ 1' (t)

和

θ 2' (t)

分别表示各分支混合前一步平滑参数

θ i' (t - 1)

（i=1,2）和当前模型参数

θ i (t)

所得到的平滑参数。

为防止各分支训练过程中偏离，每隔c步在混合模型上对两分支参数进行线性组合，并应用模型权重平均：

θ g' (t) = τ ⋅ θ g' (t - 1) + (1 - τ) ⋅ (β ⋅ θ 1' (t) + (1 - β) ⋅ θ 2' (t))

（12）

式中：

β

表示分支模型混合系数；

θ g' (t)

和

θ g' (t - 1)

分别表示前一步和当前的混合模型参数。

基于元学习的策略主要体现在以下内容。1）任务划分：两个分支对应不同任务，具有各自的损失函数和数据分布；2）内循环：各分支基于混合模型参数进行梯度更新，快速适应各自任务；3）外循环：分支参数更新c步后加权求和，更新混合模型参数；4）周期性：用混合模型参数重新初始化两分支，开始新的内循环。

最终，元微调对抗训练框架结合了微调、元学习和对抗训练3种策略，通过两个分支针对不同类型对抗攻击进行优化，利用元学习整合不同任务的梯度信息，提高模型的快速适应能力和泛化能力，使混合模型同时具备l_∞ 范数对抗攻击和组合对抗攻击的鲁棒性。整体算法如算法1所示。

算法1 元微调对抗训练算法

输入：混合模型

f θ g

，l_∞ 对抗训练分支模型

f θ 1

及其指数滑动平均参数

θ 1'

，语义对抗训练分支模型

f θ 2

及其指数滑动平均参数

θ 2'

，预训练鲁棒模型参数

θ 0

，训练轮次T，攻击迭代步数K，学习率

γ

，指数衰减率

τ

，模型混合系数

β

，重新初始化的间隔c，原始训练数据分布

𝒟 1

，扩散模型数据分布

𝒟 2

，数据批处理大小B，数据混合比例

η

输出：混合模型

f θ g

的参数

θ g

1. 初始化参数

θ 1, θ 1', θ 2, θ 2', θ g ← θ 0

2. for t←1,2,…,T do

3. 从

𝒟 1

和

𝒟 2

中采样

(1 - η) B

和

η B

数据构成

𝒟

x a d v 0 ← x + δ, δ ∼ U n i f o r m (ε 0, ε 1)

5. for k←1,2,…,K do

6. 根据优化问题2的内部最大化求

x a d v k

7. end for

θ 1 ← θ 1 - γ E (x, y) ∼ 𝒟 ∇ θ 1 [𝓁 C E (f θ 1 (x), y) + λ ⋅

𝓁 K L (f θ 1 (x), f θ 1 (x a d v K)]

θ 1' ← τ ⋅ θ 1' + (1 - τ) ⋅ θ 1

10. 初始化扰动

δ 10

,…,

δ N 0

11. 随机排列{1,…, n}得

φ = (φ (1), …, φ (N))

12. for n=1,2, …, N do

13.

A * = A φ (n)

δ * 0 = δ φ (n) 0

ε * = ε φ (n)

14.

x a d v n ← A * (x a d v n - 1; δ * 0)

15. for k←1,2,…,K do

16. 通过式（4）求得

δ * k

17.

x a d v n ← A * (x a d v n - 1; δ * k)

18. end for

19. end for

20.

θ 2 ← θ 2 - γ E (x, y) ∼ 𝒟 ∇ θ 2 𝓁 C E (f θ 2 (x a d v N), y)

21.

θ 2' ← τ ⋅ θ 2' + 1 - τ ⋅ θ 2

22.

θ g ← τ ⋅ θ g + 1 - τ ⋅ β ⋅ θ 1' + (1 - β) ⋅ θ 2'

23. if t mod c == 0 then

24.

θ 1

θ 1'

θ 2

θ 2'

← θ g

25. end if

26. end for

27. return

f θ g

3 实验结果与分析

3.1 实验设置

数据集：使用CIFAR-10数据集（共10类，每类有6 000张32×32图片），包含50 000张训练图片及10 000张测试图片。训练时从训练集划分1 024张作为验证集。

生成数据：使用类条件EDM扩散模型生成的100万扩展数据与原始CIFAR-10进行混合训练，生成数据比例为

η

。首先用EDM扩散模型为每类生成50万张图像，其次使用预训练WRN28-10模型为每类选取得分前20%的图像，最终得到100万张生成图像。

威胁模型：l_∞分支使用PGD-10攻击（扰动范围8/255，步长2/255）；组合对抗训练分支采用CAA_full，包括5种语义扰动（色调、饱和度、旋转、亮度和对比度攻击）和PGD-10攻击，调度采用随机策略。

训练配置：微调使用WRN28-10和WRN70-16架构，采用TRADES损失，训练10轮，初始学习率0.001，批次大小256，生成数据比例0.5，模型权重平均衰减率

τ

=0.995。混合系数

β

动态调整，在第1、3、6、10轮分别为1、0.8、0.6、0.4。每隔5轮用混合模型重新初始化两分支。

评估基线：模型在自动攻击（Auto Attack, AA）、SA、CAA等攻击下评估，AA扰动范围8/255，CAA包括CAA_3a（色调、饱和度、PGD）、CAA_3b（色调、旋转、PGD）、CAA_3c（亮度、对比度、PGD）和CAA_full。对比模型包括CARBEN中的GAT、AT-EDM、Madry^[2]、TRADES^[3]和对抗权重扰动（Adversarial Weight Perturbation, AWP）^[8]模型。使用测试集的前1 000张图片评估防御性能。

评估指标：采用干净准确率（Clean Accuracy, CA）和鲁棒准确率（Robust Accuracy, RA）作为评估指标。干净准确率衡量模型对原始样本的分类准确度，可表示为

C A (f, 𝒟) = 1 | 𝒟 | ∑ (x i, y i) ∈ 𝒟 I f (x i) = y i

（13）

式中：I(·)表示指示函数；

𝒟

表示数据集

𝒟

的大小。鲁棒准确率衡量模型对特定攻击

A

生成样本的防御能力，可表示为

R A (f, A, ε, 𝒟) = 1 𝒟 ∑ x i, y i ∈ 𝒟 I f A (x i; ε) = y i

（14）

计算资源：WRN28-10模型在单块NVIDIA RTX A100（80 GB显存）上训练，WRN70-16模型在3块NVIDIA RTX A100上并行训练，所有实验训练10个epoch。

3.2 防御性能

表1展示了本文采用的对抗训练元微调方法与其他方法的对比结果，最佳结果标记为粗体。

本文方法在CAA攻击下的防御性能显著优于现有方法：在相同架构的CAA_3a攻击下，比AT-EDM（WRN70-16）提升了15.5%（61.8%对比53.5%）；在相同架构的CAA_3c攻击下，比GAT-f（WRN28-10）提升了56.6%（39.3%对比25.1%）；在不同架构的CAA_full攻击下比GAT-fs（WRN34-10）提升了6.8%（23.7%对比22.2%），在相同架构的CAA_full攻击下比GAT-f（WRN28-10）提升了51.3%（23.0%对比15.2%）。需说明的是，虽然本文方法对CAA的防御性能绝对值低于单一的AA和SA，如WRN28-10架构下AA攻击准确率67.0%对比CAA_full攻击准确率23.0%，但这源于CAA攻击本身的复杂性——其融合了多类型语义扰动和PGD攻击，攻击强度远超单一攻击模式。

本文方法WRN28-10、WRN70-16架构在干净准确率上分别达93.5%和93.6%，较AT-EDM分别提升1.2%和0.3%，表明元微调策略能缓解鲁棒性泛化性矛盾。鲁棒准确率上对比显示，本文方法在相同架构的AA攻击下仅比AT-EDM分别降低0.4%和4.1%，而GAT-f在ResNet50架构的AA攻击下比Madry准确率降低23.4%（51.8%至39.7%），印证了传统组合防御方法存在的l_∞ 鲁棒性降低问题。

表2进一步揭示了模型在组合对抗攻击的单个攻击成分下的表现差异。

本文方法在色调、饱和度和旋转攻击中均取得最优结果，仅在PGD-10攻击下略低于AT-EDM。AT-EDM在单个攻击成分中整体优于GAT（如饱和度攻击92.5%对比GAT的85.4%，PGD攻击74.5%对比GAT的49.2%），但在组合对抗攻击中其表现却急剧下降（如SA攻击下AT-EDM准确率23.6%远低于GAT的72.0%，CAA_full攻击下AT-EDM准确率仅7.0%，相比之下GAT达22.2%）。

3.3 消融实验

1）单分支相对多分支。单分支结构分别对l_∞对抗训练分支和组合对抗训练分支进行独立训练，不进行模型融合。图2记录了干净准确率、PGD攻击准确率及组合对抗攻击准确率的变化。Clean1、PGD1表示l_∞对抗分支的变化，Clean2、PGD2、CAA2则为组合对抗分支的变化曲线。两个分支的PGD鲁棒性有约7个百分点的差距，且组合对抗分支在组合对抗攻击下鲁棒性波动较大，这可能是因训练轮次较少无法稳定学习到组合对抗攻击成分。双分支结构下模型在干净准确度上高于单分支结构，PGD鲁棒性曲线平稳下降，组合对抗攻击鲁棒性则呈波动上升趋势，表明双分支结构能稳定组合对抗攻击的学习过程，如图3所示。

2）生成数据的比例。生成数据比例

η

是指整个数据批次中混入生成数据的比例，例如0.2代表每8张原始图片中需要混入2张生成图片。图4展示了生成数据比例对模型性能的影响。由于原始AT-EDM模型已经达到了很好的干净准确率和AA鲁棒性，这两条曲线的变化趋势并不显著，并且没有明显的下降。与AT-EDM不同，本文模型在比例为0.5时对组合对抗攻击鲁棒准确率达到相对较优的性能，在仅有CIFAR-10原始数据或者仅有生成数据时并不能达到很好的性能。这说明生成数据在微调过程中也有助于改善模型的鲁棒性。

3.4 训练成本分析

本文方法采用WRN28-10架构在单块NVIDIA RTX A100上训练，单轮约31 min（批次大小为256），10轮仅需5.2 h，显存占用不足30%。对比而言，GAT-f方法虽单轮耗时相近（约30 min），但需训练150轮，总计75 h，且显存占用高达95%（约77 GB）。传统方法AT-EDM需2 400轮训练，必须依赖4块NVIDIA RTX A100并行（单轮3.45 min^[4]），折算单卡总耗时超500 h。本文通过利用预训练模型和优化训练流程，在10轮内实现模型收敛，显存需求降至GAT方法的三分之一，使单卡高效训练成为可能。

3.5 实验结果分析与讨论

1）现有的对抗训练方法如AT-EDM在单独语义攻击中表现优异，但面对复杂的组合对抗攻击时性能显著下降。这是因为固定防御策略（l_∞ 对抗训练）虽能抵御特定扰动，但缺乏对其他攻击类型以及攻击顺序变化的适应能力。以CAA_3a为例，AT-EDM的准确率从AA攻击的71.0%降至53.5%，在CAA_full攻击中进一步下降至7.0%。相比之下，本文方法通过动态防御策略显著缓解此问题，在CAA_3a攻击中，鲁棒准确率仅从AA攻击的68.1%降至61.8%，在CAA_full攻击中达到23.7%。

2）不同防御方法在各类攻击下的表现差异明显。AT-EDM专注于l_∞ 攻击防御而忽视了对其他攻击类型，导致泛化防御能力受限；GAT为提升组合对抗攻击防御会牺牲部分l_∞ 攻击防御效果。本文方法通过双分支设计实现更好的平衡，PGD防御保持72.1%的准确率（较AT-EDM的74.5%仅降低3.2%），SA攻击达到68.2%的准确率（较AT-EDM的23.6%提升189%），CAA_full攻击达到23.0%的准确率（较WRN28-10架构GAT的15.2%提升51.3%），表明本文方法在不同类型攻击下均能保持较为稳定的防御效果。

4 结束语

本文提出的元微调对抗训练方法克服了传统对抗训练仅考虑单一l_p 攻击的不足，使模型具备防御多种对抗攻击的能力。双分支结构使模型在l_∞鲁棒性和组合对抗攻击防御上均表现出色。由扩散模型生成的额外数据有效改善了鲁棒过拟合问题。实验结果表明，本方法在保持l_∞鲁棒性的同时，对组合对抗攻击展现了优异的防御能力。微调策略避免了从头训练大型对抗鲁棒模型的高成本，为模型在安全敏感应用中的部署提供了支持。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	张田，杨奎武，张万里，等.基于滤波插值图像压缩的对抗样本发放与方法［J］.信息工程大学学报，2022，23（6）：672-678.

[2]	MADRY A， MAKELOV A， SCHMIDT L， et al. Towards deep learning models resistant to adversarial attacks［DB/OL］. （2019-09-04）［2024-11-05］.

[3]	ZHANG H Y， YU Y D， JIAO J T， et al. Theoretically principled trade-off between robustness and accuracy［C］∥Proceedings of the 36th International Conference on Machine Learning. New York， USA： PMLR， 2019：7472-7482.

[4]	WANG Z K， PANG T Y， DU C， et al. Better diffusion models further improve adversarial training［C］∥Proceedings of the 40th International Conference on Machine Learning. New York， USA： PMLR， 2023：36246-36263.

[5]	HSIUNG L， TSAI Y Y， CHEN P Y， et al. Towards compositional adversarial robustness： generalizing adversarial training to composite semantic perturbations［C］∥Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， USA： IEEE， 2023：24658-24667.

[6]	LAIDLAW C， FEIZI S. Functional adversarial attacks［C］∥Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook， USA： Curran Associates Inc.， 2019：10408-10418.

[7]	CROCE F， ANDRIUSHCHENKO M， SEHWAG V， et al. RobustBench： a standardized adversarial robustness benchmark［DB/OL］. （2021-10-11）［2024-11-05］.

[8]	WU D X， XIA S T， WANG Y S. Adversarial weight perturbation helps robust generalization［C］∥Proceedings of the 34th International Conference on Neural Information Processing Systems. New York， USA： ACM， 2020：2958-2969.

[9]	MADAAN D， SHIN J， HWANG S J. Learning to generate noise for multi-attack robustness［C］∥Proceedings of the 38th International Conference on Machine Learning. New York， USA： PMLR， 2021：7279-7289.

[10]	LIU Z Q， XU Y， JI X Y， et al. TWINS： a fine-tuning framework for improved transferability of adversarial robustness and generalization［C］∥Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， USA： IEEE， 2023：16436-16446.

[11]	ZHU K J， HU X X， WANG J D， et al. Improving generalization of adversarial training via robust critical fine-tuning［C］∥Proceedings of the 2023 IEEE/CVF International Conference on Computer Vision. Piscataway， USA： IEEE， 2023：4401-4411.

[12]	LEE Y， CHEN A S， TAJWAR F， et al. Surgical fine-tuning improves adaptation to distribution shifts［DB/OL］. （2023-06-06）［2024-11-05］.

[13]	CROCE F， HEIN M. Adversarial robustness against multiple and single l_p -threat models via quick fine-tuning of robust classifiers［C］∥Proceedings of the 39th International Conference on Machine Learning. New York， USA： PMLR， 2022：4436-4454.

[14]	WORTSMAN M， ILHARCO G， KIM J W， et al. Robust fine-tuning of zero-shot models［C］∥Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， USA： IEEE， 2022：7949-7961.

[15]	JIANG Z Y， CHEN T L， CHEN T， et al. Robust pre-training by adversarial contrastive learning［C］∥Proceedings of the 34th International Conference on Neural Information Processing Systems. Red Hook， USA： Curran Associates Inc.， 2020：16199-16210.

[16]	JEDDI A， SHAFIEE M J， WONG A. A simple fine-tuning is all you need： towards robust deep learning via adversarial fine-tuning［DB/OL］. （2020-12-25）［2024-11-05］.