『paper-CV-3』《PGD》

《Towards Deep Learning Models Resistant to Adversarial Attacks》

From International Conference on Learning Representations (2018)

一、本文贡献

  • 将过去的深度学习模型攻击/防御方法融合到同一个框架下,抵抗广泛而非单一的攻击类别
  • 证明了 Projected Gradient Descent (PGD) 是鞍点问题的最佳优化方法
    • PGD 是 一阶最强对抗攻击方法
    • 针对 PGD 对抗攻击提出对抗训练策略
  • 揭示了抵御对抗攻击需要更大的网络容量:解决鞍点问题的 鲁棒决策边界普通决策边界 复杂得多
  • 在数据集 MNISTCIFAR10 上训练出针对各种对抗攻击都具备防御能力的鲁棒网络

二、对抗鲁棒性

  • 标准的神经网络任务:给定数据集 \(\mathcal{D} = \{ (x, y) \ | \ x \in \mathbb{R}^d \ , \ y \in [k] \}\),损失函数 \(L(\theta, x, y)\),目标是得到最优模型参数 \(\theta^{*}\)\[ \theta^{*} = \text{argmin}_{\theta} \ \mathbb{E}_{(x, y) \sim \mathcal{D}} [L(x, y, \theta)] \] 以上方法遵循 emperical risk minimization (ERM) 准则,其具备以下特点:

    • 优势:在传统任务上效果显著稳定
    • 问题:不会训练出针对对抗性样本稳定的模型,面对对抗攻击鲁棒性差
  • 威胁模型:对于每个数据点 \(x \in \mathbb{R}^d\),设定一个小扰动范围 \(\mathcal{S} \subseteq \mathbb{R}^d\),使得 \(F_{\theta}(x + \delta) \ne F_{\theta}(x)\)\(\delta \in \mathcal{S}\)

  • 鞍点优化问题:相较于标准的神经网络任务,先对输入进行扰动,再最小化对抗训练损失得到最优模型参数 \(\theta^{*}\) \[ \begin{align} \theta^{*} &= \text{argmin}_{\theta} \ \rho(\theta) \\ \textbf{ where } \rho(\theta) &= \mathbb{E}_{(x, y) \sim \mathcal{D}} [\max_{\delta \in \mathcal{S}} L(\theta, x+\delta, y)] \end{align} \]

    • 内部最大化:攻击过程,通过微小扰动使得对抗损失最大化
    • 外部最小化:在对抗样本上进行对抗训练,得到鲁棒学习器

    注意:“鞍点问题” 定义了鲁棒学习器应当实现的目标,当 对抗损失 = 0 时可认为学习器是完全鲁棒的,没有攻击能欺骗网络


三、对抗性攻击与训练

  • 梯度攻击:内层最大化过程的梯度方向,恰好就是对抗损失下降的方向 —— Danskin’s theorem

    • FGSM:基于 \(\mathcal{l}_{\infty}\) 有界的对抗攻击方法,一步生成对抗样本: \[ x^{(adv)} = x + \epsilon \ \text{sgn} \ (\nabla_x L(\theta, x, y)) \] 以上公式中 \(\text{sgn}\) 是符号函数,\(\epsilon\) 是学习率,\(L\) 是内层损失函数

    • PGD:更优的攻击方法,迭代生成对抗样本:第 \(t\) 步更新过程如下 \[ x^{(t+1)} = \Pi_{x^{(0)} + \delta} (x^{(t)} + \alpha \ \text{sgn}(\nabla_{x^{(t)}} L(\theta, x^{(t)}, y))) \] 以上公式中 \(\Pi\) 是投影算子用来限定扰动范围\(\alpha\) 是学习率,\(L\) 是内层损失函数

  • 对抗性训练:直接将对抗样本注入训练集中,对混合数据集进行训练;随机设置 \(\epsilon \sim \mathcal{N}\) 有助于提高模型鲁棒性

  • 网络容量:训练鲁棒学习器需要更大的网络容量


四、实验评估

  • 基于混入对抗样本的 MNIST 和 CIFAR10 数据集训练;训练过程中 adversarial loss 骤降
    说明对抗性训练有效解决了鞍点问题

『paper-CV-3』《PGD》
http://larry0454.github.io/2024/11/29/paper/CV/AML/PGD/
Author
WangLe
Posted on
November 29, 2024
Licensed under