对抗样本现象学

概述

对抗样本现象学(Phenomenology of Adversarial Examples)研究对抗样本的涌现特性:包括跨模型迁移性、对抗补丁的物理鲁棒性、以及不同模型架构间的共享脆弱性。这些现象揭示了深度学习模型的系统性缺陷,为设计更鲁棒的模型提供了重要线索。

跨模型迁移性

迁移攻击原理

对抗样本最具实践意义的特性之一是迁移性(Transferability):在一个模型上生成的对抗扰动,往往也能成功攻击其他模型。1

攻击者 → 替代模型M₁ → 对抗样本x' → 攻击目标模型M₂

迁移性来源:不同模型学习到相似的输入-输出映射,因此共享类似的决策边界缺陷。

迁移性度量

其中 是攻击算法 在模型 上生成的扰动。

提升迁移性的方法

1. 动量增强(Momentum Iterative Methods)

def mi_fgsm_attack(image, label, model, epsilon=8/255, alpha=1/255, iterations=10, decay=1.0):
    """动量迭代FGSM (MI-FGSM)"""
    momentum = torch.zeros_like(image)
    
    for _ in range(iterations):
        image.requires_grad = True
        output = model(image)
        loss = F.cross_entropy(output, label)
        model.zero_grad()
        loss.backward()
        
        # 更新动量
        grad = image.grad.data
        momentum = decay * momentum + grad / grad.abs().mean()
        
        # 扰动更新
        image = image.detach() + alpha * torch.sign(momentum)
        image = torch.clamp(image, 0, 1)
    
    return image

动量项平滑梯度方向,帮助跳出局部最优,生成更具迁移性的扰动。

2. 输入变换(Input Transformations)

研究表明,对抗样本经过以下变换后仍保持攻击性:

  • 随机调整大小和填充(Resize-and-Padding)
  • 随机色彩空间变换
  • 随机裁剪

这些变换利用了模型对几何变换的不变性缺陷。

3. 通用对抗扰动(UAP)

UAP 是与输入无关的扰动 ,对大量样本具有攻击性:

深度网络决策边界在输入空间中近似平行,使得存在接近正交于所有样本方向的通用扰动方向。

迁移性层级

不同模型架构间的迁移性呈现层级结构:

训练数据
    ↓
通用特征提取器(ResNet/ViT/DenseNet)
    ↓
任务特定层
    ↓
最终预测

攻击者只需破坏通用特征层即可实现跨架构攻击。

物理世界对抗攻击

现实威胁场景

对抗样本不仅存在于数字空间,还能在物理世界中存活。典型的物理攻击包括:

  1. 对抗补丁(Adversarial Patches):贴在物体上的图案
  2. 对抗涂鸦:路标上的微小修改
  3. 对抗光照:投影攻击
  4. 对抗纹理:衣物、背景纹理

EOT 框架

Expectation over Transformation(EOT)框架系统性地建模物理世界的变换分布:2

其中 是物理变换分布(角度、距离、光照等)。

物理鲁棒性分析

物理对抗样本面临的关键挑战:

变换类型影响缓解策略
视角变化扭曲扰动图案多视角训练
光照变化改变颜色分布颜色空间增强
距离变化图案尺度变化尺度不变攻击
噪声积累相机噪声干扰鲁棒损失函数

3D 对抗对象

最近的研究聚焦于3D 对抗对象(3D打印物体、曲面印刷):

  • 3D物体经过不同视角投影后仍保持攻击性
  • 需要考虑几何变形和光照模型
  • NIPS 2017 的3D对抗兔子是典型案例

对抗样本的几何特性

决策边界几何

对抗样本集中在决策边界附近的低曲率区域

                    决策边界
                       ↓
                 ~~~~~~~~~~~~
              ~~            ~~
            ~    对抗样本      ~
           /        聚集        \
          /                      \
    类别A                    类别B

深度网络的决策边界在局部近似平面,导致:

  • 大量对抗样本存在于边界附近
  • 随机扰动有较高概率越过边界
  • 这解释了对抗样本的普遍性

对抗子空间维度

对抗样本并非随机噪声,而是存在于低维对抗子空间中:

  • 对于给定样本,存在约 25-30 维的对抗子空间
  • 在该子空间内,大多数方向都指向对抗样本
  • 这与高维空间的几何性质相关

模型架构与鲁棒性

CNN vs ViT 鲁棒性对比

特性CNNVision Transformer
局部性局部感受野全局注意力
特征层次层级特征均匀分布特征
对抗脆弱性纹理依赖语义依赖
迁移性较低较高
EOT攻击较敏感较鲁棒

近期研究:ViT 的独特脆弱性

最新的研究发现,ViT 存在独特的脆弱性模式3

  • 最后一层的注意力高度集中于少数 token
  • 这些关键 token 的微小扰动会放大并传播
  • 不同层的脆弱性呈现层级差异

分布外检测的关联

对抗样本检测与分布外(Out-of-Distribution, OOD)检测密切相关:

方法对抗样本OOD样本
置信度阈值
马氏距离
能量分数
对抗净化

详见 out-of-distribution-detection


参考文献

Footnotes

  1. Tramèr, F., et al. (2017). The Space of Transferable Adversarial Examples. ICLR 2018. https://arxiv.org/abs/1704.03453

  2. Athalye, A., et al. (2018). Synthesizing Robust Adversarial Examples. ICML 2018. https://arxiv.org/abs/1707.07397

  3. Mao, C., et al. (2025). Adversarial Threats to Vision Transformers: Evaluating Robustness Beyond CNNs. Neural Computing and Applications. https://link.springer.com/article/10.1007/s00521-025-11734-0