对抗样本现象学

概述

对抗样本现象学（Phenomenology of Adversarial Examples）研究对抗样本的涌现特性：包括跨模型迁移性、对抗补丁的物理鲁棒性、以及不同模型架构间的共享脆弱性。这些现象揭示了深度学习模型的系统性缺陷，为设计更鲁棒的模型提供了重要线索。

跨模型迁移性

迁移攻击原理

对抗样本最具实践意义的特性之一是迁移性（Transferability）：在一个模型上生成的对抗扰动，往往也能成功攻击其他模型。¹

攻击者 → 替代模型M₁ → 对抗样本x' → 攻击目标模型M₂

迁移性来源：不同模型学习到相似的输入-输出映射，因此共享类似的决策边界缺陷。

迁移性度量

T (A, f_{1} \to f_{2}) = \frac{∣ { x \in X : f _{2} ( x + δ _{A} ( x )) \neq = y ∣}{∣ X ∣}

其中 $δ_{A} (x)$ 是攻击算法 $A$ 在模型 $f_{1}$ 上生成的扰动。

提升迁移性的方法

1. 动量增强（Momentum Iterative Methods）

def mi_fgsm_attack(image, label, model, epsilon=8/255, alpha=1/255, iterations=10, decay=1.0):
    """动量迭代FGSM (MI-FGSM)"""
    momentum = torch.zeros_like(image)
    
    for _ in range(iterations):
        image.requires_grad = True
        output = model(image)
        loss = F.cross_entropy(output, label)
        model.zero_grad()
        loss.backward()
        
        # 更新动量
        grad = image.grad.data
        momentum = decay * momentum + grad / grad.abs().mean()
        
        # 扰动更新
        image = image.detach() + alpha * torch.sign(momentum)
        image = torch.clamp(image, 0, 1)
    
    return image

动量项平滑梯度方向，帮助跳出局部最优，生成更具迁移性的扰动。

2. 输入变换（Input Transformations）

研究表明，对抗样本经过以下变换后仍保持攻击性：

随机调整大小和填充（Resize-and-Padding）
随机色彩空间变换
随机裁剪

这些变换利用了模型对几何变换的不变性缺陷。

3. 通用对抗扰动（UAP）

UAP 是与输入无关的扰动 $δ^{*}$ ，对大量样本具有攻击性：

\forall x \in X : f (x + δ^{*}) \neq = f (x)

深度网络决策边界在输入空间中近似平行，使得存在接近正交于所有样本方向的通用扰动方向。

迁移性层级

不同模型架构间的迁移性呈现层级结构：

训练数据
    ↓
通用特征提取器（ResNet/ViT/DenseNet）
    ↓
任务特定层
    ↓
最终预测

攻击者只需破坏通用特征层即可实现跨架构攻击。

物理世界对抗攻击

现实威胁场景

对抗样本不仅存在于数字空间，还能在物理世界中存活。典型的物理攻击包括：

对抗补丁（Adversarial Patches）：贴在物体上的图案
对抗涂鸦：路标上的微小修改
对抗光照：投影攻击
对抗纹理：衣物、背景纹理

EOT 框架

Expectation over Transformation（EOT）框架系统性地建模物理世界的变换分布：²

δ^{*} = ar g δ max E_{t \sim T} [lo g P (y_{target} ∣ x + δ ⊙ t)]

其中 $T$ 是物理变换分布（角度、距离、光照等）。

物理鲁棒性分析

物理对抗样本面临的关键挑战：

变换类型	影响	缓解策略
视角变化	扭曲扰动图案	多视角训练
光照变化	改变颜色分布	颜色空间增强
距离变化	图案尺度变化	尺度不变攻击
噪声积累	相机噪声干扰	鲁棒损失函数

3D 对抗对象

最近的研究聚焦于3D 对抗对象（3D打印物体、曲面印刷）：

3D物体经过不同视角投影后仍保持攻击性
需要考虑几何变形和光照模型
NIPS 2017 的3D对抗兔子是典型案例

对抗样本的几何特性

决策边界几何

对抗样本集中在决策边界附近的低曲率区域：

                    决策边界
                       ↓
                 ~~~~~~~~~~~~
              ~~            ~~
            ~    对抗样本      ~
           /        聚集        \
          /                      \
    类别A                    类别B

深度网络的决策边界在局部近似平面，导致：

大量对抗样本存在于边界附近
随机扰动有较高概率越过边界
这解释了对抗样本的普遍性

对抗子空间维度

对抗样本并非随机噪声，而是存在于低维对抗子空间中：

对于给定样本，存在约 25-30 维的对抗子空间
在该子空间内，大多数方向都指向对抗样本
这与高维空间的几何性质相关

模型架构与鲁棒性

CNN vs ViT 鲁棒性对比

特性	CNN	Vision Transformer
局部性	局部感受野	全局注意力
特征层次	层级特征	均匀分布特征
对抗脆弱性	纹理依赖	语义依赖
迁移性	较低	较高
EOT攻击	较敏感	较鲁棒

近期研究：ViT 的独特脆弱性

最新的研究发现，ViT 存在独特的脆弱性模式：³

最后一层的注意力高度集中于少数 token
这些关键 token 的微小扰动会放大并传播
不同层的脆弱性呈现层级差异

分布外检测的关联

对抗样本检测与分布外（Out-of-Distribution, OOD）检测密切相关：

方法	对抗样本	OOD样本
置信度阈值	✓	✓
马氏距离	✓	✓
能量分数	✓	✓
对抗净化	✓	✗

详见 out-of-distribution-detection。

参考文献

Tramèr, F., et al. (2017). The Space of Transferable Adversarial Examples. ICLR 2018. https://arxiv.org/abs/1704.03453 ↩
Athalye, A., et al. (2018). Synthesizing Robust Adversarial Examples. ICML 2018. https://arxiv.org/abs/1707.07397 ↩
Mao, C., et al. (2025). Adversarial Threats to Vision Transformers: Evaluating Robustness Beyond CNNs. Neural Computing and Applications. https://link.springer.com/article/10.1007/s00521-025-11734-0 ↩

Metaphor

探索

对抗样本现象学

对抗样本现象学

概述

跨模型迁移性

迁移攻击原理

迁移性度量

提升迁移性的方法

1. 动量增强（Momentum Iterative Methods）

2. 输入变换（Input Transformations）

3. 通用对抗扰动（UAP）

迁移性层级

物理世界对抗攻击

现实威胁场景

EOT 框架

物理鲁棒性分析

3D 对抗对象

对抗样本的几何特性

决策边界几何

对抗子空间维度

模型架构与鲁棒性

CNN vs ViT 鲁棒性对比

近期研究：ViT 的独特脆弱性

分布外检测的关联

参考文献

关系图谱

目录

反向链接

Metaphor

探索

对抗样本现象学

对抗样本现象学

概述

跨模型迁移性

迁移攻击原理

迁移性度量

提升迁移性的方法

1. 动量增强（Momentum Iterative Methods）

2. 输入变换（Input Transformations）

3. 通用对抗扰动（UAP）

迁移性层级

物理世界对抗攻击

现实威胁场景

EOT 框架

物理鲁棒性分析

3D 对抗对象

对抗样本的几何特性

决策边界几何

对抗子空间维度

模型架构与鲁棒性

CNN vs ViT 鲁棒性对比

近期研究：ViT 的独特脆弱性

分布外检测的关联

参考文献

Footnotes

关系图谱

目录

反向链接