对抗样本现象学
概述
对抗样本现象学(Phenomenology of Adversarial Examples)研究对抗样本的涌现特性:包括跨模型迁移性、对抗补丁的物理鲁棒性、以及不同模型架构间的共享脆弱性。这些现象揭示了深度学习模型的系统性缺陷,为设计更鲁棒的模型提供了重要线索。
跨模型迁移性
迁移攻击原理
对抗样本最具实践意义的特性之一是迁移性(Transferability):在一个模型上生成的对抗扰动,往往也能成功攻击其他模型。1
攻击者 → 替代模型M₁ → 对抗样本x' → 攻击目标模型M₂
迁移性来源:不同模型学习到相似的输入-输出映射,因此共享类似的决策边界缺陷。
迁移性度量
其中 是攻击算法 在模型 上生成的扰动。
提升迁移性的方法
1. 动量增强(Momentum Iterative Methods)
def mi_fgsm_attack(image, label, model, epsilon=8/255, alpha=1/255, iterations=10, decay=1.0):
"""动量迭代FGSM (MI-FGSM)"""
momentum = torch.zeros_like(image)
for _ in range(iterations):
image.requires_grad = True
output = model(image)
loss = F.cross_entropy(output, label)
model.zero_grad()
loss.backward()
# 更新动量
grad = image.grad.data
momentum = decay * momentum + grad / grad.abs().mean()
# 扰动更新
image = image.detach() + alpha * torch.sign(momentum)
image = torch.clamp(image, 0, 1)
return image动量项平滑梯度方向,帮助跳出局部最优,生成更具迁移性的扰动。
2. 输入变换(Input Transformations)
研究表明,对抗样本经过以下变换后仍保持攻击性:
- 随机调整大小和填充(Resize-and-Padding)
- 随机色彩空间变换
- 随机裁剪
这些变换利用了模型对几何变换的不变性缺陷。
3. 通用对抗扰动(UAP)
UAP 是与输入无关的扰动 ,对大量样本具有攻击性:
深度网络决策边界在输入空间中近似平行,使得存在接近正交于所有样本方向的通用扰动方向。
迁移性层级
不同模型架构间的迁移性呈现层级结构:
训练数据
↓
通用特征提取器(ResNet/ViT/DenseNet)
↓
任务特定层
↓
最终预测
攻击者只需破坏通用特征层即可实现跨架构攻击。
物理世界对抗攻击
现实威胁场景
对抗样本不仅存在于数字空间,还能在物理世界中存活。典型的物理攻击包括:
- 对抗补丁(Adversarial Patches):贴在物体上的图案
- 对抗涂鸦:路标上的微小修改
- 对抗光照:投影攻击
- 对抗纹理:衣物、背景纹理
EOT 框架
Expectation over Transformation(EOT)框架系统性地建模物理世界的变换分布:2
其中 是物理变换分布(角度、距离、光照等)。
物理鲁棒性分析
物理对抗样本面临的关键挑战:
| 变换类型 | 影响 | 缓解策略 |
|---|---|---|
| 视角变化 | 扭曲扰动图案 | 多视角训练 |
| 光照变化 | 改变颜色分布 | 颜色空间增强 |
| 距离变化 | 图案尺度变化 | 尺度不变攻击 |
| 噪声积累 | 相机噪声干扰 | 鲁棒损失函数 |
3D 对抗对象
最近的研究聚焦于3D 对抗对象(3D打印物体、曲面印刷):
- 3D物体经过不同视角投影后仍保持攻击性
- 需要考虑几何变形和光照模型
- NIPS 2017 的3D对抗兔子是典型案例
对抗样本的几何特性
决策边界几何
对抗样本集中在决策边界附近的低曲率区域:
决策边界
↓
~~~~~~~~~~~~
~~ ~~
~ 对抗样本 ~
/ 聚集 \
/ \
类别A 类别B
深度网络的决策边界在局部近似平面,导致:
- 大量对抗样本存在于边界附近
- 随机扰动有较高概率越过边界
- 这解释了对抗样本的普遍性
对抗子空间维度
对抗样本并非随机噪声,而是存在于低维对抗子空间中:
- 对于给定样本,存在约 25-30 维的对抗子空间
- 在该子空间内,大多数方向都指向对抗样本
- 这与高维空间的几何性质相关
模型架构与鲁棒性
CNN vs ViT 鲁棒性对比
| 特性 | CNN | Vision Transformer |
|---|---|---|
| 局部性 | 局部感受野 | 全局注意力 |
| 特征层次 | 层级特征 | 均匀分布特征 |
| 对抗脆弱性 | 纹理依赖 | 语义依赖 |
| 迁移性 | 较低 | 较高 |
| EOT攻击 | 较敏感 | 较鲁棒 |
近期研究:ViT 的独特脆弱性
最新的研究发现,ViT 存在独特的脆弱性模式:3
- 最后一层的注意力高度集中于少数 token
- 这些关键 token 的微小扰动会放大并传播
- 不同层的脆弱性呈现层级差异
分布外检测的关联
对抗样本检测与分布外(Out-of-Distribution, OOD)检测密切相关:
| 方法 | 对抗样本 | OOD样本 |
|---|---|---|
| 置信度阈值 | ✓ | ✓ |
| 马氏距离 | ✓ | ✓ |
| 能量分数 | ✓ | ✓ |
| 对抗净化 | ✓ | ✗ |
详见 out-of-distribution-detection。
参考文献
Footnotes
-
Tramèr, F., et al. (2017). The Space of Transferable Adversarial Examples. ICLR 2018. https://arxiv.org/abs/1704.03453 ↩
-
Athalye, A., et al. (2018). Synthesizing Robust Adversarial Examples. ICML 2018. https://arxiv.org/abs/1707.07397 ↩
-
Mao, C., et al. (2025). Adversarial Threats to Vision Transformers: Evaluating Robustness Beyond CNNs. Neural Computing and Applications. https://link.springer.com/article/10.1007/s00521-025-11734-0 ↩