对抗鲁棒性基础

引言

深度学习在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展,然而研究发现这些模型对**对抗样本(Adversarial Examples)**极为敏感。对抗样本是指在原始输入上添加人类难以察觉的微小扰动,却能导致模型产生完全错误的预测。1

对抗鲁棒性(Adversarial Robustness)研究旨在理解和提升神经网络面对对抗扰动时的安全性,是深度学习安全领域的核心研究方向。

对抗样本的定义

数学形式化

设原始输入为 ,真实标签为 ,神经网络分类器为 对抗样本 满足:

其中 为扰动上界,常见的范数度量包括:

范数定义特点
$\max_ix_i’ - x_i
控制能量/欧氏距离
非零分量的数量稀疏扰动

对抗扰动的几何意义

对抗扰动 位于输入空间的一个小邻域内:

其中 表示以 为中心、 为半径的 球。

对抗样本的发现历程

早期观察

Szegedy等人(2014)首次系统性地发现神经网络对对抗扰动的敏感性。他们观察到:

“Deep neural networks are highly sensitive to small perturbations in the input. Adding a barely perceptible perturbation to an image can cause a completely different prediction.”1

FGSM的突破

Goodfellow等人(2015)提出快速梯度符号法(Fast Gradient Sign Method, FGSM),首次展示了对抗样本可以通过单步梯度上升高效生成:2

其中 是损失函数。

迭代攻击的发展

后续研究提出了**投影梯度下降(Projected Gradient Descent, PGD)**等多步攻击方法,成为评估鲁棒性的标准工具。3

对抗样本的核心特性

1. 迁移性(Transferability)

对抗样本的一个重要特性是跨模型迁移性:在一个模型上生成的对抗样本,往往能成功攻击其他不同架构或训练的模型。4

迁移类型描述
同架构迁移不同随机种子的同一模型
跨架构迁移CNN到ViT、ResNet到VGG等
跨任务迁移分类模型到检测模型

迁移性的存在表明对抗样本可能利用了模型的某些共同弱点,这对黑盒攻击和防御都有重要意义。

2. 普遍扰动(Universal Adversarial Perturbations)

后续研究发现存在通用对抗扰动,可以不加区分地攻击大量不同输入。5

3. 对抗补丁(Adversarial Patches)

不同于微小扰动,对抗补丁是精心设计的局部区域 perturbations,可以显著改变模型行为。6

对抗鲁棒性的形式化定义

经验鲁棒性

给定数据集 和攻击强度

认证鲁棒性

更强的定义是认证鲁棒性(Certified Robustness):存在一个下界 ,保证对所有满足 的扰动,模型预测保持一致。7

鲁棒性与准确率的权衡

免费午餐?

Madry等人(2018)的研究表明,提升对抗鲁棒性可能需要以牺牲标准准确率为代价:3

这个min-max优化问题表明:

  • 外层最小化:训练一个鲁棒的模型
  • 内层最大化:找到最强的对抗扰动

TRADES理论

Zhang等人(2019)提出TRADES框架,通过正则化方法在准确率和鲁棒性之间取得平衡:8

本章小结

对抗鲁棒性研究揭示了深度学习的脆弱性,推动了安全AI的发展:

  1. 对抗样本:微小扰动可导致模型误分类
  2. 核心特性:迁移性、普遍扰动、对抗补丁
  3. 权衡关系:鲁棒性与准确率之间存在基本张力
  4. 研究方向:从经验防御到可证明认证

下一章将详细介绍对抗攻击方法。

参考文献

Footnotes

  1. Szegedy, C., et al. (2014). Intriguing properties of neural networks. ICLR 2014. 2

  2. Goodfellow, I. J., et al. (2015). Explaining and Harnessing Adversarial Examples. ICLR 2015.

  3. Madry, A., et al. (2018). Towards Deep Learning Models Resistant to Adversarial Attacks. ICLR 2018. 2

  4. Papernot, N., et al. (2016). Transferability in Machine Learning: from Phenomena to Black-Box Attacks. arXiv.

  5. Moosavi-Dezfooli, S. M., et al. (2017). Universal Adversarial Perturbations. CVPR 2017.

  6. Brown, T. B., et al. (2018). Adversarial Patch. NIPS Workshop 2018.

  7. Cohen, J. M., et al. (2019). Certified Adversarial Robustness via Randomized Smoothing. ICML 2019.

  8. Zhang, H., et al. (2019). Theoretically Principled Trade-off between Robustness and Accuracy. ICLR 2019.