对抗鲁棒性基础
引言
深度学习在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展,然而研究发现这些模型对**对抗样本(Adversarial Examples)**极为敏感。对抗样本是指在原始输入上添加人类难以察觉的微小扰动,却能导致模型产生完全错误的预测。1
对抗鲁棒性(Adversarial Robustness)研究旨在理解和提升神经网络面对对抗扰动时的安全性,是深度学习安全领域的核心研究方向。
对抗样本的定义
数学形式化
设原始输入为 ,真实标签为 ,神经网络分类器为 。对抗样本 满足:
且
其中 为扰动上界,常见的范数度量包括:
| 范数 | 定义 | 特点 |
|---|---|---|
| $\max_i | x_i’ - x_i | |
| 控制能量/欧氏距离 | ||
| 非零分量的数量 | 稀疏扰动 |
对抗扰动的几何意义
对抗扰动 位于输入空间的一个小邻域内:
其中 表示以 为中心、 为半径的 球。
对抗样本的发现历程
早期观察
Szegedy等人(2014)首次系统性地发现神经网络对对抗扰动的敏感性。他们观察到:
“Deep neural networks are highly sensitive to small perturbations in the input. Adding a barely perceptible perturbation to an image can cause a completely different prediction.”1
FGSM的突破
Goodfellow等人(2015)提出快速梯度符号法(Fast Gradient Sign Method, FGSM),首次展示了对抗样本可以通过单步梯度上升高效生成:2
其中 是损失函数。
迭代攻击的发展
后续研究提出了**投影梯度下降(Projected Gradient Descent, PGD)**等多步攻击方法,成为评估鲁棒性的标准工具。3
对抗样本的核心特性
1. 迁移性(Transferability)
对抗样本的一个重要特性是跨模型迁移性:在一个模型上生成的对抗样本,往往能成功攻击其他不同架构或训练的模型。4
| 迁移类型 | 描述 |
|---|---|
| 同架构迁移 | 不同随机种子的同一模型 |
| 跨架构迁移 | CNN到ViT、ResNet到VGG等 |
| 跨任务迁移 | 分类模型到检测模型 |
迁移性的存在表明对抗样本可能利用了模型的某些共同弱点,这对黑盒攻击和防御都有重要意义。
2. 普遍扰动(Universal Adversarial Perturbations)
后续研究发现存在通用对抗扰动,可以不加区分地攻击大量不同输入。5
3. 对抗补丁(Adversarial Patches)
不同于微小扰动,对抗补丁是精心设计的局部区域 perturbations,可以显著改变模型行为。6
对抗鲁棒性的形式化定义
经验鲁棒性
给定数据集 和攻击强度 :
认证鲁棒性
更强的定义是认证鲁棒性(Certified Robustness):存在一个下界 ,保证对所有满足 的扰动,模型预测保持一致。7
鲁棒性与准确率的权衡
免费午餐?
Madry等人(2018)的研究表明,提升对抗鲁棒性可能需要以牺牲标准准确率为代价:3
这个min-max优化问题表明:
- 外层最小化:训练一个鲁棒的模型
- 内层最大化:找到最强的对抗扰动
TRADES理论
Zhang等人(2019)提出TRADES框架,通过正则化方法在准确率和鲁棒性之间取得平衡:8
本章小结
对抗鲁棒性研究揭示了深度学习的脆弱性,推动了安全AI的发展:
- 对抗样本:微小扰动可导致模型误分类
- 核心特性:迁移性、普遍扰动、对抗补丁
- 权衡关系:鲁棒性与准确率之间存在基本张力
- 研究方向:从经验防御到可证明认证
下一章将详细介绍对抗攻击方法。
参考文献
Footnotes
-
Szegedy, C., et al. (2014). Intriguing properties of neural networks. ICLR 2014. ↩ ↩2
-
Goodfellow, I. J., et al. (2015). Explaining and Harnessing Adversarial Examples. ICLR 2015. ↩
-
Madry, A., et al. (2018). Towards Deep Learning Models Resistant to Adversarial Attacks. ICLR 2018. ↩ ↩2
-
Papernot, N., et al. (2016). Transferability in Machine Learning: from Phenomena to Black-Box Attacks. arXiv. ↩
-
Moosavi-Dezfooli, S. M., et al. (2017). Universal Adversarial Perturbations. CVPR 2017. ↩
-
Brown, T. B., et al. (2018). Adversarial Patch. NIPS Workshop 2018. ↩
-
Cohen, J. M., et al. (2019). Certified Adversarial Robustness via Randomized Smoothing. ICML 2019. ↩
-
Zhang, H., et al. (2019). Theoretically Principled Trade-off between Robustness and Accuracy. ICLR 2019. ↩