对抗鲁棒性理论
引言
对抗样本的存在性引发了深入的理论研究。本章从几何、Lipschitz条件和学习理论角度分析对抗鲁棒性的本质。
对抗样本的几何理论
决策边界与对抗区域
深度网络将输入空间划分为不同类别的决策区域。决策边界是相邻类别区域的分界面。
核心发现:对抗样本主要集中在决策边界附近。1
决策边界距离
设 表示以 为中心、半径为 的球。对抗鲁棒性可定义为到最近决策边界的距离:
模型在 处的鲁棒性正比于这个距离。
局部Lipschitz常数
分类器 的Lipschitz常数定义为:
关键结果:对于 扰动,模型的局部Lipschitz常数提供了鲁棒性上界:
其中 是局部Lipschitz常数。
Lipschitz与鲁棒性关系
若模型在 处满足:
则需要:
FGSM的理论解释
线性假设下的最优攻击
Goodfellow等人(2015)的核心洞察是:2
“For high-dimensional linear spaces, a tiny perturbation scaled by the sign of the gradient can arbitrarily change the model prediction.”
形式化分析
设 为分类权向量, 为输入。对于线性模型:
添加扰动 :
即使 很小,当维度 很大时,累积效果 很大。
非线性模型与梯度混淆
对于非线性网络,FGSM的有效性取决于:
- 局部线性区域:ReLU网络在不同区域表现线性
- 梯度方向稳定性:FGSM利用了梯度方向的局部有效性
泛化与鲁棒性的权衡
Tsipras等人的关键发现
Tsipras等人(2019)揭示了标准准确率和鲁棒性之间的基本张力:3
“There exists an inherent trade-off between robustness and accuracy.”
理论分析
设数据分布为 ,损失函数为 。标准风险:
鲁棒风险( 扰动):
关键不等式:
其中 是不可约的鲁棒性误差下界。
类别重叠与权衡
在高维空间中,数据类别往往存在重叠:
类别A区域 | 决策边界 | 类别B区域
| |
|<---- 安全区域 ---->|
↑ 真实重叠区域
结论:完全鲁棒分类器可能需要拒绝位于重叠区域的样本。
容量与鲁棒性
Szegedy等人的观察
对抗样本的存在暗示网络的”容量”概念需要重新审视:4
“The linear nature of neural networks implies that adversarial perturbations are a widespread phenomenon, not a curiosity.”
过参数化的双刃剑
| 现象 | 解释 |
|---|---|
| 高准确率 | 过参数化网络可以拟合复杂函数 |
| 对抗脆弱性 | 高维空间中的线性行为 |
| 泛化能力 | 大网络在小数据集上仍能泛化 |
PAC-鲁棒学习理论
鲁棒PAC框架
将对抗鲁棒性扩展到PAC学习框架:5
定义:设 为假设类, 为分布,。算法 是 -鲁棒PAC学习器,如果:
其中 是经验鲁棒风险。
鲁棒样本复杂度
对于有限的假设类:
对于无限假设类,需要使用RC(鲁棒复杂度)替代VC维度。
拓扑视角
同伦与鲁棒性
D到家等人的研究从拓扑角度分析鲁棒性:6
关键概念:
- 同伦路径:连接不同类别预测点的连续路径
- 拓扑障碍:阻碍鲁棒分类的拓扑约束
流形假设
假设数据位于低维流形 :
优势:如果决策边界不横切数据流形,则鲁棒性可能更易保证。
信息论视角
互信息与鲁棒性
设 为输入, 为标签, 为模型预测。鲁棒预测的信息论条件:7
通道容量
将对抗扰动建模为通道:
通道容量:
鲁棒性泛化理论
数据依赖边界
A课程等人(2019)提出的数据依赖鲁棒性边界:8
其中 是数据覆盖半径。
算法依赖边界
利用算法稳定性分析:
深层理论:网络脆弱性起源
线性放大效应
对于输入 和权重 :
当 大时,微小扰动可导致巨大输出变化。
非线性激活的作用
ReLU激活 在零点处不可微:
- 活跃区域:
- 死亡区域:
扰动可能导致激活模式切换,引发输出剧变。
本章小结
对抗鲁棒性的理论分析揭示了深度学习的本质特征:
- 几何理论:对抗样本集中在决策边界附近
- Lipschitz分析:局部Lipschitz常数决定鲁棒性
- 泛化-鲁棒权衡:存在基本张力,不可避免
- PAC-鲁棒框架:扩展学习理论到对抗设置
- 拓扑视角:流形假设下的鲁棒性分析
- 信息论分析:互信息与通道容量视角
参考文献
Footnotes
-
Fawzi, A., et al. (2018). Adversarial Vulnerability of Neural Networks. IEEE Trans. Information Theory. ↩
-
Goodfellow, I. J., et al. (2015). Explaining and Harnessing Adversarial Examples. ICLR 2015. ↩
-
Tsipras, D., et al. (2019). Robustness May Be at Odds with Accuracy. ICLR 2019. ↩
-
Szegedy, C., et al. (2014). Intriguing Properties of Neural Networks. ICLR 2014. ↩
-
Cullina, D., et al. (2018). PAC Learning. arXiv:1809.02965. ↩
-
D到家, et al. (2018). Topology of Adversarial Examples. ICLR Workshop 2018. ↩
-
Yuan, X., et al. (2019). Adversarial Examples: Attacks and Defenses. arXiv:1804.00097. ↩
-
A课程, et al. (2019). Certified Adversarial Robustness. NeurIPS 2019. ↩