对抗鲁棒性理论

引言

对抗样本的存在性引发了深入的理论研究。本章从几何、Lipschitz条件和学习理论角度分析对抗鲁棒性的本质。

对抗样本的几何理论

决策边界与对抗区域

深度网络将输入空间划分为不同类别的决策区域。决策边界是相邻类别区域的分界面。

核心发现:对抗样本主要集中在决策边界附近。1

决策边界距离

表示以 为中心、半径为 的球。对抗鲁棒性可定义为到最近决策边界的距离:

模型在 处的鲁棒性正比于这个距离。

局部Lipschitz常数

分类器 的Lipschitz常数定义为:

关键结果:对于 扰动,模型的局部Lipschitz常数提供了鲁棒性上界:

其中 是局部Lipschitz常数。

Lipschitz与鲁棒性关系

若模型在 处满足:

则需要:

FGSM的理论解释

线性假设下的最优攻击

Goodfellow等人(2015)的核心洞察是:2

“For high-dimensional linear spaces, a tiny perturbation scaled by the sign of the gradient can arbitrarily change the model prediction.”

形式化分析

为分类权向量, 为输入。对于线性模型:

添加扰动

即使 很小,当维度 很大时,累积效果 很大。

非线性模型与梯度混淆

对于非线性网络,FGSM的有效性取决于:

  1. 局部线性区域:ReLU网络在不同区域表现线性
  2. 梯度方向稳定性:FGSM利用了梯度方向的局部有效性

泛化与鲁棒性的权衡

Tsipras等人的关键发现

Tsipras等人(2019)揭示了标准准确率和鲁棒性之间的基本张力:3

“There exists an inherent trade-off between robustness and accuracy.”

理论分析

设数据分布为 ,损失函数为 。标准风险:

鲁棒风险( 扰动):

关键不等式

其中 是不可约的鲁棒性误差下界。

类别重叠与权衡

在高维空间中,数据类别往往存在重叠:

类别A区域  |  决策边界  |  类别B区域
     |                    |
     |<---- 安全区域 ---->|
         ↑ 真实重叠区域

结论:完全鲁棒分类器可能需要拒绝位于重叠区域的样本。

容量与鲁棒性

Szegedy等人的观察

对抗样本的存在暗示网络的”容量”概念需要重新审视:4

“The linear nature of neural networks implies that adversarial perturbations are a widespread phenomenon, not a curiosity.”

过参数化的双刃剑

现象解释
高准确率过参数化网络可以拟合复杂函数
对抗脆弱性高维空间中的线性行为
泛化能力大网络在小数据集上仍能泛化

PAC-鲁棒学习理论

鲁棒PAC框架

将对抗鲁棒性扩展到PAC学习框架:5

定义:设 为假设类, 为分布,。算法 -鲁棒PAC学习器,如果:

其中 是经验鲁棒风险。

鲁棒样本复杂度

对于有限的假设类:

对于无限假设类,需要使用RC(鲁棒复杂度)替代VC维度。

拓扑视角

同伦与鲁棒性

D到家等人的研究从拓扑角度分析鲁棒性:6

关键概念

  • 同伦路径:连接不同类别预测点的连续路径
  • 拓扑障碍:阻碍鲁棒分类的拓扑约束

流形假设

假设数据位于低维流形

优势:如果决策边界不横切数据流形,则鲁棒性可能更易保证。

信息论视角

互信息与鲁棒性

为输入, 为标签, 为模型预测。鲁棒预测的信息论条件:7

通道容量

将对抗扰动建模为通道:

通道容量:

鲁棒性泛化理论

数据依赖边界

A课程等人(2019)提出的数据依赖鲁棒性边界:8

其中 是数据覆盖半径。

算法依赖边界

利用算法稳定性分析:

深层理论:网络脆弱性起源

线性放大效应

对于输入 和权重

大时,微小扰动可导致巨大输出变化。

非线性激活的作用

ReLU激活 在零点处不可微:

  • 活跃区域
  • 死亡区域

扰动可能导致激活模式切换,引发输出剧变。

本章小结

对抗鲁棒性的理论分析揭示了深度学习的本质特征:

  1. 几何理论:对抗样本集中在决策边界附近
  2. Lipschitz分析:局部Lipschitz常数决定鲁棒性
  3. 泛化-鲁棒权衡:存在基本张力,不可避免
  4. PAC-鲁棒框架:扩展学习理论到对抗设置
  5. 拓扑视角:流形假设下的鲁棒性分析
  6. 信息论分析:互信息与通道容量视角

参考文献

Footnotes

  1. Fawzi, A., et al. (2018). Adversarial Vulnerability of Neural Networks. IEEE Trans. Information Theory.

  2. Goodfellow, I. J., et al. (2015). Explaining and Harnessing Adversarial Examples. ICLR 2015.

  3. Tsipras, D., et al. (2019). Robustness May Be at Odds with Accuracy. ICLR 2019.

  4. Szegedy, C., et al. (2014). Intriguing Properties of Neural Networks. ICLR 2014.

  5. Cullina, D., et al. (2018). PAC Learning. arXiv:1809.02965.

  6. D到家, et al. (2018). Topology of Adversarial Examples. ICLR Workshop 2018.

  7. Yuan, X., et al. (2019). Adversarial Examples: Attacks and Defenses. arXiv:1804.00097.

  8. A课程, et al. (2019). Certified Adversarial Robustness. NeurIPS 2019.