深度学习中的约束优化

传统深度学习使用无约束优化范式,通过在损失函数中添加惩罚项来隐式地施加约束。然而,约束优化提供了一种更直接、更 principled 的方法来控制网络行为。近年来,约束优化在深度学习中的应用迅速增长,从权重约束到公平性约束,从鲁棒性到安全性约束1

1. 约束优化框架

1.1 从惩罚到约束

惩罚方法(传统):

问题:惩罚参数 需要调优,解可能不满足约束。

约束方法(现代):

优势:约束可精确满足,直接控制模型行为。

1.2 深度学习中的常见约束

约束类型形式目的
权重约束防止权重爆炸
谱约束控制Lipschitz常数
稀疏约束模型压缩
正交约束decorrelation
公平性约束群体公平
鲁棒性约束对抗鲁棒

1.3 约束优化的挑战

深度学习中的特殊挑战

  1. 大规模优化:数百万参数的神经网络
  2. 非凸性:即使约束是凸的,原问题也可能非凸
  3. 随机优化:需要处理批量采样和噪声
  4. 不可微约束:如 范数约束

2. 投影梯度下降

2.1 基本算法

投影梯度下降(Projected Gradient Descent, PGD)

其中 是到可行域 的投影。

2.2 投影算子的计算

不同约束类型的投影算子:

球约束

球约束

行范数约束

谱约束

使用SVD分解,需要幂迭代近似。

2.3 收敛性分析

定理:设 是凸闭集,-强凸 -光滑函数,则PGD满足

非凸设置:当 非凸时,在适当条件下可达到 - stationary点。

2.4 在深度学习中的应用

谱归一化(Spectral Normalization)

可以视为谱约束的投影。实际中每个训练步骤执行一次投影。

权重归一化(Weight Normalization)

3. 增广拉格朗日方法

3.1 增广拉格朗日函数

对于约束问题:

增广拉格朗日函数

其中 是惩罚参数。

3.2 增广拉格朗日方法

交替方向更新

3.3 不等式约束的处理

对于不等式约束 ,引入 slack变量

KKT条件 中的互补松弛 指导更新。

3.4 AL-COLE方法

AL-COLE (Augmented Lagrangian for Constrained Learning) 是专门为深度学习约束优化设计的方法2

核心思想:将约束重新表述为对偶可解的形式,使用增广拉格朗日训练。

算法

  1. 内循环:固定乘子,最小化增广拉格朗日
  2. 外循环:更新乘子(上升)
  3. 自适应调整:根据违反程度调整

优点

  • 处理非凸约束
  • 无需精确求解子问题
  • 与随机梯度下降兼容

4. KKT Nets:端到端KKT求解

4.1 核心思想

KKT Nets 直接将凸优化问题的KKT条件嵌入神经网络架构3

原始问题

KKT条件

4.2 网络架构

KKT Net 包含:

  • 原始变量头:估计
  • 对偶变量头:估计
  • KKT残差损失:衡量KKT条件的违反程度

4.3 训练目标

多任务损失

其中 是任务损失, 平衡权重。

4.4 优势与局限

优势

  • 端到端可微
  • 约束自然满足
  • 可解释性强

局限

  • 需要问题有凸结构
  • 初始解需要接近可行

5. 深度学习中的约束类型

5.1 权重约束

权重约束

投影实现

应用:防止梯度爆炸、改进泛化。

5.2 正交约束

正交约束

流形优化视角:正交矩阵构成Stiefel流形,可使用Riemannian梯度下降。

SVD投影

应用:RNN中的正交初始化、Transformer中的注意力权重归一化。

5.3 稀疏约束

约束

直接 约束是离散且非凸的。使用连续松弛:

硬阈值策略

  1. 训练完成后再剪枝
  2. 训练中模拟剪枝(late binarization)

渐进约束

其中 是第 步的阈值。

5.4 公平性约束

** Demographic Parity**:

Equalized Odds

对抗约束

使用交替优化:固定 训练 ,固定 训练

5.5 鲁棒性约束

鲁棒约束

近似方法

  1. PGD上界:使用多步PGD近似
  2. 随机平滑
  3. ConvStable4 使用卷积近似

6. 约束vs惩罚的选择

6.1 Ramirez等人的研究

Ramirez等人在2025年指出,约束形式通常优于惩罚形式1

主要论点

  1. 精确控制:约束提供精确的边界保证
  2. 尺度无关:约束不受损失函数尺度影响
  3. 几何直觉:直接的几何解释
  4. 对偶学习:可利用对偶理论分析

6.2 选择指南

场景推荐方法原因
需要精确边界约束惩罚需要调参
约束是核心需求约束惩罚可能违反
软约束可接受惩罚更易优化
多约束组合约束+AL统一框架

6.3 混合方法

惩罚-约束混合

7. PI控制器与乘子更新

7.1 PI控制器框架

PI控制器更新拉格朗日乘子5

其中 是约束违反程度。

7.2 自适应策略

自适应增益调整

当约束违反增加时增大增益。

7.3 与Adam的联系

Adam的自适应学习率可解释为隐式的PI控制:

  • 动量项:I项的近似
  • 自适应步长:P项的变体

8. 实现细节与最佳实践

8.1 投影时机

方法投影时机适用场景
每步投影每个batch严格约束
周期性投影每N步松弛约束
自适应投影违反时动态约束

8.2 约束违反监控

关键指标

  • :约束违反程度
  • :乘子范数(反映约束强度)
  • 对偶间隙:

8.3 数值稳定性

投影数值问题

  1. 使用double precision
  2. 避免极端尺度
  3. 梯度裁剪防止NaN

9. 案例研究

9.1 Lipschitz神经网络

1-Lipschitz分类器

谱归一化实现

每步更新归一化因子。

9.2 等变网络

旋转等变网络

约束实现

周期性正交化。

9.3 差分隐私优化

DP-SGD 中的梯度裁剪:

这是到 球的投影。

10. 总结

约束优化在深度学习中提供了精确控制模型行为的能力:

  1. 投影梯度下降 适用于简单约束的精确满足
  2. 增广拉格朗日 提供了处理复杂约束的统一框架
  3. KKT Nets 将KKT条件嵌入网络架构
  4. 约束vs惩罚 的选择应根据具体需求决定
  5. PI控制器 为乘子更新提供了灵活的控制机制

约束优化将继续在鲁棒机器学习、公平AI、安全关键系统等领域发挥关键作用。

参考资料


相关主题拉格朗日对偶与KKT条件深度学习的凸优化视角隐式正则化对抗鲁棒性基础

Footnotes

  1. Ramirez, M., et al. (2025). Position: Adopt Constraints Over Penalties in Deep Learning. arXiv:2505.20628. 2

  2. Boero, I., Hounie, I., & Ribeiro, A. (2025). AL-COLE: Augmented Lagrangian for Constrained Learning. arXiv:2510.20995.

  3. Arvind, S., Pomaje, R., & Bhat, R. V. (2024). KKT Condition-Trained Neural Networks (KKT Nets). arXiv:2410.15973.

  4. Delle Femine, C. (2024). KKT-Informed Neural Network. arXiv:2409.09087.

  5. Sohrabi, M., et al. (2024). On PI Controllers for Updating Lagrange Multipliers in Constrained Optimization. ICML 2024.