深度学习中的约束优化
传统深度学习使用无约束优化范式,通过在损失函数中添加惩罚项来隐式地施加约束。然而,约束优化提供了一种更直接、更 principled 的方法来控制网络行为。近年来,约束优化在深度学习中的应用迅速增长,从权重约束到公平性约束,从鲁棒性到安全性约束1。
1. 约束优化框架
1.1 从惩罚到约束
惩罚方法(传统):
问题:惩罚参数 需要调优,解可能不满足约束。
约束方法(现代):
优势:约束可精确满足,直接控制模型行为。
1.2 深度学习中的常见约束
| 约束类型 | 形式 | 目的 |
|---|---|---|
| 权重约束 | 防止权重爆炸 | |
| 谱约束 | 控制Lipschitz常数 | |
| 稀疏约束 | 模型压缩 | |
| 正交约束 | decorrelation | |
| 公平性约束 | 群体公平 | |
| 鲁棒性约束 | 对抗鲁棒 |
1.3 约束优化的挑战
深度学习中的特殊挑战:
- 大规模优化:数百万参数的神经网络
- 非凸性:即使约束是凸的,原问题也可能非凸
- 随机优化:需要处理批量采样和噪声
- 不可微约束:如 范数约束
2. 投影梯度下降
2.1 基本算法
投影梯度下降(Projected Gradient Descent, PGD):
其中 是到可行域 的投影。
2.2 投影算子的计算
不同约束类型的投影算子:
球约束 :
球约束 :
行范数约束 :
谱约束 :
使用SVD分解,需要幂迭代近似。
2.3 收敛性分析
定理:设 是凸闭集, 是 -强凸 -光滑函数,则PGD满足
非凸设置:当 非凸时,在适当条件下可达到 - stationary点。
2.4 在深度学习中的应用
谱归一化(Spectral Normalization):
可以视为谱约束的投影。实际中每个训练步骤执行一次投影。
权重归一化(Weight Normalization):
3. 增广拉格朗日方法
3.1 增广拉格朗日函数
对于约束问题:
增广拉格朗日函数:
其中 是惩罚参数。
3.2 增广拉格朗日方法
交替方向更新:
3.3 不等式约束的处理
对于不等式约束 ,引入 slack变量 :
KKT条件 中的互补松弛 指导更新。
3.4 AL-COLE方法
AL-COLE (Augmented Lagrangian for Constrained Learning) 是专门为深度学习约束优化设计的方法2:
核心思想:将约束重新表述为对偶可解的形式,使用增广拉格朗日训练。
算法:
- 内循环:固定乘子,最小化增广拉格朗日
- 外循环:更新乘子(上升)
- 自适应调整:根据违反程度调整
优点:
- 处理非凸约束
- 无需精确求解子问题
- 与随机梯度下降兼容
4. KKT Nets:端到端KKT求解
4.1 核心思想
KKT Nets 直接将凸优化问题的KKT条件嵌入神经网络架构3:
原始问题:
KKT条件:
4.2 网络架构
KKT Net 包含:
- 原始变量头:估计
- 对偶变量头:估计
- KKT残差损失:衡量KKT条件的违反程度
4.3 训练目标
多任务损失:
其中 是任务损失, 平衡权重。
4.4 优势与局限
优势:
- 端到端可微
- 约束自然满足
- 可解释性强
局限:
- 需要问题有凸结构
- 初始解需要接近可行
5. 深度学习中的约束类型
5.1 权重约束
权重约束:
投影实现:
应用:防止梯度爆炸、改进泛化。
5.2 正交约束
正交约束:
流形优化视角:正交矩阵构成Stiefel流形,可使用Riemannian梯度下降。
SVD投影:
应用:RNN中的正交初始化、Transformer中的注意力权重归一化。
5.3 稀疏约束
约束 :
直接 约束是离散且非凸的。使用连续松弛:
硬阈值策略:
- 训练完成后再剪枝
- 训练中模拟剪枝(late binarization)
渐进约束:
其中 是第 步的阈值。
5.4 公平性约束
** Demographic Parity**:
Equalized Odds:
对抗约束:
使用交替优化:固定 训练 ,固定 训练 。
5.5 鲁棒性约束
鲁棒约束:
近似方法:
- PGD上界:使用多步PGD近似
- 随机平滑:
- ConvStable:4 使用卷积近似
6. 约束vs惩罚的选择
6.1 Ramirez等人的研究
Ramirez等人在2025年指出,约束形式通常优于惩罚形式1:
主要论点:
- 精确控制:约束提供精确的边界保证
- 尺度无关:约束不受损失函数尺度影响
- 几何直觉:直接的几何解释
- 对偶学习:可利用对偶理论分析
6.2 选择指南
| 场景 | 推荐方法 | 原因 |
|---|---|---|
| 需要精确边界 | 约束 | 惩罚需要调参 |
| 约束是核心需求 | 约束 | 惩罚可能违反 |
| 软约束可接受 | 惩罚 | 更易优化 |
| 多约束组合 | 约束+AL | 统一框架 |
6.3 混合方法
惩罚-约束混合:
7. PI控制器与乘子更新
7.1 PI控制器框架
PI控制器更新拉格朗日乘子5:
其中 是约束违反程度。
7.2 自适应策略
自适应增益调整:
当约束违反增加时增大增益。
7.3 与Adam的联系
Adam的自适应学习率可解释为隐式的PI控制:
- 动量项:I项的近似
- 自适应步长:P项的变体
8. 实现细节与最佳实践
8.1 投影时机
| 方法 | 投影时机 | 适用场景 |
|---|---|---|
| 每步投影 | 每个batch | 严格约束 |
| 周期性投影 | 每N步 | 松弛约束 |
| 自适应投影 | 违反时 | 动态约束 |
8.2 约束违反监控
关键指标:
- :约束违反程度
- :乘子范数(反映约束强度)
- 对偶间隙:
8.3 数值稳定性
投影数值问题:
- 使用double precision
- 避免极端尺度
- 梯度裁剪防止NaN
9. 案例研究
9.1 Lipschitz神经网络
1-Lipschitz分类器:
谱归一化实现:
每步更新归一化因子。
9.2 等变网络
旋转等变网络:
约束实现:
周期性正交化。
9.3 差分隐私优化
DP-SGD 中的梯度裁剪:
这是到 球的投影。
10. 总结
约束优化在深度学习中提供了精确控制模型行为的能力:
- 投影梯度下降 适用于简单约束的精确满足
- 增广拉格朗日 提供了处理复杂约束的统一框架
- KKT Nets 将KKT条件嵌入网络架构
- 约束vs惩罚 的选择应根据具体需求决定
- PI控制器 为乘子更新提供了灵活的控制机制
约束优化将继续在鲁棒机器学习、公平AI、安全关键系统等领域发挥关键作用。
参考资料
相关主题:拉格朗日对偶与KKT条件、 深度学习的凸优化视角、 隐式正则化、 对抗鲁棒性基础
Footnotes
-
Ramirez, M., et al. (2025). Position: Adopt Constraints Over Penalties in Deep Learning. arXiv:2505.20628. ↩ ↩2
-
Boero, I., Hounie, I., & Ribeiro, A. (2025). AL-COLE: Augmented Lagrangian for Constrained Learning. arXiv:2510.20995. ↩
-
Arvind, S., Pomaje, R., & Bhat, R. V. (2024). KKT Condition-Trained Neural Networks (KKT Nets). arXiv:2410.15973. ↩
-
Delle Femine, C. (2024). KKT-Informed Neural Network. arXiv:2409.09087. ↩
-
Sohrabi, M., et al. (2024). On PI Controllers for Updating Lagrange Multipliers in Constrained Optimization. ICML 2024. ↩