深度学习中的约束优化

传统深度学习使用无约束优化范式，通过在损失函数中添加惩罚项来隐式地施加约束。然而，约束优化提供了一种更直接、更 principled 的方法来控制网络行为。近年来，约束优化在深度学习中的应用迅速增长，从权重约束到公平性约束，从鲁棒性到安全性约束¹。

1. 约束优化框架

1.1 从惩罚到约束

惩罚方法（传统）：

θ min L (θ) + λ R (θ)

问题：惩罚参数 $λ$ 需要调优，解可能不满足约束。

约束方法（现代）：

θ min s.t. L (θ) g_{i} (θ) \leq 0, i = 1, \dots, m

优势：约束可精确满足，直接控制模型行为。

1.2 深度学习中的常见约束

约束类型	形式	目的
权重约束	$∥ W ∥_{F} \leq c$	防止权重爆炸
谱约束	$σ (W) \leq 1$	控制Lipschitz常数
稀疏约束	$∥ W ∥_{0} \leq k$	模型压缩
正交约束	$∥ W^{T} W - I ∥_{F} \leq ϵ$	decorrelation
公平性约束	$∥ f_{θ} (x_{1}) - f_{θ} (x_{2}) ∥ \leq ϵ$	群体公平
鲁棒性约束	$sup_{∥ δ ∥ \leq ϵ} L (θ, x + δ) \leq c$	对抗鲁棒

1.3 约束优化的挑战

深度学习中的特殊挑战：

大规模优化：数百万参数的神经网络
非凸性：即使约束是凸的，原问题也可能非凸
随机优化：需要处理批量采样和噪声
不可微约束：如 $L_{0}$ 范数约束

2. 投影梯度下降

2.1 基本算法

投影梯度下降（Projected Gradient Descent, PGD）：

θ^{k + 1} = Proj_{C} (θ^{k} - α_{k} \nabla L (θ^{k}))

其中 $Proj_{C} (\cdot)$ 是到可行域 $C$ 的投影。

2.2 投影算子的计算

不同约束类型的投影算子：

$L^{2}$ 球约束 $∥ x ∥_{2} \leq c$ ：

Proj_{∥ \cdot ∥_{2} \leq c} (x) = \frac{x}{max ( 1 , ∥ x ∥ _{2} / c )}

$L_{\infty}$ 球约束 $∥ x ∥_{\infty} \leq c$ ：

[Proj_{∥ \cdot ∥_{\infty} \leq c} (x)]_{i} = clip (x_{i}, - c, c)

行范数约束 $∥ W_{i} ∥_{F} \leq c_{i}$ ：

W_{i} \leftarrow W_{i} \cdot min (1, \frac{c _{i}}{∥ W _{i} ∥ _{F}})

谱约束 $σ (W) \leq 1$ ：

W \leftarrow U \cdot min (Σ, I) \cdot V^{T}

使用SVD分解，需要幂迭代近似。

2.3 收敛性分析

定理：设 $C$ 是凸闭集， $L$ 是 $μ$ -强凸 $L$ -光滑函数，则PGD满足

L (θ^{k}) - L (θ^{*}) \leq (1 - \frac{μ}{L})^{k} [L (θ^{0}) - L (θ^{*})]

非凸设置：当 $L$ 非凸时，在适当条件下可达到 $ϵ$ - stationary点。

2.4 在深度学习中的应用

谱归一化（Spectral Normalization）：

W \leftarrow \frac{W}{σ ( W )}

可以视为谱约束的投影。实际中每个训练步骤执行一次投影。

权重归一化（Weight Normalization）：

W = \frac{g}{∥ v ∥} v, ∥ v ∥ \leq c

3. 增广拉格朗日方法

3.1 增广拉格朗日函数

对于约束问题：

x min s.t. f (x) g (x) = 0

增广拉格朗日函数：

L_{ρ} (x, λ) = f (x) + λ^{T} g (x) + \frac{ρ}{2} ∥ g (x) ∥^{2}

其中 $ρ > 0$ 是惩罚参数。

3.2 增广拉格朗日方法

交替方向更新：

{x^{k + 1} = ar g min_{x} L_{ρ_{k}} (x, λ^{k}) λ^{k + 1} = λ^{k} + ρ_{k} g (x^{k + 1})

3.3 不等式约束的处理

对于不等式约束 $h (x) \leq 0$ ，引入 slack变量 $s \geq 0$ ：

h (x) + s = 0

KKT条件 中的互补松弛 $h (x) + s = 0, μ \geq 0, μ \cdot s = 0$ 指导更新。

3.4 AL-COLE方法

AL-COLE (Augmented Lagrangian for Constrained Learning) 是专门为深度学习约束优化设计的方法²：

核心思想：将约束重新表述为对偶可解的形式，使用增广拉格朗日训练。

算法：

内循环：固定乘子，最小化增广拉格朗日
外循环：更新乘子（上升）
自适应调整：根据违反程度调整 $ρ$

优点：

处理非凸约束
无需精确求解子问题
与随机梯度下降兼容

4. KKT Nets：端到端KKT求解

4.1 核心思想

KKT Nets 直接将凸优化问题的KKT条件嵌入神经网络架构³：

原始问题：

x min f (x) s.t. A x = b, x \geq 0

KKT条件：

⎩ ⎨ ⎧ \nabla f (x^{*}) + A^{T} ν^{*} - λ^{*} = 0 A x^{*} = b λ^{*} \geq 0, x^{*} \geq 0 λ_{i}^{*} x_{i}^{*} = 0

4.2 网络架构

KKT Net 包含：

原始变量头：估计 $x^{*}$
对偶变量头：估计 $λ^{*}, ν^{*}$
KKT残差损失：衡量KKT条件的违反程度

L_{KKT} = ∥\nabla f (x) + A^{T} ν - λ ∥^{2} + ∥ A x - b ∥^{2} + i \sum (λ_{i} x_{i})^{2}

4.3 训练目标

多任务损失：

L = L_{KKT} + β L_{task}

其中 $L_{task}$ 是任务损失， $β$ 平衡权重。

4.4 优势与局限

优势：

端到端可微
约束自然满足
可解释性强

局限：

需要问题有凸结构
初始解需要接近可行

5. 深度学习中的约束类型

5.1 权重约束

$L^{2}$ 权重约束：

∥ W ∥_{F} \leq c

投影实现：

W \leftarrow W \cdot min (1, \frac{c}{∥ W ∥ _{F}})

应用：防止梯度爆炸、改进泛化。

5.2 正交约束

正交约束：

W^{T} W = I 或 ∥ W^{T} W - I ∥_{F} \leq ϵ

流形优化视角：正交矩阵构成Stiefel流形，可使用Riemannian梯度下降。

SVD投影：

W \leftarrow U V^{T}, W = U Σ V^{T}

应用：RNN中的正交初始化、Transformer中的注意力权重归一化。

5.3 稀疏约束

$L_{0}$ 约束 $∥ W ∥_{0} \leq k$ ：

直接 $L_{0}$ 约束是离散且非凸的。使用连续松弛：

硬阈值策略：

训练完成后再剪枝
训练中模拟剪枝（late binarization）

渐进约束：

W \leftarrow H_{k} (W) = W ⊙ I (∣ W ∣ \geq t_{k})

其中 $t_{k}$ 是第 $k$ 步的阈值。

5.4 公平性约束

** Demographic Parity**：

∥ P (\overset{y}{^} = 1∣ A = 0) - P (\overset{y}{^} = 1∣ A = 1) ∥ \leq ϵ

Equalized Odds：

∥ P (\overset{y}{^} = 1∣ A = 0, Y = y) - P (\overset{y}{^} = 1∣ A = 1, Y = y) ∥ \leq ϵ

对抗约束：

∥ h_{ϕ} (g_{θ} (x)) - y ∥ \leq ϵ

使用交替优化：固定 $θ$ 训练 $ϕ$ ，固定 $ϕ$ 训练 $θ$ 。

5.5 鲁棒性约束

$L_{p}$ 鲁棒约束：

∥ δ ∥_{p} \leq ϵ max L (θ, x + δ) \leq c

近似方法：

PGD上界：使用多步PGD近似
随机平滑： $\tilde{L} (θ, x) = E_{δ \sim N (0, σ^{2} I)} [L (θ, x + δ)]$
ConvStable：⁴ 使用卷积近似

6. 约束vs惩罚的选择

6.1 Ramirez等人的研究

Ramirez等人在2025年指出，约束形式通常优于惩罚形式¹：

主要论点：

精确控制：约束提供精确的边界保证
尺度无关：约束不受损失函数尺度影响
几何直觉：直接的几何解释
对偶学习：可利用对偶理论分析

6.2 选择指南

场景	推荐方法	原因
需要精确边界	约束	惩罚需要调参
约束是核心需求	约束	惩罚可能违反
软约束可接受	惩罚	更易优化
多约束组合	约束+AL	统一框架

6.3 混合方法

惩罚-约束混合：

θ min L (θ) + λ_{1} ∥ g_{1} (θ) ∥^{2} s.t. ∥ g_{2} (θ) ∥ \leq c

7. PI控制器与乘子更新

7.1 PI控制器框架

PI控制器更新拉格朗日乘子⁵：

λ^{k + 1} = λ^{k} + P 项 K_{P} \cdot g (x^{k}) + I 项 K_{I} \cdot i = 0 \sum k g (x^{i})

其中 $g (x)$ 是约束违反程度。

7.2 自适应策略

自适应增益调整：

K_{P}^{(k)} = K_{P} \cdot exp (γ \cdot trend (g))

当约束违反增加时增大增益。

7.3 与Adam的联系

Adam的自适应学习率可解释为隐式的PI控制：

动量项：I项的近似
自适应步长：P项的变体

8. 实现细节与最佳实践

8.1 投影时机

方法	投影时机	适用场景
每步投影	每个batch	严格约束
周期性投影	每N步	松弛约束
自适应投影	违反时	动态约束

8.2 约束违反监控

关键指标：

$g (x^{k})$ ：约束违反程度
$∥ λ^{k} ∥$ ：乘子范数（反映约束强度）
对偶间隙： $f (x^{k}) - d (λ^{k})$

8.3 数值稳定性

投影数值问题：

使用double precision
避免极端尺度
梯度裁剪防止NaN

9. 案例研究

9.1 Lipschitz神经网络

1-Lipschitz分类器：

∣ f (x_{1}) - f (x_{2}) ∣ \leq ∥ x_{1} - x_{2} ∥_{2}

谱归一化实现：

W \leftarrow \frac{W}{σ ( W ) + ϵ}

每步更新归一化因子。

9.2 等变网络

旋转等变网络：

f (R x) = R f (x) \forall R \in G

约束实现：

W \leftarrow \frac{1}{∣ G ∣} R \in G \sum R^{T} W R

周期性正交化。

9.3 差分隐私优化

DP-SGD 中的梯度裁剪：

g \leftarrow g / max (1, ∥ g ∥_{2} / C)

这是到 $L_{2}$ 球的投影。

10. 总结

约束优化在深度学习中提供了精确控制模型行为的能力：

投影梯度下降 适用于简单约束的精确满足
增广拉格朗日 提供了处理复杂约束的统一框架
KKT Nets 将KKT条件嵌入网络架构
约束vs惩罚 的选择应根据具体需求决定
PI控制器 为乘子更新提供了灵活的控制机制

约束优化将继续在鲁棒机器学习、公平AI、安全关键系统等领域发挥关键作用。

参考资料

Ramirez, M., et al. (2025). Position: Adopt Constraints Over Penalties in Deep Learning. arXiv:2505.20628. ↩ ↩²
Boero, I., Hounie, I., & Ribeiro, A. (2025). AL-COLE: Augmented Lagrangian for Constrained Learning. arXiv:2510.20995. ↩
Arvind, S., Pomaje, R., & Bhat, R. V. (2024). KKT Condition-Trained Neural Networks (KKT Nets). arXiv:2410.15973. ↩
Delle Femine, C. (2024). KKT-Informed Neural Network. arXiv:2409.09087. ↩
Sohrabi, M., et al. (2024). On PI Controllers for Updating Lagrange Multipliers in Constrained Optimization. ICML 2024. ↩

Metaphor

探索

深度学习中的约束优化

深度学习中的约束优化

1. 约束优化框架

1.1 从惩罚到约束

1.2 深度学习中的常见约束

1.3 约束优化的挑战

2. 投影梯度下降

2.1 基本算法

2.2 投影算子的计算

2.3 收敛性分析

2.4 在深度学习中的应用

3. 增广拉格朗日方法

3.1 增广拉格朗日函数

3.2 增广拉格朗日方法

3.3 不等式约束的处理

3.4 AL-COLE方法

4. KKT Nets：端到端KKT求解

4.1 核心思想

4.2 网络架构

4.3 训练目标

4.4 优势与局限

5. 深度学习中的约束类型

5.1 权重约束

5.2 正交约束

5.3 稀疏约束

5.4 公平性约束

5.5 鲁棒性约束

6. 约束vs惩罚的选择

6.1 Ramirez等人的研究

6.2 选择指南

6.3 混合方法

7. PI控制器与乘子更新

7.1 PI控制器框架

7.2 自适应策略

7.3 与Adam的联系

8. 实现细节与最佳实践

8.1 投影时机

8.2 约束违反监控

8.3 数值稳定性

9. 案例研究

9.1 Lipschitz神经网络

9.2 等变网络

9.3 差分隐私优化

10. 总结

参考资料

Footnotes

关系图谱

目录

反向链接