深度学习的凸优化视角

尽管深度神经网络训练本质上是非凸优化问题，但凸优化理论提供了强大的分析工具和深刻的洞察。近年来，研究者发现许多看似非凸的问题在适当变换下具有凸结构，为理解神经网络的学习动态、泛化性能和优化算法提供了新的视角¹。

1. 神经网络与凸优化的历史联系

1.1 早期研究

神经网络与凸优化的联系可追溯到支持向量机（SVM）的成功：

SVM 本身就是凸优化问题，可高效求解
核方法将神经网络解释为无限维核空间的线性模型
浅层网络在特定条件下可转化为凸问题

1.2 无限宽网络与神经切核

神经切核（Neural Tangent Kernel, NTK） 理论揭示了无限宽网络的凸优化结构²：

在无限宽极限下，网络参数在初始附近线性化
训练动态由固定的NTK决定
等价于核岭回归（凸问题）

核视角：

θ (t) = θ (0) - η \int_{0}^{t} H (θ (s)) \nabla_{θ} L (θ (s)) d s

当 $n \to \infty$ 时， $H \to H^{*}$ 固定，训练简化为凸核回归。

1.3 两层网络的研究突破

核心发现：两层ReLU网络的经验风险最小化在某些条件下等价于凸优化³：

w min \frac{1}{N} i = 1 \sum N ℓ (σ (w^{T} x_{i}), y_{i})

当隐藏层宽度 $m \to \infty$ 时，存在等价的凸 formulation。

2. 两层ReLU网络的凸 formulation

2.1 问题转换

考虑两层ReLU网络：

f (x) = k = 1 \sum K a_{k} σ (w_{k}^{T} x), a_{k} \in R, w_{k} \in R^{d}

其中 $σ (z) = max (z, 0)$ 是ReLU激活函数。

2.2 线性化等价

通过重新参数化，可以将问题转化为凸形式⁴：

核心思想：将网络权重的外积表示为秩-1矩阵的组合。

定义：

v_{k} = a_{k} w_{k}, u_{k} = sign (w_{k}) \circ w_{k}

则

f (x) = k \sum σ (w_{k}^{T} x) \cdot a_{k} = k \sum σ (u_{k}^{T} x) \cdot ∥ v_{k} ∥

2.3 凸优化形式

在适当的正则化下，两层ReLU网络训练等价于以下凸优化问题：

μ \in M min s.t. E_{(x, y)} [ℓ (\int σ (w^{T} x) d μ (w), y)] μ \geq 0, \int d μ = K, \int ∥ w ∥^{2} d μ (w) \leq C

其中 $M$ 是概率测度空间， $μ$ 是神经元参数分布。

2.4 理论保证

主要定理（Pilanci & Ergen, 2020⁴）：

对于两层ReLU网络的经验风险最小化，存在一个等价的凸优化问题，使得：

凸问题的最优值等于原非凸问题的全局最优值
凸问题可以通过半正定规划（SDP）或核方法高效求解
当网络宽度 $K \geq N$ （样本数）时，凸问题可精确恢复原问题解

3. 损失景观的凸对偶分析

3.1 Kim et al. (ICLR 2025) 的研究

Kim、Mishkin和Pilanci (ICLR 2025) 系统分析了正则化神经网络的损失景观结构⁵：

研究问题：

正则化神经网络的全局最优解集结构是什么？
局部最优解之间是否连通？
正则化如何影响解的平坦性？

3.2 主要发现

定理1：最优解集结构

对于 $L^{2}$ 正则化的神经网络，最优解集具有以下性质：

凸性：在权重空间经过适当映射后，最优解集是凸集
对称性：存在由对称变换生成的等变群
平坦性：解的Hessian在约束流形上为零

定理2：全局连接性

在相同正则化参数下，任意两个全局最优解可通过平坦路径连接：

\exists {w (t) ∣ t \in [0, 1]} s.t. f (w (0)) = f (w (1)) = f^{*}, \frac{d}{d t} f (w (t)) = 0

3.3 对偶分析框架

原始问题：

w min f (w) + \frac{λ}{2} ∥ w ∥^{2}

对偶问题：

α max - \frac{1}{2 λ} ∥\nabla f^{*} (2 α) - 2 α ∥^{2} - i \sum α_{i} y_{i}

关键洞察：正则化神经网络的损失景观可以通过对偶变量空间分析。

3.4 与平坦最小值的关系

平坦最小值与损失景观的几何结构密切相关：

平坦区域对应约束流形上的低曲率方向
Sharp极小值位于曲率较高的区域
泛化能力与解的平坦程度正相关

4. 隐式正则化的对偶视角

4.1 权重衰减的对偶解释

$L^{2}$ 权重衰减（ $\frac{λ}{2} ∥ w ∥^{2}$ ）可从对偶角度重新解释：

原始约束形式：

w min f (w) s.t. ∥ w ∥^{2} \leq c

拉格朗日形式：

L (w, λ) = f (w) + λ (∥ w ∥^{2} - c)

对偶问题：

λ max - c λ - f^{*} (- λ w)

4.2的几何意义

$w$ 的 $L^{2}$ 约束将解限制在球内， $λ$ 控制球的大小。

正则化的隐式效应：

梯度下降在约束球边界附近倾向于保持参数小
隐式正则化鼓励使用”简单”的表示
等价于对参数施加概率先验（高斯先验）

4.3 与PAC-Bayes的联系

隐式正则化与PAC-Bayes泛化边界有深刻联系：

PAC-Bayes边界：

E [R (h)] \leq E_{Q} [D (Q ∥ P)] + \frac{D ( Q ∥ P ) + ln ( N / δ )}{2 N}

其中 $Q$ 是后验分布， $P$ 是先验分布。

隐式正则化效应：梯度下降隐式地选择接近先验的后验分布。

4.4 不同正则化的对偶形式

正则化类型	约束形式	对偶形式	效应
$L^{2}$	$∥ w ∥_{2}^{2} \leq c$	$λ ∥ w ∥_{2}^{2}$	平滑解
$L^{1}$	$∥ w ∥_{1} \leq c$	$λ ∥ w ∥_{1}$	稀疏解
Group Lasso	$\sum_{g} ∥ w_{g} ∥_{2} \leq c$	$λ \sum_{g} ∥ w_{g} ∥_{2}$	组稀疏
$L^{\infty}$	$∥ w ∥_{\infty} \leq c$	$λ ∥ w ∥_{\infty}$	参数均匀化

5. 扩展凸性与光滑性

5.1 深度网络中的非标准凸性

Bin-Chuan Qi等人的工作（2024⁶）系统分析了深度学习中扩展的凸性概念：

非齐次激活函数：

σ (x) = a x + b, a \neq = 0

打破了齐次性假设，导致新的优化动态。

扩展凸函数：

\tilde{f} (x) = f (x) - x in f f (x)

总是非负且在全局最小点为零。

5.2 非均匀深度网络

非齐次深度网络的隐式偏差由Cai等人在ICML 2025证明⁷：

定理（隐式偏差定理）：

对于具有非齐次激活的深度网络，梯度下降趋向于最大化边界margin，满足

ar g w min ExpLoss (w) \approx ar g w max γ (w)

其中 $γ (w)$ 是某种margin度量。

5.3 条件数与收敛动态

深度网络的有效条件数依赖于：

激活函数类型：ReLU vs GELU vs SiLU
权重初始化：Xavier vs He初始化
网络深度：深层vs浅层
跳过连接：ResNet vs vanilla网络

有效条件数估计：

κ_{eff} = \frac{λ _{m a x} ( H )}{λ _{m i n}^{+} ( H )}

其中 $H$ 是Hessian矩阵， $λ_{m i n}^{+}$ 是最小正特征值。

6. 对偶视角下的优化算法

6.1 原始-对偶优化在深度学习中的应用

受限优化视角：将深度学习视为受限优化问题：

θ min s.t. L (θ) ∥ θ ∥_{2} \leq R （权重约束） ∥ W_{i} ∥_{F} \leq c_{i} （层约束） E [∥\nabla L ∥] \leq ϵ （稳定性）

6.2 Mirror Descent与信息几何

Mirror Descent算法使用Bregman散度推广梯度下降：

θ^{k + 1} = ar g θ min {⟨ \nabla L (θ^{k}), θ ⟩ + D_{ϕ} (θ, θ^{k})}

其中 $D_{ϕ}$ 是由 $ϕ$ 生成的Bregman散度。

与自然梯度的联系：当 $ϕ$ 取不同的形式时，Mirror Descent可恢复：

欧几里得梯度下降（ $ϕ = \frac{1}{2} ∥ x ∥_{2}^{2}$ ）
自然梯度下降（ $ϕ = KL 散度$ ）
指数族梯度下降（ $ϕ =$ 对数配分函数）

6.3 对偶平均法

对偶平均法（Dual Averaging）：

θ^{k + 1} = θ^{k} - η_{k} (\frac{1}{k} i = 1 \sum k \nabla L (θ^{i}))

适用于稀疏正则化优化，可视为 $L^{1}$ 正则化的隐式优化。

7. 正则化与泛化的对偶分析

7.1 Jacobian正则化的对偶视角

Jacobian正则化：

L_{Jac} = L (θ) + \frac{λ}{2} ∥ J_{F} (θ) ∥_{F}^{2}

其中 $J_{F} (θ)$ 是网络输出的Jacobian矩阵。

对偶解释：

约束输出变化的有界性
鼓励局部Lipschitz连续性
与鲁棒性相关

7.2 Spectral Norm正则化

Spectral Norm正则化：

L_{spec} = L (θ) + λ ∥ W ∥_{2}

约束权重矩阵的谱范数，控制网络的Lipschitz常数。

对偶形式：

W min L (W) s.t. ∥ W ∥_{2} \leq c

使用幂迭代法计算谱范数约束的投影。

7.3 与双下降现象的联系

双下降现象可以从正则化的角度解释：

欠参数化区：参数太少，无法拟合数据
插值区：参数刚好足以完美拟合
过参数化区：参数远多于数据，泛化反而改善

正则化视角：

过参数化区中，梯度下降隐式执行正则化
有效正则化强度随参数数量调整
与PAC-Bayes边界的收缩一致

8. 实践意义

8.1 算法设计

基于凸分析，可以设计更好的优化算法：

约束投影：使用显式约束代替惩罚项
自适应正则化：根据优化动态调整正则化强度
动量设计：利用几何信息加速收敛

8.2 泛化改进

正则化策略的凸分析指导：

权重约束： $L^{2}$ 约束优于 $L^{2}$ 惩罚
谱归一化：控制Lipschitz常数
稀疏正则化： $L^{1}$ 促进稀疏表示

8.3 架构设计

凸视角对架构设计的启示：

跳过连接：缓解优化景观的非凸性
归一化层：改善条件数
残差结构：与凸优化的近端分裂相关

9. 总结

凸优化视角为理解深度学习提供了强大的理论框架：

凸 formulation 揭示了两层网络在特定条件下的凸结构
对偶理论 提供了分析正则化和隐式偏差的新工具
损失景观分析 揭示了最优解集的结构性质
扩展凸性 将传统凸分析推广到深度学习场景
几何视角 连接了优化动态与泛化性能

尽管深度神经网络训练是非凸的，但凸优化的工具和直觉仍然不可或缺。理解这些联系对于设计更好的算法、改进架构设计、以及建立更完善的深度学习理论都至关重要。

参考资料

Pilanci, M., & Ergen, T. (2020). Neural Networks with Sparse Extensions Are Equivalent to Convex Optimization. NeurIPS 2020. ↩
Jacot, A., Gabriel, F., & Hongler, C. (2018). Neural Tangent Kernel: Convergence and Generalization in Neural Networks. NeurIPS 2018. ↩
Ergen, T., & Pilanci, M. (2021). Convex Geometry and Dual Methods for Convex Neural Networks. ICML 2021. ↩
Ergen, T., & Pilanci, M. (2020). Global Optimality in Two-Layer ReLU Network Training. ICLR 2020. ↩ ↩²
Kim, S., Mishkin, A., & Pilanci, M. (2025). Exploring The Loss Landscape Of Regularized Neural Networks Via Convex Duality. ICLR 2025. ↩
Qi, B., Gong, W., & Li, L. (2024). Optimization Mechanisms in Deep Learning: Extended Convexity and Smoothness. arXiv:2410.05807. ↩
Cai, Y., et al. (2025). Implicit Bias of Gradient Descent for Non-Homogeneous Deep Networks. ICML 2025. ↩

Metaphor

探索

深度学习的凸优化视角

深度学习的凸优化视角

1. 神经网络与凸优化的历史联系

1.1 早期研究

1.2 无限宽网络与神经切核

1.3 两层网络的研究突破

2. 两层ReLU网络的凸 formulation

2.1 问题转换

2.2 线性化等价

2.3 凸优化形式

2.4 理论保证

3. 损失景观的凸对偶分析

3.1 Kim et al. (ICLR 2025) 的研究

3.2 主要发现

3.3 对偶分析框架

3.4 与平坦最小值的关系

4. 隐式正则化的对偶视角

4.1 权重衰减的对偶解释

4.2的几何意义

4.3 与PAC-Bayes的联系

4.4 不同正则化的对偶形式

5. 扩展凸性与光滑性

5.1 深度网络中的非标准凸性

5.2 非均匀深度网络

5.3 条件数与收敛动态

6. 对偶视角下的优化算法

6.1 原始-对偶优化在深度学习中的应用

6.2 Mirror Descent与信息几何

6.3 对偶平均法

7. 正则化与泛化的对偶分析

7.1 Jacobian正则化的对偶视角

7.2 Spectral Norm正则化

7.3 与双下降现象的联系

8. 实践意义

8.1 算法设计

8.2 泛化改进

8.3 架构设计

9. 总结

参考资料

Footnotes

关系图谱

目录

反向链接