优化器连续时间理论

1. 引言

深度学习优化器的理论理解一直是研究的热点。传统观点认为优化器的主要作用是加速收敛，但近年来的研究表明：优化器的选择不仅影响收敛速度，还会定性改变最终解的性质。

本章介绍优化器连续时间理论的最新进展：

自适应优化器的连续时间形式化与SDE建模
Fokker-Planck方程与不变测度分析
优化器对解质量的定性影响
从理论到实践的桥梁

2. 自适应优化器的连续时间形式化

2.1 为什么需要连续时间分析？

离散优化器（如Adam、SGD）的理论分析面临以下挑战：

挑战	离散分析的困难	连续时间分析的优势
学习率调度	多种调度形式的组合效应	统一的极限行为描述
动量项	非凸耦合动力学	平滑的相空间流
自适应学习率	时变曲率估计	确定的梯度流
离散噪声	复杂的噪声结构	简洁的扩散过程

连续时间分析通过考虑无穷小步长极限，将离散算法转化为连续微分方程，从而可以利用成熟的**常微分方程（ODE）和随机微分方程（SDE）**理论进行分析。

2.2 SGD的连续时间极限

考虑SGD更新：

θ_{t + 1} = θ_{t} - η \nabla L (θ_{t}) + η \cdot ξ_{t}

其中 $ξ_{t} \sim N (0, Σ)$ 是梯度噪声。

取 $η \to 0$ 的极限，得到连续时间SDE：

d θ_{t} = - \nabla L (θ_{t}) d t + Σ d W_{t}

这正是朗之万动力学（Langevin Dynamics）的形式，其中 $W_{t}$ 是维纳过程。

2.3 Adam的连续时间形式化

标准Adam更新规则：

m_{t} v_{t} θ_{t + 1} = β_{1} m_{t - 1} + (1 - β_{1}) g_{t} = β_{2} v_{t - 1} + (1 - β_{2}) g_{t}^{2} = θ_{t} - \frac{η}{v _{t} + ϵ} m_{t}

连续时间形式化¹为：

d θ_{t} = - \frac{η}{v _{t} + ϵ} \cdot \frac{m _{t}}{t} d t + 噪声项

其中 $m_{t} / t$ 可以解释为动量累积的缩放效应。

2.4 从离散到连续的映射

离散优化器	连续时间极限	主要特征
SGD	朗之万动力学	随机搜索
SGD + Momentum	带有速度的随机动力学	惯性效应
Adam	自适应度规动力学	曲率适应
AdamW	带权重衰减的Adam	正则化效应
Lion	AdamW变体	更简化的动量

3. Fokker-Planck方程与不变测度

3.1 连续时间优化的概率框架

连续时间优化可以被视为在参数空间 $θ \in R^{d}$ 上的概率分布演化。

设 $p (θ, t)$ 为时间 $t$ 时参数 $θ$ 的概率密度。 $p$ 的演化由 Fokker-Planck方程（也称Kolmogorov前向方程）描述：

\frac{\partial p ( θ , t )}{\partial t} = - \nabla \cdot J (θ, t)

其中概率流 $J$ 为：

J (θ, t) = - p (θ, t) \nabla L (θ) - \nabla \cdot (σ^{2} p (θ, t))

3.2 不变测度

定义（不变测度）：概率分布 $π (θ)$ 称为不变测度，如果

\frac{\partial π}{\partial t} = 0 ⟺ J (θ) = 0

定理（不变测度的显式形式）：

对于具有常数扩散系数 $σ$ 的朗之万动力学，不变测度为吉布斯分布：

π (θ) = \frac{1}{Z} exp (- \frac{2}{σ ^{2}} L (θ))

其中 $Z = \int exp (- \frac{2}{σ ^{2}} L (θ)) d θ$ 是配分函数。

3.3 自适应优化的不变测度

对于Adam等自适应优化器，不变测度更加复杂²。设Adam的连续时间极限为：

d θ_{t} = - η \cdot H (θ_{t}, t)^{- 1} \nabla L (θ_{t}) d t + 2 η \cdot H (θ_{t}, t)^{- 1/2} d W_{t}

其中 $H (θ, t)$ 是自适应度规矩阵（依赖于历史梯度）。

不变测度为：

π (θ) \propto exp (- \frac{1}{η} L (θ)) \cdot det (H (θ))^{1/2}

注意： $H (θ)$ 的存在使得不变测度依赖于局部曲率，这解释了为什么Adam倾向于找到曲率较小方向的解。

3.4 不变测度的性质分析

优化器	不变测度	几何效应
SGD	$\propto e^{- L / σ^{2}}$	均匀探索
动量SGD	依赖于速度	惯性偏向
Adam	$\propto e^{- L / η} det (H)^{1/2}$	曲率适应
曲率自适应	更复杂的度规依赖	最速下降

4. Fokker-Planck分析的新进展

4.1 偏差校正的连续时间分析

arXiv 2026的新论文²对经典Fokker-Planck分析进行了关键扩展：

核心贡献：传统分析假设扩散系数恒定，但Adam等自适应方法的扩散是非齐次的（依赖于历史梯度）。

解决方案：引入有效扩散系数 $σ_{e ff} (θ, t)$ ：

σ_{e ff}^{2} (θ, t) = E [η^{2} \cdot \frac{m _{t}^{2}}{v _{t} + ϵ}]

4.2 Adam的偏差校正Fokker-Planck方程

修正后的Fokker-Planck方程：

\frac{\partial p}{\partial t} = \nabla \cdot [p \cdot (\nabla L + \frac{\nabla \cdot D}{2})]

其中 $D (θ, t) = σ_{e ff}^{2} (θ, t) \cdot H^{- 1} (θ, t)$ 是时变扩散张量。

4.3 不变律的精确描述

定理（Adam的不变律）：

当 $t \to \infty$ 时，参数分布收敛到：

\pi^*(\theta) \propto \lim_{t \to \infty} \frac{1}{\det(H(\theta, t))^{1/2}} \exp\left(-\int_0^\infty \frac{\nabla \mathcal{L}(\theta_s)^T H(\theta_s)^{-1} \nabla \mathcal{L}(\theta_s) ds\right)

这一表达式揭示了Adam的隐式偏好：沿曲率主方向有更长的时间进行搜索。

5. 优化器对解的定性影响

5.1 核心发现

arXiv 2025的新论文³提出了一个重要论点：

优化器不仅影响收敛速度，还会定性改变最终解的性质。

5.2 实验证据

在不同优化器下训练的相同架构网络表现出显著差异：

性质	SGD	Adam	AdamW	影响维度
最终损失	中等	较低	最低	训练损失
泛化性能	最高	较低	中等	测试准确率
解的平坦度	最平坦	最尖锐	中等	Hession谱
激活模式	稀疏	密集	中等	激活熵
权重分布	均匀	集中	中等	权重范数

5.3 理论解释

5.3.1 隐式正则化效应

不同的优化器在参数空间引入不同的隐式正则化：

SGD：通过梯度噪声引入均匀探索偏向
Adam：通过自适应学习率引入曲率适应偏向
AdamW：额外引入权重衰减，偏向小范数解

5.3.2 有效正则化强度

设有效正则化参数为 $λ_{e ff}$ ：

优化器	$λ_{e ff}$	来源
SGD	$\sim η / σ^{2}$	噪声强度
Adam	$\sim η / η_{a d am}$	自适应程度
AdamW	$λ_{w d} + λ_{e ff}^{A d am}$	显式+隐式

5.4 解的定性分类

优化器偏好将解引导到参数空间的不同区域：

                    ↑ 损失
                    │
          最优点区域 │     ╭~~~~ Adam偏好区域 ~~~~╮
                    │    ╱                       ╲
                    │   ╱                         ╲
                    │  ╱  ╭~~~ SGD偏好区域 ~~~╮  ╲
                    │ ╱  ╱                       ╲  ╲
                    │╱  ╱                         ╲  ╲
                    └──────────────────────────────────────→ 参数方向
                      曲率小方向              曲率大方向

解释：

SGD：偏好平坦区域（均匀噪声探索）
Adam：偏好曲率适应方向（自适应学习率）
AdamW：偏向原点（小权重衰减）

6. 连续时间分析与实际训练的对应

6.1 学习率缩放

连续时间分析提供了学习率缩放的指导原则。

定理（连续-离散对应）：

设连续时间学习率为 $η_{c}$ ，离散时间步长为 $η_{d}$ ，则：

η_{c} = η_{d} \cdot f (β_{1}, β_{2})

其中 $f$ 取决于动量参数。对于标准设置：

参数设置	缩放因子 $f$
$β_{1} = β_{2} = 0$	1
$β_{1} = 0.9, β_{2} = 0.999$	$\approx 10$
Lion优化器	$\approx 2$

6.2 批量大小与噪声的对应

连续时间框架下，有效噪声强度为：

σ_{e ff}^{2} = \frac{L ( θ )}{B}

其中 $B$ 是批量大小。这解释了为什么：

大批量 → 低噪声 → 更尖锐的解 → 可能泛化更差
小批量 → 高噪声 → 更平坦的解 → 可能泛化更好

6.3 学习率调度的连续时间解释

调度策略	连续时间效果
Step Decay	噪声强度阶梯式降低
Cosine Annealing	噪声强度平滑降低
Warmup	噪声强度渐进增加
Cyclical	噪声强度周期性振荡

7. 与现有Wiki内容的联系

7.1 与优化理论

自适应优化器理论提供了Adam等优化器的收敛性分析，本章的连续时间视角是其理论基础。

7.2 与损失景观

损失景观临界点分析从几何角度分析了极小值的性质，本章揭示了优化器如何”选择”不同类型的极小值。

7.3 与泛化理论

深度学习泛化理论新进展讨论了平坦最小值与泛化的关系，本章解释了为什么不同优化器产生不同平坦度的解。

7.4 与训练动力学

训练动态与临界学习率分析了Edge of Stability现象，连续时间理论是其数学基础。

8. 总结与开放问题

8.1 本章要点

连续时间形式化：将离散优化器转化为连续SDE，利用ODE/SDE理论分析
Fokker-Planck框架：通过概率分布演化理解优化器的长期行为
不变测度：揭示不同优化器隐式偏好的概率分布形式
定性影响：优化器不仅加速收敛，还定性改变解的性质
实践指导：连续时间分析提供学习率缩放、批量大小选择的理论指导

8.2 开放问题

非渐近分析：现有分析主要关注 $t \to \infty$ 的极限行为，有限时间下的精确描述？
多层网络：连续时间分析能否扩展到多层Transformer等复杂架构？
自适应调度：理论如何指导自适应学习率调度器的设计？
优化器组合：能否通过组合不同优化器的特性获得更好的解？

8.3 实践建议

选择优化器时：考虑任务对解性质的要求（如平坦度、稀疏性）
学习率设置：使用连续时间分析的缩放规则作为初始值
批量大小：理解大批量与泛化下降的关系，必要时使用梯度累积
调度策略：使用连续时间解释设计学习率调度

参考文献

相关阅读：

adaptive-optimizer-theory — 自适应优化器理论
loss-landscape-critical-points-analysis — 损失景观临界点分析
sharp-flat-minima — 平坦与尖锐最小值
training-dynamics-critical-learning-rate — 训练动态与临界学习率
generalization-theory-2025-advances — 深度学习泛化理论新进展

“Continuous-Time Analysis of Adaptive Optimization and Normalization.” arXiv:2411.05746, 2024. ↩
“Fokker-Planck Analysis and Invariant Laws for a Continuous-Time Adaptive Stochastic Optimization.” arXiv:2604.00840, 2026. ↩ ↩²
“Optimizers Qualitatively Alter Solutions And We Should Leverage This.” arXiv:2507.12224, 2025. ↩

Metaphor

探索