1. 引言

深度学习优化器的理论理解一直是研究的热点。传统观点认为优化器的主要作用是加速收敛,但近年来的研究表明:优化器的选择不仅影响收敛速度,还会定性改变最终解的性质

本章介绍优化器连续时间理论的最新进展:

  • 自适应优化器的连续时间形式化与SDE建模
  • Fokker-Planck方程与不变测度分析
  • 优化器对解质量的定性影响
  • 从理论到实践的桥梁

2. 自适应优化器的连续时间形式化

2.1 为什么需要连续时间分析?

离散优化器(如Adam、SGD)的理论分析面临以下挑战:

挑战离散分析的困难连续时间分析的优势
学习率调度多种调度形式的组合效应统一的极限行为描述
动量项非凸耦合动力学平滑的相空间流
自适应学习率时变曲率估计确定的梯度流
离散噪声复杂的噪声结构简洁的扩散过程

连续时间分析通过考虑无穷小步长极限,将离散算法转化为连续微分方程,从而可以利用成熟的**常微分方程(ODE)随机微分方程(SDE)**理论进行分析。

2.2 SGD的连续时间极限

考虑SGD更新:

其中 是梯度噪声。

的极限,得到连续时间SDE:

这正是朗之万动力学(Langevin Dynamics)的形式,其中 是维纳过程。

2.3 Adam的连续时间形式化

标准Adam更新规则:

连续时间形式化1为:

其中 可以解释为动量累积的缩放效应

2.4 从离散到连续的映射

离散优化器连续时间极限主要特征
SGD朗之万动力学随机搜索
SGD + Momentum带有速度的随机动力学惯性效应
Adam自适应度规动力学曲率适应
AdamW带权重衰减的Adam正则化效应
LionAdamW变体更简化的动量

3. Fokker-Planck方程与不变测度

3.1 连续时间优化的概率框架

连续时间优化可以被视为在参数空间 上的概率分布演化

为时间 时参数 的概率密度。 的演化由 Fokker-Planck方程(也称Kolmogorov前向方程)描述:

其中概率流 为:

3.2 不变测度

定义(不变测度):概率分布 称为不变测度,如果

定理(不变测度的显式形式)

对于具有常数扩散系数 的朗之万动力学,不变测度为吉布斯分布

其中 是配分函数。

3.3 自适应优化的不变测度

对于Adam等自适应优化器,不变测度更加复杂2。设Adam的连续时间极限为:

其中 是自适应度规矩阵(依赖于历史梯度)。

不变测度为:

注意: 的存在使得不变测度依赖于局部曲率,这解释了为什么Adam倾向于找到曲率较小方向的解。

3.4 不变测度的性质分析

优化器不变测度几何效应
SGD均匀探索
动量SGD依赖于速度惯性偏向
Adam曲率适应
曲率自适应更复杂的度规依赖最速下降

4. Fokker-Planck分析的新进展

4.1 偏差校正的连续时间分析

arXiv 2026的新论文2对经典Fokker-Planck分析进行了关键扩展:

核心贡献:传统分析假设扩散系数恒定,但Adam等自适应方法的扩散是非齐次的(依赖于历史梯度)。

解决方案:引入有效扩散系数

4.2 Adam的偏差校正Fokker-Planck方程

修正后的Fokker-Planck方程:

其中 是时变扩散张量。

4.3 不变律的精确描述

定理(Adam的不变律)

时,参数分布收敛到:

\pi^*(\theta) \propto \lim_{t \to \infty} \frac{1}{\det(H(\theta, t))^{1/2}} \exp\left(-\int_0^\infty \frac{\nabla \mathcal{L}(\theta_s)^T H(\theta_s)^{-1} \nabla \mathcal{L}(\theta_s) ds\right)

这一表达式揭示了Adam的隐式偏好:沿曲率主方向有更长的时间进行搜索


5. 优化器对解的定性影响

5.1 核心发现

arXiv 2025的新论文3提出了一个重要论点:

优化器不仅影响收敛速度,还会定性改变最终解的性质。

5.2 实验证据

在不同优化器下训练的相同架构网络表现出显著差异:

性质SGDAdamAdamW影响维度
最终损失中等较低最低训练损失
泛化性能最高较低中等测试准确率
解的平坦度最平坦最尖锐中等Hession谱
激活模式稀疏密集中等激活熵
权重分布均匀集中中等权重范数

5.3 理论解释

5.3.1 隐式正则化效应

不同的优化器在参数空间引入不同的隐式正则化

  • SGD:通过梯度噪声引入均匀探索偏向
  • Adam:通过自适应学习率引入曲率适应偏向
  • AdamW:额外引入权重衰减,偏向小范数解

5.3.2 有效正则化强度

设有效正则化参数为

优化器来源
SGD噪声强度
Adam自适应程度
AdamW显式+隐式

5.4 解的定性分类

优化器偏好将解引导到参数空间的不同区域:

                    ↑ 损失
                    │
          最优点区域 │     ╭~~~~ Adam偏好区域 ~~~~╮
                    │    ╱                       ╲
                    │   ╱                         ╲
                    │  ╱  ╭~~~ SGD偏好区域 ~~~╮  ╲
                    │ ╱  ╱                       ╲  ╲
                    │╱  ╱                         ╲  ╲
                    └──────────────────────────────────────→ 参数方向
                      曲率小方向              曲率大方向

解释

  • SGD:偏好平坦区域(均匀噪声探索)
  • Adam:偏好曲率适应方向(自适应学习率)
  • AdamW:偏向原点(小权重衰减)

6. 连续时间分析与实际训练的对应

6.1 学习率缩放

连续时间分析提供了学习率缩放的指导原则。

定理(连续-离散对应)

设连续时间学习率为 ,离散时间步长为 ,则:

其中 取决于动量参数。对于标准设置:

参数设置缩放因子
1
Lion优化器

6.2 批量大小与噪声的对应

连续时间框架下,有效噪声强度为:

其中 是批量大小。这解释了为什么:

  • 大批量 → 低噪声 → 更尖锐的解 → 可能泛化更差
  • 小批量 → 高噪声 → 更平坦的解 → 可能泛化更好

6.3 学习率调度的连续时间解释

调度策略连续时间效果
Step Decay噪声强度阶梯式降低
Cosine Annealing噪声强度平滑降低
Warmup噪声强度渐进增加
Cyclical噪声强度周期性振荡

7. 与现有Wiki内容的联系

7.1 与优化理论

自适应优化器理论提供了Adam等优化器的收敛性分析,本章的连续时间视角是其理论基础。

7.2 与损失景观

损失景观临界点分析从几何角度分析了极小值的性质,本章揭示了优化器如何”选择”不同类型的极小值。

7.3 与泛化理论

深度学习泛化理论新进展讨论了平坦最小值与泛化的关系,本章解释了为什么不同优化器产生不同平坦度的解。

7.4 与训练动力学

训练动态与临界学习率分析了Edge of Stability现象,连续时间理论是其数学基础。


8. 总结与开放问题

8.1 本章要点

  1. 连续时间形式化:将离散优化器转化为连续SDE,利用ODE/SDE理论分析
  2. Fokker-Planck框架:通过概率分布演化理解优化器的长期行为
  3. 不变测度:揭示不同优化器隐式偏好的概率分布形式
  4. 定性影响:优化器不仅加速收敛,还定性改变解的性质
  5. 实践指导:连续时间分析提供学习率缩放、批量大小选择的理论指导

8.2 开放问题

  1. 非渐近分析:现有分析主要关注 的极限行为,有限时间下的精确描述?
  2. 多层网络:连续时间分析能否扩展到多层Transformer等复杂架构?
  3. 自适应调度:理论如何指导自适应学习率调度器的设计?
  4. 优化器组合:能否通过组合不同优化器的特性获得更好的解?

8.3 实践建议

  1. 选择优化器时:考虑任务对解性质的要求(如平坦度、稀疏性)
  2. 学习率设置:使用连续时间分析的缩放规则作为初始值
  3. 批量大小:理解大批量与泛化下降的关系,必要时使用梯度累积
  4. 调度策略:使用连续时间解释设计学习率调度

参考文献


相关阅读

Footnotes

  1. “Continuous-Time Analysis of Adaptive Optimization and Normalization.” arXiv:2411.05746, 2024.

  2. “Fokker-Planck Analysis and Invariant Laws for a Continuous-Time Adaptive Stochastic Optimization.” arXiv:2604.00840, 2026. 2

  3. “Optimizers Qualitatively Alter Solutions And We Should Leverage This.” arXiv:2507.12224, 2025.