1. 引言
深度学习优化器的理论理解一直是研究的热点。传统观点认为优化器的主要作用是加速收敛,但近年来的研究表明:优化器的选择不仅影响收敛速度,还会定性改变最终解的性质。
本章介绍优化器连续时间理论的最新进展:
- 自适应优化器的连续时间形式化与SDE建模
- Fokker-Planck方程与不变测度分析
- 优化器对解质量的定性影响
- 从理论到实践的桥梁
2. 自适应优化器的连续时间形式化
2.1 为什么需要连续时间分析?
离散优化器(如Adam、SGD)的理论分析面临以下挑战:
| 挑战 | 离散分析的困难 | 连续时间分析的优势 |
|---|---|---|
| 学习率调度 | 多种调度形式的组合效应 | 统一的极限行为描述 |
| 动量项 | 非凸耦合动力学 | 平滑的相空间流 |
| 自适应学习率 | 时变曲率估计 | 确定的梯度流 |
| 离散噪声 | 复杂的噪声结构 | 简洁的扩散过程 |
连续时间分析通过考虑无穷小步长极限,将离散算法转化为连续微分方程,从而可以利用成熟的**常微分方程(ODE)和随机微分方程(SDE)**理论进行分析。
2.2 SGD的连续时间极限
考虑SGD更新:
其中 是梯度噪声。
取 的极限,得到连续时间SDE:
这正是朗之万动力学(Langevin Dynamics)的形式,其中 是维纳过程。
2.3 Adam的连续时间形式化
标准Adam更新规则:
连续时间形式化1为:
其中 可以解释为动量累积的缩放效应。
2.4 从离散到连续的映射
| 离散优化器 | 连续时间极限 | 主要特征 |
|---|---|---|
| SGD | 朗之万动力学 | 随机搜索 |
| SGD + Momentum | 带有速度的随机动力学 | 惯性效应 |
| Adam | 自适应度规动力学 | 曲率适应 |
| AdamW | 带权重衰减的Adam | 正则化效应 |
| Lion | AdamW变体 | 更简化的动量 |
3. Fokker-Planck方程与不变测度
3.1 连续时间优化的概率框架
连续时间优化可以被视为在参数空间 上的概率分布演化。
设 为时间 时参数 的概率密度。 的演化由 Fokker-Planck方程(也称Kolmogorov前向方程)描述:
其中概率流 为:
3.2 不变测度
定义(不变测度):概率分布 称为不变测度,如果
定理(不变测度的显式形式):
对于具有常数扩散系数 的朗之万动力学,不变测度为吉布斯分布:
其中 是配分函数。
3.3 自适应优化的不变测度
对于Adam等自适应优化器,不变测度更加复杂2。设Adam的连续时间极限为:
其中 是自适应度规矩阵(依赖于历史梯度)。
不变测度为:
注意: 的存在使得不变测度依赖于局部曲率,这解释了为什么Adam倾向于找到曲率较小方向的解。
3.4 不变测度的性质分析
| 优化器 | 不变测度 | 几何效应 |
|---|---|---|
| SGD | 均匀探索 | |
| 动量SGD | 依赖于速度 | 惯性偏向 |
| Adam | 曲率适应 | |
| 曲率自适应 | 更复杂的度规依赖 | 最速下降 |
4. Fokker-Planck分析的新进展
4.1 偏差校正的连续时间分析
arXiv 2026的新论文2对经典Fokker-Planck分析进行了关键扩展:
核心贡献:传统分析假设扩散系数恒定,但Adam等自适应方法的扩散是非齐次的(依赖于历史梯度)。
解决方案:引入有效扩散系数 :
4.2 Adam的偏差校正Fokker-Planck方程
修正后的Fokker-Planck方程:
其中 是时变扩散张量。
4.3 不变律的精确描述
定理(Adam的不变律):
当 时,参数分布收敛到:
\pi^*(\theta) \propto \lim_{t \to \infty} \frac{1}{\det(H(\theta, t))^{1/2}} \exp\left(-\int_0^\infty \frac{\nabla \mathcal{L}(\theta_s)^T H(\theta_s)^{-1} \nabla \mathcal{L}(\theta_s) ds\right)这一表达式揭示了Adam的隐式偏好:沿曲率主方向有更长的时间进行搜索。
5. 优化器对解的定性影响
5.1 核心发现
arXiv 2025的新论文3提出了一个重要论点:
优化器不仅影响收敛速度,还会定性改变最终解的性质。
5.2 实验证据
在不同优化器下训练的相同架构网络表现出显著差异:
| 性质 | SGD | Adam | AdamW | 影响维度 |
|---|---|---|---|---|
| 最终损失 | 中等 | 较低 | 最低 | 训练损失 |
| 泛化性能 | 最高 | 较低 | 中等 | 测试准确率 |
| 解的平坦度 | 最平坦 | 最尖锐 | 中等 | Hession谱 |
| 激活模式 | 稀疏 | 密集 | 中等 | 激活熵 |
| 权重分布 | 均匀 | 集中 | 中等 | 权重范数 |
5.3 理论解释
5.3.1 隐式正则化效应
不同的优化器在参数空间引入不同的隐式正则化:
- SGD:通过梯度噪声引入均匀探索偏向
- Adam:通过自适应学习率引入曲率适应偏向
- AdamW:额外引入权重衰减,偏向小范数解
5.3.2 有效正则化强度
设有效正则化参数为 :
| 优化器 | 来源 | |
|---|---|---|
| SGD | 噪声强度 | |
| Adam | 自适应程度 | |
| AdamW | 显式+隐式 |
5.4 解的定性分类
优化器偏好将解引导到参数空间的不同区域:
↑ 损失
│
最优点区域 │ ╭~~~~ Adam偏好区域 ~~~~╮
│ ╱ ╲
│ ╱ ╲
│ ╱ ╭~~~ SGD偏好区域 ~~~╮ ╲
│ ╱ ╱ ╲ ╲
│╱ ╱ ╲ ╲
└──────────────────────────────────────→ 参数方向
曲率小方向 曲率大方向
解释:
- SGD:偏好平坦区域(均匀噪声探索)
- Adam:偏好曲率适应方向(自适应学习率)
- AdamW:偏向原点(小权重衰减)
6. 连续时间分析与实际训练的对应
6.1 学习率缩放
连续时间分析提供了学习率缩放的指导原则。
定理(连续-离散对应):
设连续时间学习率为 ,离散时间步长为 ,则:
其中 取决于动量参数。对于标准设置:
| 参数设置 | 缩放因子 |
|---|---|
| 1 | |
| Lion优化器 |
6.2 批量大小与噪声的对应
连续时间框架下,有效噪声强度为:
其中 是批量大小。这解释了为什么:
- 大批量 → 低噪声 → 更尖锐的解 → 可能泛化更差
- 小批量 → 高噪声 → 更平坦的解 → 可能泛化更好
6.3 学习率调度的连续时间解释
| 调度策略 | 连续时间效果 |
|---|---|
| Step Decay | 噪声强度阶梯式降低 |
| Cosine Annealing | 噪声强度平滑降低 |
| Warmup | 噪声强度渐进增加 |
| Cyclical | 噪声强度周期性振荡 |
7. 与现有Wiki内容的联系
7.1 与优化理论
自适应优化器理论提供了Adam等优化器的收敛性分析,本章的连续时间视角是其理论基础。
7.2 与损失景观
损失景观临界点分析从几何角度分析了极小值的性质,本章揭示了优化器如何”选择”不同类型的极小值。
7.3 与泛化理论
深度学习泛化理论新进展讨论了平坦最小值与泛化的关系,本章解释了为什么不同优化器产生不同平坦度的解。
7.4 与训练动力学
训练动态与临界学习率分析了Edge of Stability现象,连续时间理论是其数学基础。
8. 总结与开放问题
8.1 本章要点
- 连续时间形式化:将离散优化器转化为连续SDE,利用ODE/SDE理论分析
- Fokker-Planck框架:通过概率分布演化理解优化器的长期行为
- 不变测度:揭示不同优化器隐式偏好的概率分布形式
- 定性影响:优化器不仅加速收敛,还定性改变解的性质
- 实践指导:连续时间分析提供学习率缩放、批量大小选择的理论指导
8.2 开放问题
- 非渐近分析:现有分析主要关注 的极限行为,有限时间下的精确描述?
- 多层网络:连续时间分析能否扩展到多层Transformer等复杂架构?
- 自适应调度:理论如何指导自适应学习率调度器的设计?
- 优化器组合:能否通过组合不同优化器的特性获得更好的解?
8.3 实践建议
- 选择优化器时:考虑任务对解性质的要求(如平坦度、稀疏性)
- 学习率设置:使用连续时间分析的缩放规则作为初始值
- 批量大小:理解大批量与泛化下降的关系,必要时使用梯度累积
- 调度策略:使用连续时间解释设计学习率调度
参考文献
相关阅读:
- adaptive-optimizer-theory — 自适应优化器理论
- loss-landscape-critical-points-analysis — 损失景观临界点分析
- sharp-flat-minima — 平坦与尖锐最小值
- training-dynamics-critical-learning-rate — 训练动态与临界学习率
- generalization-theory-2025-advances — 深度学习泛化理论新进展
Footnotes
-
“Continuous-Time Analysis of Adaptive Optimization and Normalization.” arXiv:2411.05746, 2024. ↩
-
“Fokker-Planck Analysis and Invariant Laws for a Continuous-Time Adaptive Stochastic Optimization.” arXiv:2604.00840, 2026. ↩ ↩2
-
“Optimizers Qualitatively Alter Solutions And We Should Leverage This.” arXiv:2507.12224, 2025. ↩