Central Flows：深度学习优化的新理论框架

引言

深度学习优化的一个核心挑战是：传统优化理论无法准确描述神经网络训练中的动力学行为，即使在最简单的确定性（全批量）训练设置下也是如此。这一困境的根源在于，优化器通常在一种称为**边缘稳定性（Edge of Stability）**的复杂振荡机制中运行，其轨迹具有高度的非线性和混沌特性。

2025年ICLR论文《Understanding Optimization in Deep Learning with Central Flows》提出了Central Flows（中心流）理论，为这一问题提供了突破性的解决方案。¹²该理论的核心洞察是：虽然振荡优化器的精确轨迹难以分析，但它们的时间平均（即平滑后的）轨迹却往往更容易理解。通过推导描述这一时间平均轨迹的微分方程——即Central Flow——我们可以揭示优化器的隐式行为，包括：

梯度下降如何在损失函数有时上升的情况下仍然取得进展
自适应优化器如何”适应”局部损失景观
自适应优化器如何隐式地导航至能够采取更大步长的低曲率区域

边缘稳定性（Edge of Stability）机制

经典优化理论的局限性

在经典凸优化中，对于光滑函数 $L (θ)$ ，若Hessian矩阵的最大特征值 $λ_{m a x}$ 满足 $η < 2/ λ_{m a x}$ （其中 $η$ 为学习率），梯度下降保证稳定收敛：

θ_{t + 1} = θ_{t} - η \nabla L (θ_{t})

然而，当训练神经网络时，这种稳定性假设往往不成立。

深度学习中的边缘稳定性现象

Cohen等人（2021）的研究揭示了一个惊人的现象：使用固定学习率 $η$ 训练神经网络时，梯度下降通常在边缘稳定性区域运行，此时：

Sharpness（锐度）动态演化：Hessian的最大特征值 $λ_{m a x}$ 在训练初期逐渐增加（称为渐进锐化，Progressive Sharpening），直到达到临界值 $2/ η$
非单调损失行为：一旦达到边缘稳定性，损失函数在短期呈现振荡而非单调下降，但长期仍稳定收敛
稳定振荡：优化器在Hessian最大特征值方向上振荡”反弹”，这种振荡不会导致发散，而是形成一种负反馈机制

λ_{m a x} \approx \frac{2}{η} + 小幅振荡

这一现象表明，传统基于L-光滑性或单调下降的分析无法解释深度学习中梯度下降的成功。³⁴

Central Flow的核心思想

时间平均轨迹的可处理性

Central Flow理论的核心洞察是：振荡优化器可以被视为”环绕”着一条特定的权重空间路径振荡，这条路径被称为Central Flow（中心流）。

设 $w_{t}$ 为 $t$ 时刻的参数，则Central Flow $w (t)$ 可以理解为对离散轨迹 ${w_{t}}$ 进行时间平均后的连续曲线：

w (t) \approx \overset{w}{ˉ}_{t} = \frac{1}{T} τ = t - T \sum t w_{τ}

其中 $T$ 为时间窗口长度。这种平滑操作滤除了高频振荡，保留了优化器的宏观演化趋势。

Central Flow的定义

Central Flow是一个微分方程，直接建模振荡优化器的时间平均轨迹：

\frac{d w}{d t} = F (w, \nabla L, H, \dots)

与传统的梯度流（Gradient Flow） $\overset{w}{˙} = - \nabla L (w)$ 不同，Central Flow能够描述边缘稳定性区域中的复杂动力学行为。

梯度下降的Central Flow推导

二次函数的精确分析

为理解Central Flow的推导，考虑在二次函数上的梯度下降：

L (w) = \frac{1}{2} w^{⊤} H w, H ≻ 0

设 $η$ 为学习率， $S = λ_{m a x} (H)$ 为最大锐度。梯度下降更新为：

w_{t + 1} = w_{t} - ηH w_{t} = (I - ηH) w_{t}

当 $S < 2/ η$ 时： $I - ηH$ 的谱半径小于1，轨迹稳定收敛
当 $S > 2/ η$ 时：最大特征值方向不稳定，产生振荡

边缘稳定性条件下的振荡

在 $S > 2/ η$ 的条件下，梯度下降沿最大特征值方向振荡。通过时间平均分析，可以推导出Central Flow的近似形式。

关键定理：对于梯度下降，其Central Flow满足：

\frac{d w}{d t} = - \frac{2}{η \cdot tr ( H )} \nabla L (w) \cdot (1 - \frac{η ^{2}}{4} ∥ H ∥_{2}^{2})

或更一般地，在边缘稳定性区域 $S \approx 2/ η$ 时：

\frac{d w}{d t} \approx - α \nabla L (w)

其中有效学习率 $α$ 与 $S$ 和 $η$ 的关系由振荡动力学决定。

损失上升但仍在进步的解释

Central Flow揭示了一个重要现象：损失函数在短期内的上升（由于振荡）与优化器的持续进步（由Central Flow描述）是相容的。

具体而言：

精确轨迹 $w_{t}$ 在Hessian的主特征向量方向上振荡
这种振荡导致瞬时损失函数值波动
但时间平均轨迹（Central Flow）沿损失下降方向移动
因此，损失”时而上升时而下降”，但整体趋势向下

自适应优化器的Central Flow分析

RMSProp与Adam的预条件机制

自适应优化器如RMSProp和Adam使用动态预条件化来调整每个坐标的学习率：

w_{t + 1} = w_{t} - \frac{η}{ν _{t}} ⊙ \nabla L (w_{t})

其中 $ν_{t}$ 是梯度平方的指数移动平均（EMA）：

ν_{t} = β_{2} ν_{t - 1} + (1 - β_{2}) \nabla L (w_{t})^{⊙ 2}

这可以视为预条件梯度下降 $w_{t + 1} = w_{t} - P_{t}^{- 1} \nabla L (w_{t})$ ，其中 $P_{t} = diag (ν_{t} / η)$ 。

RMSProp Central Flow的推导

Central Flow分析揭示了RMSProp的一个关键特性：它确实”适应”了局部曲率，但这一适应机制与传统的”使用Hessian”直觉截然不同。

核心发现：RMSProp通过振荡动力学间接适应Hessian。当优化器在边缘稳定性区域振荡时：

振荡导致梯度范数增加
这使得 $ν_{t}$ 增长
从而降低有效学习率
最终降低有效锐度 $S_{eff}$

S_{eff} = \frac{η ^{2} \cdot tr ( H ^{2} )}{4 ν}

有效锐度的双重稳定机制

对于标量RMSProp，存在两种互补的锐度降低机制：

机制	描述	作用方式
振荡触发的锐度降低	振荡自动降低局部锐度 $S (w_{t})$	通过分母实现
梯度范数增长的步长适应	振荡增加梯度范数，使 $ν_{t}$ 增长	通过分子实现

这两种机制共同作用，使有效锐度 $S_{eff}$ 稳定在临界值2附近。

超参数 $β_{2}$ 的隐式作用

参数 $β_{2}$ 控制EMA $ν_{t}$ 对梯度范数变化的响应速度：

较小的 $β_{2}$ ： $ν$ 快速响应，步长适应机制占主导
较大的 $β_{2}$ ： $ν$ 响应缓慢，更多依赖锐度降低机制

这一发现揭示了RMSProp/Adam中超参数选择的隐式优化动力学基础。⁵

隐式正则化与曲率导航

”通过正则化加速”机制

Central Flow分析揭示了自适应优化器的一个关键隐式行为：加速通过正则化机制。

定理：RMSProp/Adam的Central Flow隐式地引导参数向低曲率区域移动，在这些区域中优化器可以采取更大的步长。这一行为被称为”通过正则化加速”（Acceleration via Regularization）。

数学上，这体现为Central Flow对Hessian谱结构的敏感性。自适应优化器倾向于：

在高曲率区域采取较小的预调节步长
导航向低曲率区域（曲率景观中的”山谷”）
在低曲率区域加速收敛

与Sharp/Flat Minima的联系

这一发现与Sharp vs Flat Minima理论形成有趣的联系：

边缘稳定性机制使梯度下降倾向于收敛到较平坦的极小值
自适应优化器通过Central Flow隐式地寻找低曲率区域
这可能是Adam等优化器在实践中具有良好泛化性能的原因之一

Central Flow为理解为什么SGD和自适应优化器能找到泛化良好的极小值提供了新的理论视角。

经验验证

轨迹预测精度

Central Flow的一个显著特性是其数值预测的高精度。在各种神经网络架构上的实验表明：

Vision Transformer (ViT) on CIFAR-10
多层感知机 (MLP) on CIFAR-10
ResNet 变体

Central Flow能够在数千步的时间尺度上准确预测优化器的轨迹，误差极小。

实验设置

典型的实验配置包括：

# Central Flow预测示例
python main.py opt:gd data:cifar10 arch:mlp \
    --data.classes=4 --data.n=1000 \
    --data.criterion=mse --opt.lr=0.02 \
    --runs discrete --steps=1000

实验对比了三种轨迹：

离散轨迹：实际梯度下降迭代
稳定流：使用连续时间近似的轨迹
Central Flow：时间平均轨迹的ODE解

数值准确性

Central Flow的预测与实际轨迹的匹配程度远超传统理论：

预测方法	长期准确性	边缘稳定性区域
梯度流	低	不适用
稳定流	中等	不准确
Central Flow	高	准确

理论基础与数学框架

时间平均的数学基础

Central Flow的推导基于对振荡系统的时间平均理论。对于周期或准周期振荡，时间平均相当于对高频分量进行低通滤波。

设 $w_{t}$ 为振荡轨迹，定义滑动平均：

\overset{w}{ˉ}_{t} = \frac{1}{T} k = 0 \sum T - 1 w_{t - k}

则Central Flow $w (t)$ 满足：

\overset{w}{˙} (t) = T \to \infty lim \frac{w ˉ _{t + T} - w ˉ _{t}}{T}

有效Hessian与预条件化

Central Flow分析中的关键量是有效Hessian $H_{eff}$ ，它捕捉了振荡对优化轨迹的整体效应：

H_{eff} = \frac{2}{η ^{2} S ^{2}} (I - \frac{η ^{2} H ^{2}}{4})^{- 1} \cdot H

这一表达式统一了梯度下降和自适应优化器的分析框架。

与相关工作的联系

Edge of Stability理论

Central Flow理论与训练动力学：Edge of Stability理论与深度网络动态密切相关：

EoS描述了现象：锐度稳定在 $2/ η$ 附近
Central Flow提供了机制：通过时间平均轨迹的ODE刻画这一现象

自适应优化器理论

Central Flow为自适应学习率优化器理论提供了新的视角：

传统分析关注收敛性保证
Central Flow揭示了隐式曲率适应机制
解释了为什么使用梯度而非Hessian的预条件化能有效工作

隐式正则化

Central Flow与隐式正则化的研究紧密相连，包括：

梯度下降的隐式偏置
SGD的噪声诱导正则化
曲率景观与泛化的联系

理论意义与应用前景

优化理论的新范式

Central Flow为深度学习优化理论提供了一个新的分析范式：

传统方法	Central Flow方法
分析精确轨迹	分析时间平均轨迹
依赖平滑性假设	允许边缘稳定性
定性解释	定量预测
静态分析	动态轨迹预测

实际应用

Central Flow理论可能指导：

学习率调度设计：基于Central Flow动态调整学习率
优化器改进：设计新的预条件化策略
超参数选择：理解 $β_{1}, β_{2}$ 等参数的隐式效应
架构设计：理解不同架构的训练动力学差异

局限性

当前Central Flow理论：

主要分析**确定性（全批量）**优化
扩展到SGD需要额外分析
推导基于启发式时间平均论证
对随机性的精确处理尚待发展

总结

Central Flows理论代表了对深度学习优化动力学理解的重大突破。通过引入时间平均轨迹这一关键概念，该理论成功地：

解释了边缘稳定性现象：为什么优化器在 $S \approx 2/ η$ 区域振荡而非发散
揭示了隐式机制：自适应优化器如何通过振荡动力学适应曲率
提供了预测工具：Central Flow能够高精度预测长期优化轨迹
连接了泛化理论：为理解平坦极小值与优化器行为提供了新视角

Central Flow不仅是一个理论工具，更是一个理解深度学习优化本质的新框架，为未来的优化算法设计和理论分析开辟了新的研究方向。

参考

Cohen J, Damian A, Talwalkar A, Kolter Z, Lee J D. Understanding Optimization in Deep Learning with Central Flows. ICLR 2025. arXiv:2410.24206 ↩
Central Flows官方项目页面：https://centralflows.github.io/ ↩
Cohen J, Kaur S, Li Y, Zou J, Kolter Z. Gradient Descent on Neural Networks Typically Occurs at the Edge of Stability. ICLR 2021. ↩
Arora S, Li Z, Zhan Y. Understanding Gradient Descent on the Edge of Stability in Deep Learning. ICML 2022. ↩
Damian A, Ma T, Lee J D. Gradient Descent Can Learn Less over Curvatures. NeurIPS 2024. ↩

Metaphor

探索

Central Flows：深度学习优化的新理论框架

Central Flows：深度学习优化的新理论框架

引言

边缘稳定性（Edge of Stability）机制

经典优化理论的局限性

深度学习中的边缘稳定性现象

Central Flow的核心思想

时间平均轨迹的可处理性

Central Flow的定义

梯度下降的Central Flow推导

二次函数的精确分析

边缘稳定性条件下的振荡

损失上升但仍在进步的解释

自适应优化器的Central Flow分析

RMSProp与Adam的预条件机制

RMSProp Central Flow的推导

有效锐度的双重稳定机制

超参数 β2​ 的隐式作用

隐式正则化与曲率导航

”通过正则化加速”机制

与Sharp/Flat Minima的联系

经验验证

轨迹预测精度

实验设置

数值准确性

理论基础与数学框架

时间平均的数学基础

有效Hessian与预条件化

与相关工作的联系

Edge of Stability理论

自适应优化器理论

隐式正则化

理论意义与应用前景

优化理论的新范式

实际应用

局限性

总结

参考

Footnotes

关系图谱

目录

反向链接

超参数 $β_{2}$ 的隐式作用