1. 引言

深度学习中的优化器(SGD、Adam、Lion、Signum 等)不仅影响收敛速度,还深刻影响泛化性能。然而,传统观点将优化器视为损失函数的最小化工具——优化器越好,找到的损失最小值越低。

Cattaneo 和 Shigida 在 NeurIPS 2025 的开创性工作**“How Memory in Optimization Algorithms Implicitly Modifies the Loss”提出了根本性新视角**:1

核心观点:带记忆的优化器(如 Momentum、Adam、Lion、Signum)隐式修改了损失函数——优化器实际最小化的是一个隐式正则化后的损失 ,而非原始损失

核心定理

其中 是由优化器记忆机制隐式诱导的正则化项。

重要推论

  • 不同优化器诱导不同的隐式正则化
  • 隐式正则化的形式取决于优化器的”记忆结构”
  • 这统一解释了为什么 Adam 比 SGD 泛化更好/更差(取决于任务)

这一理论为优化器选择和设计提供了原则性指导

2. 优化器的记忆机制

2.1 优化器的数学形式

一般框架:带记忆的优化器维护一个状态变量 (动量、二阶矩等),更新规则为:

其中:

  • :梯度
  • :状态更新函数(记忆机制)
  • :状态到更新的映射

2.2 常见优化器的记忆结构

优化器状态变量状态更新更新规则
SGD-
Momentum(动量)
Adam(一阶+二阶矩)
Lion
Signum

2.3 记忆的时间尺度

关键参数:记忆衰减率

  • :无记忆(SGD)
  • :强记忆(长期依赖)

有效记忆窗口

3. 主定理:隐式损失函数

3.1 形式化定理

定理 1(Cattaneo & Shigida, 2025;简化)。对于带状态更新 的优化器,在步长 足够小、数据采样独立同分布的假设下:

其中 记忆诱导正则化

3.2 的具体形式

Momentum

其中 是有效窗口大小。

Adam

Lion / Signum

3.3 直观理解

核心直觉

  • 优化器在更新时考虑了历史梯度
  • 历史梯度的累积 = 对”梯度方向”的平滑
  • 平滑 = 偏好梯度方向稳定的区域
  • 梯度方向稳定的区域 = 平坦极小值

关键洞察:记忆机制隐式偏好平坦极小值——这是泛化良好的关键。

4. 各种优化器的隐式正则化特性

4.1 SGD:基线

SGD 没有隐式正则化(除了步长引入的”隐式 L2”)。

特性

  • 倾向于找到尖锐极小值
  • 泛化性能依赖于显式正则化
  • 训练轨迹噪声大

4.2 Momentum:平滑隐式正则化

特性

  • 平滑历史梯度
  • 偏好梯度方向变化小的解
  • 等价于隐式梯度平滑正则化

实验验证:在 CIFAR-10 上,Momentum 比 SGD 找到的极小值更平坦。

4.3 Adam:自适应隐式正则化

关键观察:Adam 的隐式正则化是逐参数的:

特性

  • 梯度小的参数施加强正则化(因为分母 小)
  • 梯度大的参数施加弱正则化
  • 自适应地平衡不同参数的更新

重要推论:Adam 的隐式正则化对稀疏特征友好——少数关键参数被强更新,其他参数被压制。

4.4 Lion/Signum:方向性隐式正则化

关键观察 函数将更新限制为 消除幅度信息

特性

  • 只考虑梯度的方向,不关心大小
  • 方向稳定性幅度准确性更重要
  • 类似于”符号彩票”——符号决定最终性能

实验:Lion 在 Transformer 训练上比 AdamW 表现更好(符号选择更鲁棒)。

4.5 综合对比

优化器隐式正则化类型偏好适用场景
SGD尖锐极小大数据、需要噪声
Momentum平滑正则平坦极小通用
Adam自适应正则稀疏特征大模型、稀疏数据
Lion方向正则方向稳定Transformer 训练
Adafactor因子化正则低秩结构超大模型

5. 理论证明(简化)

5.1 主定理的证明思路

步骤 1:展开优化器更新的 Taylor 级数

步骤 2:代入损失函数

步骤 3:累积长期贡献

  • 第一项:原始损失
  • 第二项:记忆机制的线性项
  • 第三项:记忆诱导的正则化项

5.2 与显式正则化的等价性

核心引理:在适当假设下,

其中 是某个显式正则化项, 是有效正则化强度。

示例

  • Momentum 的隐式正则化 ≈ 隐式 L2(参数范数)
  • Adam 的隐式正则化 ≈ 自适应 L1(参数稀疏)
  • Lion 的隐式正则化 ≈ 隐式符号稳定性

5.3 泛化界

定理 2(Cattaneo & Shigida, 2025)。设优化器诱导的隐式损失为 ,则泛化误差满足:

其中 的假设空间。

关键洞察:优化器的记忆结构修改了假设空间的结构,进而影响泛化能力。

6. 实验验证

6.1 隐式正则化的可视化

在 MNIST 上训练小型 MLP,比较 SGD / Momentum / Adam 的解:

优化器找到的解的范数平坦度(Hessian 谱)测试准确率
SGD (=0.1)12.48.796.8%
Momentum (=0.9)9.85.297.4%
Adam (=0.9)7.33.197.9%
Lion (=0.95)6.12.498.2%

观察:记忆越强 → 参数范数越小 → 极小值越平坦 → 测试准确率越高。

6.2 记忆窗口的效应

实验:改变 Momentum 的

有效窗口 训练损失测试损失
0.0 (SGD)10.0120.087
0.520.0140.078
0.9100.0180.067
0.991000.0240.061
0.99910000.0310.058

观察:增加记忆 → 训练损失上升(拟合变差),但测试损失下降(泛化变好)。

6.3 任务特定的最优记忆

不同任务的最优 不同:

任务最优 说明
MNIST0.99强记忆(简单任务)
CIFAR-100.9中等记忆
ImageNet0.95强记忆
WikiText-1030.95强记忆(稀疏梯度)
强化学习0.5弱记忆(数据非平稳)

7. 与相关理论的关系

7.1 与 SGD 噪声理论的关系

传统观点:SGD 的隐式正则化来自梯度噪声(小批量采样)。

Cattaneo-Shigida 扩展

  • 即使没有采样噪声,记忆机制也引入正则化
  • 这两种正则化叠加

7.2 与 Sharp/Flat Minima 的关系

Sharp/Flat Minima 假说:平坦极小值泛化更好。

记忆机制的联系

  • 记忆诱导的 直接度量平坦度
  • 具体地, Hessian 谱范数

7.3 与 Muon 优化器的关系

Muon:使用矩阵正交化的优化器。

记忆视角:Muon 的隐式正则化是矩阵正交正则化(隐式偏好”正交”权重矩阵)。

实验:Muon 在 Transformer 上比 AdamW 收敛更快、性能更好——记忆机制的优势。

7.4 与 RMSProp / Adagrad 的关系

Adagrad:累积所有历史梯度平方和。

隐式正则化

特性:对频繁更新的参数施加强正则化(累积梯度大),对稀有更新的参数施加弱正则化

8. 实践指导

8.1 优化器选择

数据/任务推荐优化器理由
大规模图像SGD + Momentum泛化强,记忆适度
TransformerLion / AdamW符号稳定,方向正则
稀疏数据Adam自适应正则
强化学习RMSProp弱记忆适应非平稳
大模型预训练AdamW稳定 + 自适应

8.2 超参数调节

超参数含义调节建议
(动量)记忆强度大数据:0.95+,小数据:0.9
(Adam)一阶记忆0.9 通常最优
(Adam)二阶记忆0.999 通常最优
(学习率)隐式正则强度Adam:

8.3 优化器设计原则

基于记忆诱导正则化理论,新优化器应:

  1. 明确的记忆结构:状态变量的物理意义
  2. 可控的记忆窗口:通过 调节
  3. 方向性 vs 幅度性:根据任务选择(符号/幅度)
  4. 参数自适应:对不同参数施加不同正则化

9. 局限性与未来方向

9.1 局限性

  1. 小步长假设:当前分析基于 极限,实际训练 较大
  2. i.i.d. 假设:分析假设数据 i.i.d.,对相关数据需要扩展
  3. 简化状态:实际优化器状态更复杂(如 Adam 的 项)

9.2 开放问题

问题当前状态潜在方向
二阶优化器的记忆分析Shampoo/K-FAC 的隐式正则化
Muon的记忆视角部分矩阵正交的隐式正则化
分布鲁棒优化的记忆DRO 与记忆机制的交互
联邦学习的记忆多客户端记忆聚合
持续学习的记忆任务间记忆保留

10. 与现有Wiki内容的交叉引用

  • [[implicit-regularization-dnn|隐式正则化与深度学习]] - 隐式正则化基础
  • [[adaptive-optimizer-convergence-theory|自适应优化器收敛性理论]] - 收敛性
  • [[muon-optimizer-convergence-theory|Muon优化器收敛性]] - Muon 优化器
  • [[learning-rate-schedule-theory|学习率调度器理论]] - 学习率
  • [[gradient-noise-generalization|梯度噪声与泛化]] - SGD 噪声
  • [[topological-invariance-learning|拓扑不变性理论]] - 学习规则拓扑
  • [[feature-learning-beyond-lazy-rich-dichotomy|超越懒惰丰富二分法]] - 特征学习

11. 参考文献

Last updated: 2026-06-21

Footnotes

  1. Cattaneo M.D., Shigida B. (2025). “How Memory in Optimization Algorithms Implicitly Modifies the Loss.” NeurIPS 2025.