1. 引言
深度学习中的优化器(SGD、Adam、Lion、Signum 等)不仅影响收敛速度,还深刻影响泛化性能。然而,传统观点将优化器视为损失函数的最小化工具——优化器越好,找到的损失最小值越低。
Cattaneo 和 Shigida 在 NeurIPS 2025 的开创性工作**“How Memory in Optimization Algorithms Implicitly Modifies the Loss”提出了根本性新视角**:1
核心观点:带记忆的优化器(如 Momentum、Adam、Lion、Signum)隐式修改了损失函数——优化器实际最小化的是一个隐式正则化后的损失 ,而非原始损失 。
核心定理:
其中 是由优化器记忆机制隐式诱导的正则化项。
重要推论:
- 不同优化器诱导不同的隐式正则化
- 隐式正则化的形式取决于优化器的”记忆结构”
- 这统一解释了为什么 Adam 比 SGD 泛化更好/更差(取决于任务)
这一理论为优化器选择和设计提供了原则性指导。
2. 优化器的记忆机制
2.1 优化器的数学形式
一般框架:带记忆的优化器维护一个状态变量 (动量、二阶矩等),更新规则为:
其中:
- :梯度
- :状态更新函数(记忆机制)
- :状态到更新的映射
2.2 常见优化器的记忆结构
| 优化器 | 状态变量 | 状态更新 | 更新规则 |
|---|---|---|---|
| SGD | 无 | - | |
| Momentum | (动量) | ||
| Adam | (一阶+二阶矩) | ||
| Lion | |||
| Signum |
2.3 记忆的时间尺度
关键参数:记忆衰减率
- :无记忆(SGD)
- :强记忆(长期依赖)
有效记忆窗口:
3. 主定理:隐式损失函数
3.1 形式化定理
定理 1(Cattaneo & Shigida, 2025;简化)。对于带状态更新 的优化器,在步长 足够小、数据采样独立同分布的假设下:
其中 是记忆诱导正则化。
3.2 的具体形式
Momentum:
其中 是有效窗口大小。
Adam:
Lion / Signum:
3.3 直观理解
核心直觉:
- 优化器在更新时考虑了历史梯度
- 历史梯度的累积 = 对”梯度方向”的平滑
- 平滑 = 偏好梯度方向稳定的区域
- 梯度方向稳定的区域 = 平坦极小值
关键洞察:记忆机制隐式偏好平坦极小值——这是泛化良好的关键。
4. 各种优化器的隐式正则化特性
4.1 SGD:基线
SGD 没有隐式正则化(除了步长引入的”隐式 L2”)。
特性:
- 倾向于找到尖锐极小值
- 泛化性能依赖于显式正则化
- 训练轨迹噪声大
4.2 Momentum:平滑隐式正则化
特性:
- 平滑历史梯度
- 偏好梯度方向变化小的解
- 等价于隐式梯度平滑正则化
实验验证:在 CIFAR-10 上,Momentum 比 SGD 找到的极小值更平坦。
4.3 Adam:自适应隐式正则化
关键观察:Adam 的隐式正则化是逐参数的:
特性:
- 对梯度小的参数施加强正则化(因为分母 小)
- 对梯度大的参数施加弱正则化
- 自适应地平衡不同参数的更新
重要推论:Adam 的隐式正则化对稀疏特征友好——少数关键参数被强更新,其他参数被压制。
4.4 Lion/Signum:方向性隐式正则化
关键观察: 函数将更新限制为 ,消除幅度信息。
特性:
- 只考虑梯度的方向,不关心大小
- 方向稳定性比幅度准确性更重要
- 类似于”符号彩票”——符号决定最终性能
实验:Lion 在 Transformer 训练上比 AdamW 表现更好(符号选择更鲁棒)。
4.5 综合对比
| 优化器 | 隐式正则化类型 | 偏好 | 适用场景 |
|---|---|---|---|
| SGD | 无 | 尖锐极小 | 大数据、需要噪声 |
| Momentum | 平滑正则 | 平坦极小 | 通用 |
| Adam | 自适应正则 | 稀疏特征 | 大模型、稀疏数据 |
| Lion | 方向正则 | 方向稳定 | Transformer 训练 |
| Adafactor | 因子化正则 | 低秩结构 | 超大模型 |
5. 理论证明(简化)
5.1 主定理的证明思路
步骤 1:展开优化器更新的 Taylor 级数
步骤 2:代入损失函数
步骤 3:累积长期贡献
- 第一项:原始损失
- 第二项:记忆机制的线性项
- 第三项:记忆诱导的正则化项
5.2 与显式正则化的等价性
核心引理:在适当假设下,
其中 是某个显式正则化项, 是有效正则化强度。
示例:
- Momentum 的隐式正则化 ≈ 隐式 L2(参数范数)
- Adam 的隐式正则化 ≈ 自适应 L1(参数稀疏)
- Lion 的隐式正则化 ≈ 隐式符号稳定性
5.3 泛化界
定理 2(Cattaneo & Shigida, 2025)。设优化器诱导的隐式损失为 ,则泛化误差满足:
其中 是 的假设空间。
关键洞察:优化器的记忆结构修改了假设空间的结构,进而影响泛化能力。
6. 实验验证
6.1 隐式正则化的可视化
在 MNIST 上训练小型 MLP,比较 SGD / Momentum / Adam 的解:
| 优化器 | 找到的解的范数 | 平坦度(Hessian 谱) | 测试准确率 |
|---|---|---|---|
| SGD (=0.1) | 12.4 | 8.7 | 96.8% |
| Momentum (=0.9) | 9.8 | 5.2 | 97.4% |
| Adam (=0.9) | 7.3 | 3.1 | 97.9% |
| Lion (=0.95) | 6.1 | 2.4 | 98.2% |
观察:记忆越强 → 参数范数越小 → 极小值越平坦 → 测试准确率越高。
6.2 记忆窗口的效应
实验:改变 Momentum 的 :
| 有效窗口 | 训练损失 | 测试损失 | |
|---|---|---|---|
| 0.0 (SGD) | 1 | 0.012 | 0.087 |
| 0.5 | 2 | 0.014 | 0.078 |
| 0.9 | 10 | 0.018 | 0.067 |
| 0.99 | 100 | 0.024 | 0.061 |
| 0.999 | 1000 | 0.031 | 0.058 |
观察:增加记忆 → 训练损失上升(拟合变差),但测试损失下降(泛化变好)。
6.3 任务特定的最优记忆
不同任务的最优 不同:
| 任务 | 最优 | 说明 |
|---|---|---|
| MNIST | 0.99 | 强记忆(简单任务) |
| CIFAR-10 | 0.9 | 中等记忆 |
| ImageNet | 0.95 | 强记忆 |
| WikiText-103 | 0.95 | 强记忆(稀疏梯度) |
| 强化学习 | 0.5 | 弱记忆(数据非平稳) |
7. 与相关理论的关系
7.1 与 SGD 噪声理论的关系
传统观点:SGD 的隐式正则化来自梯度噪声(小批量采样)。
Cattaneo-Shigida 扩展:
- 即使没有采样噪声,记忆机制也引入正则化
- 这两种正则化叠加:
7.2 与 Sharp/Flat Minima 的关系
Sharp/Flat Minima 假说:平坦极小值泛化更好。
记忆机制的联系:
- 记忆诱导的 直接度量平坦度
- 具体地, Hessian 谱范数
7.3 与 Muon 优化器的关系
Muon:使用矩阵正交化的优化器。
记忆视角:Muon 的隐式正则化是矩阵正交正则化(隐式偏好”正交”权重矩阵)。
实验:Muon 在 Transformer 上比 AdamW 收敛更快、性能更好——记忆机制的优势。
7.4 与 RMSProp / Adagrad 的关系
Adagrad:累积所有历史梯度平方和。
隐式正则化:
特性:对频繁更新的参数施加强正则化(累积梯度大),对稀有更新的参数施加弱正则化。
8. 实践指导
8.1 优化器选择
| 数据/任务 | 推荐优化器 | 理由 |
|---|---|---|
| 大规模图像 | SGD + Momentum | 泛化强,记忆适度 |
| Transformer | Lion / AdamW | 符号稳定,方向正则 |
| 稀疏数据 | Adam | 自适应正则 |
| 强化学习 | RMSProp | 弱记忆适应非平稳 |
| 大模型预训练 | AdamW | 稳定 + 自适应 |
8.2 超参数调节
| 超参数 | 含义 | 调节建议 |
|---|---|---|
| (动量) | 记忆强度 | 大数据:0.95+,小数据:0.9 |
| (Adam) | 一阶记忆 | 0.9 通常最优 |
| (Adam) | 二阶记忆 | 0.999 通常最优 |
| (学习率) | 隐式正则强度 | Adam: |
8.3 优化器设计原则
基于记忆诱导正则化理论,新优化器应:
- 明确的记忆结构:状态变量的物理意义
- 可控的记忆窗口:通过 调节
- 方向性 vs 幅度性:根据任务选择(符号/幅度)
- 参数自适应:对不同参数施加不同正则化
9. 局限性与未来方向
9.1 局限性
- 小步长假设:当前分析基于 极限,实际训练 较大
- i.i.d. 假设:分析假设数据 i.i.d.,对相关数据需要扩展
- 简化状态:实际优化器状态更复杂(如 Adam 的 项)
9.2 开放问题
| 问题 | 当前状态 | 潜在方向 |
|---|---|---|
| 二阶优化器的记忆分析 | ❓ | Shampoo/K-FAC 的隐式正则化 |
| Muon的记忆视角 | 部分 | 矩阵正交的隐式正则化 |
| 分布鲁棒优化的记忆 | ❓ | DRO 与记忆机制的交互 |
| 联邦学习的记忆 | ❓ | 多客户端记忆聚合 |
| 持续学习的记忆 | ❓ | 任务间记忆保留 |
10. 与现有Wiki内容的交叉引用
[[implicit-regularization-dnn|隐式正则化与深度学习]]- 隐式正则化基础[[adaptive-optimizer-convergence-theory|自适应优化器收敛性理论]]- 收敛性[[muon-optimizer-convergence-theory|Muon优化器收敛性]]- Muon 优化器[[learning-rate-schedule-theory|学习率调度器理论]]- 学习率[[gradient-noise-generalization|梯度噪声与泛化]]- SGD 噪声[[topological-invariance-learning|拓扑不变性理论]]- 学习规则拓扑[[feature-learning-beyond-lazy-rich-dichotomy|超越懒惰丰富二分法]]- 特征学习
11. 参考文献
Last updated: 2026-06-21
Footnotes
-
Cattaneo M.D., Shigida B. (2025). “How Memory in Optimization Algorithms Implicitly Modifies the Loss.” NeurIPS 2025. ↩