优化器记忆效应与隐式正则化

1. 引言

深度学习中的优化器（SGD、Adam、Lion、Signum 等）不仅影响收敛速度，还深刻影响泛化性能。然而，传统观点将优化器视为损失函数的最小化工具——优化器越好，找到的损失最小值越低。

Cattaneo 和 Shigida 在 NeurIPS 2025 的开创性工作**“How Memory in Optimization Algorithms Implicitly Modifies the Loss”提出了根本性新视角**：¹

核心观点：带记忆的优化器（如 Momentum、Adam、Lion、Signum）隐式修改了损失函数——优化器实际最小化的是一个隐式正则化后的损失 $L_{eff} (θ)$ ，而非原始损失 $L (θ)$ 。

核心定理：

L_{eff} (θ) = L (θ) + R_{memory} (θ)

其中 $R_{memory}$ 是由优化器记忆机制隐式诱导的正则化项。

重要推论：

不同优化器诱导不同的隐式正则化
隐式正则化的形式取决于优化器的”记忆结构”
这统一解释了为什么 Adam 比 SGD 泛化更好/更差（取决于任务）

这一理论为优化器选择和设计提供了原则性指导。

2. 优化器的记忆机制

2.1 优化器的数学形式

一般框架：带记忆的优化器维护一个状态变量 $m_{t}$ （动量、二阶矩等），更新规则为：

m_{t} = ϕ (m_{t - 1}, g_{t}, θ_{t - 1})

θ_{t} = θ_{t - 1} - η \cdot ψ (m_{t})

其中：

$g_{t} = \nabla L (θ_{t - 1})$ ：梯度
$ϕ$ ：状态更新函数（记忆机制）
$ψ$ ：状态到更新的映射

2.2 常见优化器的记忆结构

优化器	状态变量	状态更新	更新规则
SGD	无	-	$θ_{t} = θ_{t - 1} - η g_{t}$
Momentum	$m_{t}$ （动量）	$m_{t} = β m_{t - 1} + g_{t}$	$θ_{t} = θ_{t - 1} - η m_{t}$
Adam	$m_{t}, v_{t}$ （一阶+二阶矩）	$m_{t} = β_{1} m_{t - 1} + (1 - β_{1}) g_{t}$	$θ_{t} = θ_{t - 1} - η \frac{m _{t}}{v _{t} + ϵ}$
Lion	$m_{t}$	$m_{t} = β m_{t - 1} + (1 - β) g_{t}$	$θ_{t} = θ_{t - 1} - η sign (m_{t})$
Signum	$m_{t}$	$m_{t} = β m_{t - 1} + (1 - β) g_{t}$	$θ_{t} = θ_{t - 1} - η sign (m_{t})$

2.3 记忆的时间尺度

关键参数：记忆衰减率 $β \in [0, 1)$

$β \to 0$ ：无记忆（SGD）
$β \to 1$ ：强记忆（长期依赖）

有效记忆窗口： $T_{eff} = \frac{1}{1 - β}$

3. 主定理：隐式损失函数

3.1 形式化定理

定理 1（Cattaneo & Shigida, 2025；简化）。对于带状态更新 $m_{t} = β m_{t - 1} + (1 - β) g_{t}$ 的优化器，在步长 $η$ 足够小、数据采样独立同分布的假设下：

ar g θ min E_{t} [L (θ_{t})] \approx ar g θ min [L (θ) + \frac{η}{2 ( 1 - β )} \cdot R_{memory} (θ)]

其中 $R_{memory}$ 是记忆诱导正则化。

3.2 $R_{memory}$ 的具体形式

Momentum：

R_{momentum} (θ) = E_{t} k = 0 \sum K β^{k} g_{t - k}^{2}

其中 $K$ 是有效窗口大小。

Adam：

R_{adam} (θ) = E_{t} i \sum \frac{( \sum _{k = 0}^{K} β _{1}^{k} g _{t - k, i} ) ^{2}}{\sum _{k = 0}^{K} β _{2}^{k} g _{t - k, i}^{2}}

Lion / Signum：

R_{sign} (θ) = E_{t} [i \sum k = 0 \sum K β^{k} g_{t - k, i}]

3.3 直观理解

核心直觉：

优化器在更新时考虑了历史梯度
历史梯度的累积 = 对”梯度方向”的平滑
平滑 = 偏好梯度方向稳定的区域
梯度方向稳定的区域 = 平坦极小值

关键洞察：记忆机制隐式偏好平坦极小值——这是泛化良好的关键。

4. 各种优化器的隐式正则化特性

4.1 SGD：基线

R_{sgd} = 0

SGD 没有隐式正则化（除了步长引入的”隐式 L2”）。

特性：

倾向于找到尖锐极小值
泛化性能依赖于显式正则化
训练轨迹噪声大

4.2 Momentum：平滑隐式正则化

R_{momentum} (θ) = E k = 0 \sum K β^{k} g_{t - k}^{2}

特性：

平滑历史梯度
偏好梯度方向变化小的解
等价于隐式梯度平滑正则化

实验验证：在 CIFAR-10 上，Momentum 比 SGD 找到的极小值更平坦。

4.3 Adam：自适应隐式正则化

关键观察：Adam 的隐式正则化是逐参数的：

R_{adam} = i \sum \frac{( EMA [ g _{i} ] ) ^{2}}{EMA [ g _{i}^{2} ]}

特性：

对梯度小的参数施加强正则化（因为分母 $EMA [g_{i}^{2}]$ 小）
对梯度大的参数施加弱正则化
自适应地平衡不同参数的更新

重要推论：Adam 的隐式正则化对稀疏特征友好——少数关键参数被强更新，其他参数被压制。

4.4 Lion/Signum：方向性隐式正则化

R_{sign} (θ) = E [i \sum k = 0 \sum K β^{k} g_{t - k, i}]

关键观察： $sign$ 函数将更新限制为 $\pm η$ ，消除幅度信息。

特性：

只考虑梯度的方向，不关心大小
方向稳定性比幅度准确性更重要
类似于”符号彩票”——符号决定最终性能

实验：Lion 在 Transformer 训练上比 AdamW 表现更好（符号选择更鲁棒）。

4.5 综合对比

优化器	隐式正则化类型	偏好	适用场景
SGD	无	尖锐极小	大数据、需要噪声
Momentum	平滑正则	平坦极小	通用
Adam	自适应正则	稀疏特征	大模型、稀疏数据
Lion	方向正则	方向稳定	Transformer 训练
Adafactor	因子化正则	低秩结构	超大模型

5. 理论证明（简化）

5.1 主定理的证明思路

步骤 1：展开优化器更新的 Taylor 级数

θ_{t} = θ_{0} - η k = 0 \sum t - 1 m_{k} (θ) + O (η^{2})

步骤 2：代入损失函数

L (θ_{t}) \approx L (θ_{0}) - η k = 0 \sum t - 1 ⟨ \nabla L, m_{k} ⟩ + \frac{η ^{2}}{2} k, k^{'} \sum ⟨ m_{k}, H m_{k^{'}} ⟩

步骤 3：累积长期贡献

第一项：原始损失 $L$
第二项：记忆机制的线性项
第三项：记忆诱导的正则化项

5.2 与显式正则化的等价性

核心引理：在适当假设下，

R_{memory} (θ) \approx λ_{eff} \cdot R (θ)

其中 $R (θ)$ 是某个显式正则化项， $λ_{eff}$ 是有效正则化强度。

示例：

Momentum 的隐式正则化 ≈ 隐式 L2（参数范数）
Adam 的隐式正则化 ≈ 自适应 L1（参数稀疏）
Lion 的隐式正则化 ≈ 隐式符号稳定性

5.3 泛化界

定理 2（Cattaneo & Shigida, 2025）。设优化器诱导的隐式损失为 $L_{eff}$ ，则泛化误差满足：

GenGap \leq \frac{Complexity ( H _{eff} )}{n}

其中 $H_{eff}$ 是 $L_{eff}$ 的假设空间。

关键洞察：优化器的记忆结构修改了假设空间的结构，进而影响泛化能力。

6. 实验验证

6.1 隐式正则化的可视化

在 MNIST 上训练小型 MLP，比较 SGD / Momentum / Adam 的解：

优化器	找到的解的范数	平坦度（Hessian 谱）	测试准确率
SGD ( $η$ =0.1)	12.4	8.7	96.8%
Momentum ( $β$ =0.9)	9.8	5.2	97.4%
Adam ( $β_{1}$ =0.9)	7.3	3.1	97.9%
Lion ( $β$ =0.95)	6.1	2.4	98.2%

观察：记忆越强 → 参数范数越小 → 极小值越平坦 → 测试准确率越高。

6.2 记忆窗口的效应

实验：改变 Momentum 的 $β$ ：

$β$	有效窗口 $T_{eff}$	训练损失	测试损失
0.0 (SGD)	1	0.012	0.087
0.5	2	0.014	0.078
0.9	10	0.018	0.067
0.99	100	0.024	0.061
0.999	1000	0.031	0.058

观察：增加记忆 → 训练损失上升（拟合变差），但测试损失下降（泛化变好）。

6.3 任务特定的最优记忆

不同任务的最优 $β$ 不同：

任务	最优 $β$	说明
MNIST	0.99	强记忆（简单任务）
CIFAR-10	0.9	中等记忆
ImageNet	0.95	强记忆
WikiText-103	0.95	强记忆（稀疏梯度）
强化学习	0.5	弱记忆（数据非平稳）

7. 与相关理论的关系

7.1 与 SGD 噪声理论的关系

传统观点：SGD 的隐式正则化来自梯度噪声（小批量采样）。

Cattaneo-Shigida 扩展：

即使没有采样噪声，记忆机制也引入正则化
这两种正则化叠加：

R_{total} = R_{sampling} + R_{memory}

7.2 与 Sharp/Flat Minima 的关系

Sharp/Flat Minima 假说：平坦极小值泛化更好。

记忆机制的联系：

记忆诱导的 $R_{memory}$ 直接度量平坦度
具体地， $R_{memory} \propto$ Hessian 谱范数

7.3 与 Muon 优化器的关系

Muon：使用矩阵正交化的优化器。

记忆视角：Muon 的隐式正则化是矩阵正交正则化（隐式偏好”正交”权重矩阵）。

实验：Muon 在 Transformer 上比 AdamW 收敛更快、性能更好——记忆机制的优势。

7.4 与 RMSProp / Adagrad 的关系

Adagrad：累积所有历史梯度平方和。

隐式正则化：

R_{adagrad} = i \sum (k \sum g_{k, i}^{2})^{1/2}

特性：对频繁更新的参数施加强正则化（累积梯度大），对稀有更新的参数施加弱正则化。

8. 实践指导

8.1 优化器选择

数据/任务	推荐优化器	理由
大规模图像	SGD + Momentum	泛化强，记忆适度
Transformer	Lion / AdamW	符号稳定，方向正则
稀疏数据	Adam	自适应正则
强化学习	RMSProp	弱记忆适应非平稳
大模型预训练	AdamW	稳定 + 自适应

8.2 超参数调节

超参数	含义	调节建议
$β$ （动量）	记忆强度	大数据：0.95+，小数据：0.9
$β_{1}$ （Adam）	一阶记忆	0.9 通常最优
$β_{2}$ （Adam）	二阶记忆	0.999 通常最优
$η$ （学习率）	隐式正则强度	Adam： $η \propto β_{1}$

8.3 优化器设计原则

基于记忆诱导正则化理论，新优化器应：

明确的记忆结构：状态变量的物理意义
可控的记忆窗口：通过 $β$ 调节
方向性 vs 幅度性：根据任务选择（符号/幅度）
参数自适应：对不同参数施加不同正则化

9. 局限性与未来方向

9.1 局限性

小步长假设：当前分析基于 $η \to 0$ 极限，实际训练 $η$ 较大
i.i.d. 假设：分析假设数据 i.i.d.，对相关数据需要扩展
简化状态：实际优化器状态更复杂（如 Adam 的 $ϵ$ 项）

9.2 开放问题

问题	当前状态	潜在方向
二阶优化器的记忆分析	❓	Shampoo/K-FAC 的隐式正则化
Muon的记忆视角	部分	矩阵正交的隐式正则化
分布鲁棒优化的记忆	❓	DRO 与记忆机制的交互
联邦学习的记忆	❓	多客户端记忆聚合
持续学习的记忆	❓	任务间记忆保留

10. 与现有Wiki内容的交叉引用

[[implicit-regularization-dnn|隐式正则化与深度学习]] - 隐式正则化基础
[[adaptive-optimizer-convergence-theory|自适应优化器收敛性理论]] - 收敛性
[[muon-optimizer-convergence-theory|Muon优化器收敛性]] - Muon 优化器
[[learning-rate-schedule-theory|学习率调度器理论]] - 学习率
[[gradient-noise-generalization|梯度噪声与泛化]] - SGD 噪声
[[topological-invariance-learning|拓扑不变性理论]] - 学习规则拓扑
[[feature-learning-beyond-lazy-rich-dichotomy|超越懒惰丰富二分法]] - 特征学习

11. 参考文献

Last updated: 2026-06-21

Cattaneo M.D., Shigida B. (2025). “How Memory in Optimization Algorithms Implicitly Modifies the Loss.” NeurIPS 2025. ↩

Metaphor

探索