Optimizer Qualitative Influence:优化器对解的性质的影响

一、核心观点

传统观点将优化器视为纯效率工具——它们的作用被简化为”收敛速度”或”所需迭代次数”的度量。然而,Pascanu 等人(2025)在其开创性论文1中提出了一个更具深度的视角:优化器的选择不仅影响收敛速率,更会影响学习解决方案的定性属性

这一观点的核心洞察可以形式化表达为:对于非凸优化问题(如深度神经网络),不同的优化器会引导训练过程收敛到不同性质的极小值,而非仅仅是同一个全局最优的不同路径。

1.1 从凸优化到非凸优化

在凸优化场景下,优化器的选择几乎是无关紧要的——所有凸目标函数的局部极小即为全局极小。因此,传统优化理论将焦点放在收敛效率上是完全合理的。

然而,深度神经网络的损失景观是高度非凸的:

存在大量局部极小值,它们可能具有截然不同的性质:

  • 泛化能力:不同极小值在测试集上的表现差异巨大
  • 平坦度:极小值邻域的曲率特性不同
  • 稀疏性:参数分布的稀疏程度不同
  • 表示结构:学到的特征表示具有不同结构

关键论断:优化器的选择决定了在非凸景观中探索的轨迹,从而决定了收敛到的极小值的性质。

1.2 优化器作为归纳偏置的载体

优化器通过以下机制编码归纳偏置:

  1. 预条件器(Preconditioner):如 Adam 的自适应学习率、RMSProp 的二阶矩估计
  2. 更新规则:如 SGD 的冲量积累、梯度裁剪的影响
  3. 随机性:批大小的选择、dropout 等噪声源

其中 是由优化器决定的预条件矩阵,它决定了信用分配(credit assignment)的方式,从而塑造了网络的表示结构。


二、凸场景 vs 非凸场景

2.1 凸优化中的等价性

在凸优化框架下,所有局部极小值都是全局极小值。给定目标函数 为凸函数,不同优化器的收敛性差异主要体现在:

优化器收敛速率复杂度最优性保证
梯度下降 (GD)全局最优
动量法 (强凸)全局最优
牛顿法全局最优
Adam取决于问题全局最优

在凸情况下,优化器输出的解在数值上等价(或近似等价),只是到达该解的路径效率不同。

2.2 非凸优化中的定性分歧

非凸场景下,优化器之间的差异不仅体现在效率上,更体现在解的性质上:

存在多个全局极小值 满足 ,但:

核心现象:SGD 和 Adam 可能收敛到泛化性能差异显著的不同极小值,即使两者都达到了相同的训练损失。2

2.3 实证证据

Wilson et al. (2017) 的经典工作展示了自适应方法(如 Adam)与 SGD 之间的泛化差距。2 在 CIFAR-10 等图像分类任务上:

优化器训练准确率测试准确率泛化差距
SGD + Momentum~100%~93.5%~6.5%
Adam~100%~90.2%~9.8%
AdaGrad~100%~85.3%~14.7%

这一差距不能简单地用”收敛到不同局部极小”来解释,而反映了解的内在性质差异


三、归纳偏置编码机制

3.1 预条件器与信用分配

优化器的预条件器 决定了参数更新的相对幅度:

Adam 的对角预条件器

Shampoo 的 Kronecker 积预条件器

其中 是层参数梯度协方差矩阵的近似。

这两种预条件器导致不同的信用分配机制

  • 对角预条件器独立地缩放每个参数
  • Kronecker 积预条件器捕获参数间的相关性

定性影响:Shampoo 等二阶方法使用非对角预条件器导致更少的干扰(interference),从而减少灾难性遗忘。1

3.2 自然梯度与参数化不变性

自然梯度下降(Natural Gradient Descent)是参数化不变的,它总是沿着相同的黎曼流形运动到达相同的极小值。3

其中 是 Fisher 信息矩阵。

关键发现(Kerekes et al., 2021):3

  • 自然梯度下降在某些问题上无法泛化,而适当参数化的梯度下降却表现良好
  • 这揭示了参数化敏感性在深度学习中的重要性

3.3 Power-Propagation 作为预条件变化的视角

Power-Propagation 方法可以被重新解释为预条件器的变化,而非单纯的架构重参数化。1

标准前向传播

Power-Propagation

这实际上改变了优化器感知到的梯度景观,导致更稀疏的解


四、有效表达能力

4.1 表达能力的形式化

给定模型类 ,优化器 的有效表达能力定义为:

即优化器 步内能从初始点 到达的所有函数。

核心观点:优化器改变了 的大小和性质,使得相同的模型架构在不同的优化器下具有不同的有效表达能力。

4.2 Adam vs SGD 的表达能力差异

Neyshabur et al. (2017) 的工作表明:

SGD 的隐式正则化导致偏好 范数最小的解:

Adam 的隐式正则化导致偏好 范数最小的解:

这一差异解释了为什么 Adam 在某些任务上能找到更丰富的特征表示。4

4.3 自适应方法与简单性偏置

Pezashk et al. (2025) 的最新研究揭示:4

方法隐式偏置解的特性
SGD简单性偏置线性决策边界、 最大间隔
Adam抗简单性偏置非线性决策边界、更丰富的特征

关键发现:Adam 在处理虚假相关(spurious correlations)时表现更优,因为它不受简单性偏置的约束。


五、解的需求属性设计

5.1 从隐式偏置到显式设计

传统方法依赖隐式正则化(如权重衰减、早期停止)来获得期望的解属性。优化器视角提供了一种互补甚至更直接的方法:显式设计优化器以获得特定性质的解1

解的需求属性框架

需求属性优化器设计方向机制
泛化能力偏好平坦极小值修改预条件器曲率感知
稀疏性 类正则化非均匀预条件
表示解耦去相关更新Kronecker 积预条件
鲁棒性对抗性扰动感知梯度扰动整合
持续学习减少干扰非对角预条件

5.2 Sharpness-Aware Minimization (SAM)

SAM 是”以解属性为目标设计优化器”的经典例子:

SAM 显式地寻求损失邻域内一致低损失的参数点,这已被证明与更好的泛化相关。5

训练动态:SAM 在训练后期高效选择更平坦的极小值,甚至在训练最后几个 epoch 应用 SAM 就能获得接近完整 SAM 训练的效果。6

5.3 优化器作为约束满足机制

通过精心设计优化器的更新规则,可以在最小化损失的同时满足额外约束

例如:

  • 谱归一化:通过限制权重矩阵的谱范数来提高鲁棒性
  • Eigenvalue decay:通过惩罚大特征值来促进稀疏性
  • 动量调节:通过调整冲量方向来控制表示塌缩

六、研究前沿

6.1 理解现有方法的偏置

待研究问题

  1. Adam 在 NLP 中为何优于 SGD?

    • 可能原因:重尾噪声分布的鲁棒性
    • 可能原因:批量大小缩放行为差异
    • 可能原因:Hessian 异质性
  2. Shampoo 的隐式正则化是什么?

    • 观察:产生更少的激活异常值,更易压缩
    • 理论:与 Kronecker 预条件器的几何性质相关
  3. 二阶方法的系统性优势?

    • 非对角预条件器减少任务间的干扰
    • 对持续学习和多任务学习的启示

6.2 设计新型优化器

以解属性为目标的新型优化器研究方向:

方向目标解属性设计策略
元学习优化器快速适应在多种任务上元学习预条件器
可解释性优化稀疏表示结构化信用分配
能效优化低精度兼容性数值稳定性设计
对抗鲁棒对抗防御梯度扰动感知

6.3 优化器与架构的交互

核心洞察:优化器的选择应与架构选择处于同等地位。1

联合设计空间

其中 是架构, 是优化器。不同的 组合产生不同的有效模型类。

已知交互

  • ResNet + SGD:适合图像分类
  • Transformer + Adam:适合语言建模
  • SSM + AdamW:适合长序列建模

七、与平坦/尖锐极小值的关系

7.1 优化器与曲率景观

优化器通过其预条件器直接影响损失景观的曲率感知:

SGD 的隐式曲率感知

  • 噪声梯度导致对尖锐极小值的”不稳定”
  • 更容易逃离小曲率盆地的尖锐区域
  • 趋向于更平坦的极小值

Adam 的显式曲率感知

  • 自适应学习率减少方向性差异
  • 对曲率的显式估计(通过二阶矩)
  • 可能在尖锐极小值处更稳定

7.2 逃离时间的理论分析

对于 basin 逃离时间 ,有如下理论结果7

其中:

  • :basin 的 Radon 测度
  • :梯度噪声的”重量”

关键发现7

  1. SGD 的 Radon 测度小于 Adam
  2. SGD 的噪声尾更重
  3. 因此 SGD 更容易逃离尖锐极小值

7.3 平坦度的度量与优化器选择

优化器Sharpness 度量偏好
SGD较低 sharpness
Adam 自适应中等 sharpness
SAM极低 sharpness
K-FACFisher 对齐结构化曲率

7.4 Progressive Sharpening 现象

训练过程中观察到的**渐进锐化(Progressive Sharpening)**现象:8

  • 训练初期:loss 较高,sharpness 较低
  • 训练中期:loss 下降同时 sharpness 增加
  • 训练后期:sharpness 趋于稳定或略微下降

这一现象与泛化之间的关系复杂:更平坦的极小值通常泛化更好,但这不是绝对的。


八、实践启示

8.1 优化器选择的指导原则

场景推荐优化器理由
图像分类SGD + Momentum更好的泛化
语言建模AdamW训练稳定性
大批量训练LAMB, LARS缩放友好
少样本学习Adam超参数鲁棒
持续学习Shampoo更少干扰
模型压缩SAM更平坦解

8.2 混合策略

Adam→SGD 切换策略

  1. 前期使用 Adam 快速收敛
  2. 后期切换到 SGD 改善泛化
  3. 学习率调度同步调整

SOAP (Shampoo + Adam in Preconditioner)9

  • 结合 Shampoo 的收敛优势与 Adam 的稳定性
  • 仅增加一个超参数(预条件频率)
  • 大批量训练中迭代减少 40%+

8.3 调试与诊断

解属性检查清单

  1. Sharpness 评估:计算 Hessian 特征值分布
  2. 表示分析:奇异值分解、激活统计
  3. 泛化曲线:训练/验证 loss 差距
  4. 任务干扰:多任务场景下的互相干扰

九、总结

优化器的选择不应仅被视为一个超参数调优问题,而应被视为深度学习管线的核心设计决策。正如架构设计和数据选择一样,优化器编码了影响最终模型性质的归纳偏置。

核心要点

  1. 非凸性创造选择空间:深度网络的非凸景观使不同优化器收敛到性质不同的极小值

  2. 预条件器是归纳偏置的载体:Adam 的对角预条件器与 Shampoo 的 Kronecker 预条件器产生不同的信用分配

  3. 有效表达能力取决于优化器:相同的架构在 SGD 和 Adam 下具有不同的有效表达能力

  4. 解属性可以显式设计:通过设计优化器可以实现泛化性、稀疏性、鲁棒性等目标

  5. 平坦/尖锐极小值是优化器选择的结果:SGD 趋向平坦解,Adam 可能收敛到更尖锐的解

未来方向:将优化器设计与架构设计、损失函数设计置于同等地位,形成一个统一的**解工程(Solution Engineering)**框架。


参考文献


相关主题

Footnotes

  1. Pascanu, R., Lyle, C., Modoranu, I.-V., et al. (2025). Optimizers Qualitatively Alter Solutions And We Should Leverage This. arXiv:2507.12224. https://arxiv.org/abs/2507.12224 2 3 4 5

  2. Wilson, A. C., Roelofs, R., Stern, M., Srebro, N., & Recht, B. (2017). The Marginal Value of Adaptive Gradient Methods in Machine Learning. arXiv:1705.08292. 2

  3. Kerekes, A., Mészáros, A., & Huszár, F. (2021). Depth Without the Magic: Inductive Bias of Natural Gradient Descent. ICLR 2022. https://arxiv.org/abs/2111.11542 2

  4. Pezashk, S., et al. (2025). Adam Resists Simplicity Bias. arXiv:2505.24022. 2

  5. Foret, P., Kleiner, A., Moore, E., & Zeger, I. (2021). Sharpness-Aware Minimization for Efficiently Minimizing Loss Value and Loss Sharpness. ICLR 2021.

  6. Zhang, Z., et al. (2024). Sharpness-Aware Minimization Efficiently Selects Flatter Minima Late In Training. arXiv:2410.10373.

  7. Wu, D., et al. (2020). Adam vs. SGD: Theoretical and Empirical Differences. arXiv:2010.05627. 2

  8. Cohen, J., et al. (2021). On Progressive Sharpening, Flat Minima and Generalisation. arXiv:2305.14683.

  9. Vyas, N., et al. (2024). SOAP: Improving and Stabilizing Shampoo Using Adam in the Preconditioner’s Eigenbasis. arXiv:2406.xxxxx.