Optimizer Qualitative Influence:优化器对解的性质的影响
一、核心观点
传统观点将优化器视为纯效率工具——它们的作用被简化为”收敛速度”或”所需迭代次数”的度量。然而,Pascanu 等人(2025)在其开创性论文1中提出了一个更具深度的视角:优化器的选择不仅影响收敛速率,更会影响学习解决方案的定性属性。
这一观点的核心洞察可以形式化表达为:对于非凸优化问题(如深度神经网络),不同的优化器会引导训练过程收敛到不同性质的极小值,而非仅仅是同一个全局最优的不同路径。
1.1 从凸优化到非凸优化
在凸优化场景下,优化器的选择几乎是无关紧要的——所有凸目标函数的局部极小即为全局极小。因此,传统优化理论将焦点放在收敛效率上是完全合理的。
然而,深度神经网络的损失景观是高度非凸的:
存在大量局部极小值,它们可能具有截然不同的性质:
- 泛化能力:不同极小值在测试集上的表现差异巨大
- 平坦度:极小值邻域的曲率特性不同
- 稀疏性:参数分布的稀疏程度不同
- 表示结构:学到的特征表示具有不同结构
关键论断:优化器的选择决定了在非凸景观中探索的轨迹,从而决定了收敛到的极小值的性质。
1.2 优化器作为归纳偏置的载体
优化器通过以下机制编码归纳偏置:
- 预条件器(Preconditioner):如 Adam 的自适应学习率、RMSProp 的二阶矩估计
- 更新规则:如 SGD 的冲量积累、梯度裁剪的影响
- 随机性:批大小的选择、dropout 等噪声源
其中 是由优化器决定的预条件矩阵,它决定了信用分配(credit assignment)的方式,从而塑造了网络的表示结构。
二、凸场景 vs 非凸场景
2.1 凸优化中的等价性
在凸优化框架下,所有局部极小值都是全局极小值。给定目标函数 为凸函数,不同优化器的收敛性差异主要体现在:
| 优化器 | 收敛速率 | 复杂度 | 最优性保证 |
|---|---|---|---|
| 梯度下降 (GD) | 全局最优 | ||
| 动量法 | (强凸) | 全局最优 | |
| 牛顿法 | 全局最优 | ||
| Adam | 取决于问题 | 全局最优 |
在凸情况下,优化器输出的解在数值上等价(或近似等价),只是到达该解的路径效率不同。
2.2 非凸优化中的定性分歧
非凸场景下,优化器之间的差异不仅体现在效率上,更体现在解的性质上:
存在多个全局极小值 满足 ,但:
核心现象:SGD 和 Adam 可能收敛到泛化性能差异显著的不同极小值,即使两者都达到了相同的训练损失。2
2.3 实证证据
Wilson et al. (2017) 的经典工作展示了自适应方法(如 Adam)与 SGD 之间的泛化差距。2 在 CIFAR-10 等图像分类任务上:
| 优化器 | 训练准确率 | 测试准确率 | 泛化差距 |
|---|---|---|---|
| SGD + Momentum | ~100% | ~93.5% | ~6.5% |
| Adam | ~100% | ~90.2% | ~9.8% |
| AdaGrad | ~100% | ~85.3% | ~14.7% |
这一差距不能简单地用”收敛到不同局部极小”来解释,而反映了解的内在性质差异。
三、归纳偏置编码机制
3.1 预条件器与信用分配
优化器的预条件器 决定了参数更新的相对幅度:
Adam 的对角预条件器:
Shampoo 的 Kronecker 积预条件器:
其中 和 是层参数梯度协方差矩阵的近似。
这两种预条件器导致不同的信用分配机制:
- 对角预条件器独立地缩放每个参数
- Kronecker 积预条件器捕获参数间的相关性
定性影响:Shampoo 等二阶方法使用非对角预条件器导致更少的干扰(interference),从而减少灾难性遗忘。1
3.2 自然梯度与参数化不变性
自然梯度下降(Natural Gradient Descent)是参数化不变的,它总是沿着相同的黎曼流形运动到达相同的极小值。3
其中 是 Fisher 信息矩阵。
关键发现(Kerekes et al., 2021):3
- 自然梯度下降在某些问题上无法泛化,而适当参数化的梯度下降却表现良好
- 这揭示了参数化敏感性在深度学习中的重要性
3.3 Power-Propagation 作为预条件变化的视角
Power-Propagation 方法可以被重新解释为预条件器的变化,而非单纯的架构重参数化。1
标准前向传播:
Power-Propagation:
这实际上改变了优化器感知到的梯度景观,导致更稀疏的解。
四、有效表达能力
4.1 表达能力的形式化
给定模型类 ,优化器 的有效表达能力定义为:
即优化器 在 步内能从初始点 到达的所有函数。
核心观点:优化器改变了 的大小和性质,使得相同的模型架构在不同的优化器下具有不同的有效表达能力。
4.2 Adam vs SGD 的表达能力差异
Neyshabur et al. (2017) 的工作表明:
SGD 的隐式正则化导致偏好 范数最小的解:
Adam 的隐式正则化导致偏好 范数最小的解:
这一差异解释了为什么 Adam 在某些任务上能找到更丰富的特征表示。4
4.3 自适应方法与简单性偏置
Pezashk et al. (2025) 的最新研究揭示:4
| 方法 | 隐式偏置 | 解的特性 |
|---|---|---|
| SGD | 简单性偏置 | 线性决策边界、 最大间隔 |
| Adam | 抗简单性偏置 | 非线性决策边界、更丰富的特征 |
关键发现:Adam 在处理虚假相关(spurious correlations)时表现更优,因为它不受简单性偏置的约束。
五、解的需求属性设计
5.1 从隐式偏置到显式设计
传统方法依赖隐式正则化(如权重衰减、早期停止)来获得期望的解属性。优化器视角提供了一种互补甚至更直接的方法:显式设计优化器以获得特定性质的解。1
解的需求属性框架:
| 需求属性 | 优化器设计方向 | 机制 |
|---|---|---|
| 泛化能力 | 偏好平坦极小值 | 修改预条件器曲率感知 |
| 稀疏性 | 类正则化 | 非均匀预条件 |
| 表示解耦 | 去相关更新 | Kronecker 积预条件 |
| 鲁棒性 | 对抗性扰动感知 | 梯度扰动整合 |
| 持续学习 | 减少干扰 | 非对角预条件 |
5.2 Sharpness-Aware Minimization (SAM)
SAM 是”以解属性为目标设计优化器”的经典例子:
SAM 显式地寻求损失邻域内一致低损失的参数点,这已被证明与更好的泛化相关。5
训练动态:SAM 在训练后期高效选择更平坦的极小值,甚至在训练最后几个 epoch 应用 SAM 就能获得接近完整 SAM 训练的效果。6
5.3 优化器作为约束满足机制
通过精心设计优化器的更新规则,可以在最小化损失的同时满足额外约束:
例如:
- 谱归一化:通过限制权重矩阵的谱范数来提高鲁棒性
- Eigenvalue decay:通过惩罚大特征值来促进稀疏性
- 动量调节:通过调整冲量方向来控制表示塌缩
六、研究前沿
6.1 理解现有方法的偏置
待研究问题:
-
Adam 在 NLP 中为何优于 SGD?
- 可能原因:重尾噪声分布的鲁棒性
- 可能原因:批量大小缩放行为差异
- 可能原因:Hessian 异质性
-
Shampoo 的隐式正则化是什么?
- 观察:产生更少的激活异常值,更易压缩
- 理论:与 Kronecker 预条件器的几何性质相关
-
二阶方法的系统性优势?
- 非对角预条件器减少任务间的干扰
- 对持续学习和多任务学习的启示
6.2 设计新型优化器
以解属性为目标的新型优化器研究方向:
| 方向 | 目标解属性 | 设计策略 |
|---|---|---|
| 元学习优化器 | 快速适应 | 在多种任务上元学习预条件器 |
| 可解释性优化 | 稀疏表示 | 结构化信用分配 |
| 能效优化 | 低精度兼容性 | 数值稳定性设计 |
| 对抗鲁棒 | 对抗防御 | 梯度扰动感知 |
6.3 优化器与架构的交互
核心洞察:优化器的选择应与架构选择处于同等地位。1
联合设计空间:
其中 是架构, 是优化器。不同的 组合产生不同的有效模型类。
已知交互:
- ResNet + SGD:适合图像分类
- Transformer + Adam:适合语言建模
- SSM + AdamW:适合长序列建模
七、与平坦/尖锐极小值的关系
7.1 优化器与曲率景观
优化器通过其预条件器直接影响损失景观的曲率感知:
SGD 的隐式曲率感知:
- 噪声梯度导致对尖锐极小值的”不稳定”
- 更容易逃离小曲率盆地的尖锐区域
- 趋向于更平坦的极小值
Adam 的显式曲率感知:
- 自适应学习率减少方向性差异
- 对曲率的显式估计(通过二阶矩)
- 可能在尖锐极小值处更稳定
7.2 逃离时间的理论分析
对于 basin 逃离时间 ,有如下理论结果7:
其中:
- :basin 的 Radon 测度
- :梯度噪声的”重量”
关键发现:7
- SGD 的 Radon 测度小于 Adam
- SGD 的噪声尾更重
- 因此 SGD 更容易逃离尖锐极小值
7.3 平坦度的度量与优化器选择
| 优化器 | Sharpness 度量 | 偏好 |
|---|---|---|
| SGD | 较低 sharpness | |
| Adam | 自适应 | 中等 sharpness |
| SAM | 极低 sharpness | |
| K-FAC | Fisher 对齐 | 结构化曲率 |
7.4 Progressive Sharpening 现象
训练过程中观察到的**渐进锐化(Progressive Sharpening)**现象:8
- 训练初期:loss 较高,sharpness 较低
- 训练中期:loss 下降同时 sharpness 增加
- 训练后期:sharpness 趋于稳定或略微下降
这一现象与泛化之间的关系复杂:更平坦的极小值通常泛化更好,但这不是绝对的。
八、实践启示
8.1 优化器选择的指导原则
| 场景 | 推荐优化器 | 理由 |
|---|---|---|
| 图像分类 | SGD + Momentum | 更好的泛化 |
| 语言建模 | AdamW | 训练稳定性 |
| 大批量训练 | LAMB, LARS | 缩放友好 |
| 少样本学习 | Adam | 超参数鲁棒 |
| 持续学习 | Shampoo | 更少干扰 |
| 模型压缩 | SAM | 更平坦解 |
8.2 混合策略
Adam→SGD 切换策略:
- 前期使用 Adam 快速收敛
- 后期切换到 SGD 改善泛化
- 学习率调度同步调整
SOAP (Shampoo + Adam in Preconditioner):9
- 结合 Shampoo 的收敛优势与 Adam 的稳定性
- 仅增加一个超参数(预条件频率)
- 大批量训练中迭代减少 40%+
8.3 调试与诊断
解属性检查清单:
- Sharpness 评估:计算 Hessian 特征值分布
- 表示分析:奇异值分解、激活统计
- 泛化曲线:训练/验证 loss 差距
- 任务干扰:多任务场景下的互相干扰
九、总结
优化器的选择不应仅被视为一个超参数调优问题,而应被视为深度学习管线的核心设计决策。正如架构设计和数据选择一样,优化器编码了影响最终模型性质的归纳偏置。
核心要点:
-
非凸性创造选择空间:深度网络的非凸景观使不同优化器收敛到性质不同的极小值
-
预条件器是归纳偏置的载体:Adam 的对角预条件器与 Shampoo 的 Kronecker 预条件器产生不同的信用分配
-
有效表达能力取决于优化器:相同的架构在 SGD 和 Adam 下具有不同的有效表达能力
-
解属性可以显式设计:通过设计优化器可以实现泛化性、稀疏性、鲁棒性等目标
-
平坦/尖锐极小值是优化器选择的结果:SGD 趋向平坦解,Adam 可能收敛到更尖锐的解
未来方向:将优化器设计与架构设计、损失函数设计置于同等地位,形成一个统一的**解工程(Solution Engineering)**框架。
参考文献
相关主题
- 自适应优化器理论:Adam、RMSProp 等的理论基础
- Sharp vs Flat Minima:平坦极小值与泛化的关系
- 隐式正则化:梯度下降的隐式偏置机制
- 深度学习优化器:SGD、Adam 等算法的详细实现
Footnotes
-
Pascanu, R., Lyle, C., Modoranu, I.-V., et al. (2025). Optimizers Qualitatively Alter Solutions And We Should Leverage This. arXiv:2507.12224. https://arxiv.org/abs/2507.12224 ↩ ↩2 ↩3 ↩4 ↩5
-
Wilson, A. C., Roelofs, R., Stern, M., Srebro, N., & Recht, B. (2017). The Marginal Value of Adaptive Gradient Methods in Machine Learning. arXiv:1705.08292. ↩ ↩2
-
Kerekes, A., Mészáros, A., & Huszár, F. (2021). Depth Without the Magic: Inductive Bias of Natural Gradient Descent. ICLR 2022. https://arxiv.org/abs/2111.11542 ↩ ↩2
-
Pezashk, S., et al. (2025). Adam Resists Simplicity Bias. arXiv:2505.24022. ↩ ↩2
-
Foret, P., Kleiner, A., Moore, E., & Zeger, I. (2021). Sharpness-Aware Minimization for Efficiently Minimizing Loss Value and Loss Sharpness. ICLR 2021. ↩
-
Zhang, Z., et al. (2024). Sharpness-Aware Minimization Efficiently Selects Flatter Minima Late In Training. arXiv:2410.10373. ↩
-
Wu, D., et al. (2020). Adam vs. SGD: Theoretical and Empirical Differences. arXiv:2010.05627. ↩ ↩2
-
Cohen, J., et al. (2021). On Progressive Sharpening, Flat Minima and Generalisation. arXiv:2305.14683. ↩
-
Vyas, N., et al. (2024). SOAP: Improving and Stabilizing Shampoo Using Adam in the Preconditioner’s Eigenbasis. arXiv:2406.xxxxx. ↩