Optimizer Qualitative Influence：优化器对解的性质的影响

一、核心观点

传统观点将优化器视为纯效率工具——它们的作用被简化为”收敛速度”或”所需迭代次数”的度量。然而，Pascanu 等人（2025）在其开创性论文¹中提出了一个更具深度的视角：优化器的选择不仅影响收敛速率，更会影响学习解决方案的定性属性。

这一观点的核心洞察可以形式化表达为：对于非凸优化问题（如深度神经网络），不同的优化器会引导训练过程收敛到不同性质的极小值，而非仅仅是同一个全局最优的不同路径。

1.1 从凸优化到非凸优化

在凸优化场景下，优化器的选择几乎是无关紧要的——所有凸目标函数的局部极小即为全局极小。因此，传统优化理论将焦点放在收敛效率上是完全合理的。

然而，深度神经网络的损失景观是高度非凸的：

L : R^{d} \to R, d \in [1 0^{6}, 1 0^{12}]

存在大量局部极小值，它们可能具有截然不同的性质：

泛化能力：不同极小值在测试集上的表现差异巨大
平坦度：极小值邻域的曲率特性不同
稀疏性：参数分布的稀疏程度不同
表示结构：学到的特征表示具有不同结构

关键论断：优化器的选择决定了在非凸景观中探索的轨迹，从而决定了收敛到的极小值的性质。

1.2 优化器作为归纳偏置的载体

优化器通过以下机制编码归纳偏置：

预条件器（Preconditioner）：如 Adam 的自适应学习率、RMSProp 的二阶矩估计
更新规则：如 SGD 的冲量积累、梯度裁剪的影响
随机性：批大小的选择、dropout 等噪声源

θ_{t + 1} = θ_{t} - α_{t} \cdot M (θ_{t}, g_{t}) \cdot g_{t}

其中 $M (θ_{t}, g_{t})$ 是由优化器决定的预条件矩阵，它决定了信用分配（credit assignment）的方式，从而塑造了网络的表示结构。

二、凸场景 vs 非凸场景

2.1 凸优化中的等价性

在凸优化框架下，所有局部极小值都是全局极小值。给定目标函数 $f : R^{d} \to R$ 为凸函数，不同优化器的收敛性差异主要体现在：

优化器	收敛速率	复杂度	最优性保证
梯度下降 (GD)	$O (1/ t)$	$O (d)$	全局最优
动量法	$O (1/ t^{2})$ (强凸)	$O (d)$	全局最优
牛顿法	$O (exp (- c lo g (1/ t)))$	$O (d^{3})$	全局最优
Adam	取决于问题	$O (d)$	全局最优

在凸情况下，优化器输出的解在数值上等价（或近似等价），只是到达该解的路径效率不同。

2.2 非凸优化中的定性分歧

非凸场景下，优化器之间的差异不仅体现在效率上，更体现在解的性质上：

L_{train} (θ) = \frac{1}{N} i = 1 \sum N ℓ (f (x_{i}; θ), y_{i})

存在多个全局极小值 $θ^{*}$ 满足 $\nabla L (θ^{*}) = 0$ ，但：

L_{test} (θ_{1}^{*}) \neq = L_{test} (θ_{2}^{*})

核心现象：SGD 和 Adam 可能收敛到泛化性能差异显著的不同极小值，即使两者都达到了相同的训练损失。²

2.3 实证证据

Wilson et al. (2017) 的经典工作展示了自适应方法（如 Adam）与 SGD 之间的泛化差距。² 在 CIFAR-10 等图像分类任务上：

优化器	训练准确率	测试准确率	泛化差距
SGD + Momentum	~100%	~93.5%	~6.5%
Adam	~100%	~90.2%	~9.8%
AdaGrad	~100%	~85.3%	~14.7%

这一差距不能简单地用”收敛到不同局部极小”来解释，而反映了解的内在性质差异。

三、归纳偏置编码机制

3.1 预条件器与信用分配

优化器的预条件器 $M$ 决定了参数更新的相对幅度：

Adam 的对角预条件器：

M_{Adam, i} = \frac{1}{v _{i} + ϵ}

Shampoo 的 Kronecker 积预条件器：

M_{Shampoo} = L^{- 1/2} \otimes R^{- 1/2}

其中 $L$ 和 $R$ 是层参数梯度协方差矩阵的近似。

这两种预条件器导致不同的信用分配机制：

对角预条件器独立地缩放每个参数
Kronecker 积预条件器捕获参数间的相关性

定性影响：Shampoo 等二阶方法使用非对角预条件器导致更少的干扰（interference），从而减少灾难性遗忘。¹

3.2 自然梯度与参数化不变性

自然梯度下降（Natural Gradient Descent）是参数化不变的，它总是沿着相同的黎曼流形运动到达相同的极小值。³

θ_{t + 1} = θ_{t} - α \cdot F (θ_{t})^{- 1} \nabla L (θ_{t})

其中 $F (θ)$ 是 Fisher 信息矩阵。

关键发现（Kerekes et al., 2021）：³

自然梯度下降在某些问题上无法泛化，而适当参数化的梯度下降却表现良好
这揭示了参数化敏感性在深度学习中的重要性

3.3 Power-Propagation 作为预条件变化的视角

Power-Propagation 方法可以被重新解释为预条件器的变化，而非单纯的架构重参数化。¹

标准前向传播：

h_{l + 1} = σ (W_{l} h_{l})

Power-Propagation：

h_{l + 1} = σ ((W_{l}^{α}) h_{l}), α \in (0, 1]

这实际上改变了优化器感知到的梯度景观，导致更稀疏的解。

四、有效表达能力

4.1 表达能力的形式化

给定模型类 $F = {f (\cdot; θ) : θ \in Θ}$ ，优化器 $O$ 的有效表达能力定义为：

E (O, F) = {f (\cdot; θ^{*}) : θ^{*} = O (L, θ_{0}, T)}

即优化器 $O$ 在 $T$ 步内能从初始点 $θ_{0}$ 到达的所有函数。

核心观点：优化器改变了 $E (O, F)$ 的大小和性质，使得相同的模型架构在不同的优化器下具有不同的有效表达能力。

4.2 Adam vs SGD 的表达能力差异

Neyshabur et al. (2017) 的工作表明：

SGD 的隐式正则化导致偏好 $ℓ_{2}$ 范数最小的解：

θ_{SGD}^{*} \approx ar g θ min ∥ θ ∥_{2} s.t. L (θ) = 0

Adam 的隐式正则化导致偏好 $ℓ_{\infty}$ 范数最小的解：

θ_{Adam}^{*} \approx ar g θ min ∥ θ ∥_{\infty} s.t. L (θ) = 0

这一差异解释了为什么 Adam 在某些任务上能找到更丰富的特征表示。⁴

4.3 自适应方法与简单性偏置

Pezashk et al. (2025) 的最新研究揭示：⁴

方法	隐式偏置	解的特性
SGD	简单性偏置	线性决策边界、 $ℓ_{2}$ 最大间隔
Adam	抗简单性偏置	非线性决策边界、更丰富的特征

关键发现：Adam 在处理虚假相关（spurious correlations）时表现更优，因为它不受简单性偏置的约束。

五、解的需求属性设计

5.1 从隐式偏置到显式设计

传统方法依赖隐式正则化（如权重衰减、早期停止）来获得期望的解属性。优化器视角提供了一种互补甚至更直接的方法：显式设计优化器以获得特定性质的解。¹

解的需求属性框架：

需求属性	优化器设计方向	机制
泛化能力	偏好平坦极小值	修改预条件器曲率感知
稀疏性	$ℓ_{1}$ 类正则化	非均匀预条件
表示解耦	去相关更新	Kronecker 积预条件
鲁棒性	对抗性扰动感知	梯度扰动整合
持续学习	减少干扰	非对角预条件

5.2 Sharpness-Aware Minimization (SAM)

SAM 是”以解属性为目标设计优化器”的经典例子：

θ^{SAM} = ar g θ min ∥ ϵ ∥_{p} \leq ρ max L (θ + ϵ)

SAM 显式地寻求损失邻域内一致低损失的参数点，这已被证明与更好的泛化相关。⁵

训练动态：SAM 在训练后期高效选择更平坦的极小值，甚至在训练最后几个 epoch 应用 SAM 就能获得接近完整 SAM 训练的效果。⁶

5.3 优化器作为约束满足机制

通过精心设计优化器的更新规则，可以在最小化损失的同时满足额外约束：

θ min L (θ) s.t. g (θ) \leq c

例如：

谱归一化：通过限制权重矩阵的谱范数来提高鲁棒性
Eigenvalue decay：通过惩罚大特征值来促进稀疏性
动量调节：通过调整冲量方向来控制表示塌缩

六、研究前沿

6.1 理解现有方法的偏置

待研究问题：

Adam 在 NLP 中为何优于 SGD？
- 可能原因：重尾噪声分布的鲁棒性
- 可能原因：批量大小缩放行为差异
- 可能原因：Hessian 异质性
Shampoo 的隐式正则化是什么？
- 观察：产生更少的激活异常值，更易压缩
- 理论：与 Kronecker 预条件器的几何性质相关
二阶方法的系统性优势？
- 非对角预条件器减少任务间的干扰
- 对持续学习和多任务学习的启示

6.2 设计新型优化器

以解属性为目标的新型优化器研究方向：

方向	目标解属性	设计策略
元学习优化器	快速适应	在多种任务上元学习预条件器
可解释性优化	稀疏表示	结构化信用分配
能效优化	低精度兼容性	数值稳定性设计
对抗鲁棒	对抗防御	梯度扰动感知

6.3 优化器与架构的交互

核心洞察：优化器的选择应与架构选择处于同等地位。¹

联合设计空间：

M = {(A, O) : A \in A, O \in O}

其中 $A$ 是架构， $O$ 是优化器。不同的 $(A, O)$ 组合产生不同的有效模型类。

已知交互：

ResNet + SGD：适合图像分类
Transformer + Adam：适合语言建模
SSM + AdamW：适合长序列建模

七、与平坦/尖锐极小值的关系

7.1 优化器与曲率景观

优化器通过其预条件器直接影响损失景观的曲率感知：

SGD 的隐式曲率感知：

噪声梯度导致对尖锐极小值的”不稳定”
更容易逃离小曲率盆地的尖锐区域
趋向于更平坦的极小值

Adam 的显式曲率感知：

自适应学习率减少方向性差异
对曲率的显式估计（通过二阶矩）
可能在尖锐极小值处更稳定

7.2 逃离时间的理论分析

对于 basin 逃离时间 $τ$ ，有如下理论结果⁷：

τ \propto \frac{Radon ( B )}{noise heaviness}

其中：

$Radon (B)$ ：basin 的 Radon 测度
$noise heaviness$ ：梯度噪声的”重量”

关键发现：⁷

SGD 的 Radon 测度小于 Adam
SGD 的噪声尾更重
因此 SGD 更容易逃离尖锐极小值

7.3 平坦度的度量与优化器选择

优化器	Sharpness 度量	偏好
SGD	$λ_{m a x} (\nabla^{2} L)$	较低 sharpness
Adam	$v_{t}$ 自适应	中等 sharpness
SAM	$max_{∥ ϵ ∥ \leq ρ} L$	极低 sharpness
K-FAC	Fisher 对齐	结构化曲率

7.4 Progressive Sharpening 现象

训练过程中观察到的**渐进锐化（Progressive Sharpening）**现象：⁸

训练初期：loss 较高，sharpness 较低
训练中期：loss 下降同时 sharpness 增加
训练后期：sharpness 趋于稳定或略微下降

这一现象与泛化之间的关系复杂：更平坦的极小值通常泛化更好，但这不是绝对的。

八、实践启示

8.1 优化器选择的指导原则

场景	推荐优化器	理由
图像分类	SGD + Momentum	更好的泛化
语言建模	AdamW	训练稳定性
大批量训练	LAMB, LARS	缩放友好
少样本学习	Adam	超参数鲁棒
持续学习	Shampoo	更少干扰
模型压缩	SAM	更平坦解

8.2 混合策略

Adam→SGD 切换策略：

前期使用 Adam 快速收敛
后期切换到 SGD 改善泛化
学习率调度同步调整

SOAP (Shampoo + Adam in Preconditioner)：⁹

结合 Shampoo 的收敛优势与 Adam 的稳定性
仅增加一个超参数（预条件频率）
大批量训练中迭代减少 40%+

8.3 调试与诊断

解属性检查清单：

Sharpness 评估：计算 Hessian 特征值分布
表示分析：奇异值分解、激活统计
泛化曲线：训练/验证 loss 差距
任务干扰：多任务场景下的互相干扰

九、总结

优化器的选择不应仅被视为一个超参数调优问题，而应被视为深度学习管线的核心设计决策。正如架构设计和数据选择一样，优化器编码了影响最终模型性质的归纳偏置。

核心要点：

非凸性创造选择空间：深度网络的非凸景观使不同优化器收敛到性质不同的极小值
预条件器是归纳偏置的载体：Adam 的对角预条件器与 Shampoo 的 Kronecker 预条件器产生不同的信用分配
有效表达能力取决于优化器：相同的架构在 SGD 和 Adam 下具有不同的有效表达能力
解属性可以显式设计：通过设计优化器可以实现泛化性、稀疏性、鲁棒性等目标
平坦/尖锐极小值是优化器选择的结果：SGD 趋向平坦解，Adam 可能收敛到更尖锐的解

未来方向：将优化器设计与架构设计、损失函数设计置于同等地位，形成一个统一的**解工程（Solution Engineering）**框架。

Metaphor

探索

Optimizer Qualitative Influence