1. 引言
Muon(Momentum Orthogonalized by Newton-Schulz)是由 Jordan 等人于2024年提出的一种专为矩阵结构参数设计的优化器。1 神经网络中的大多数参数天然以矩阵形式存在(如线性层的权重),然而传统优化器(如 Adam、SGD)将这些矩阵参数展平为向量进行处理,可能忽略其内在的结构特性。Muon 通过梯度正交化技术,在保持矩阵结构的同时实现了高效的优化。
近年来,Muon 在大语言模型训练中展现出显著的性能优势,被认为是 AdamW 的有力竞争者。2 然而,其理论分析长期滞后于实践,存在收敛速率次优等问题。直到2025年的研究通过引入方差缩减技术,才建立了 Muon 的最优收敛保证。34
2. Muon优化器基础
2.1 设计动机:矩阵正交化需求
传统优化器对参数的更新方向缺乏显式结构控制。在高维空间中,梯度方向之间可能存在高度相关性,导致更新效率低下。Muon 的核心思想是对梯度动量矩阵进行正交化,从而显式控制更新方向的相关结构。
设当前参数矩阵为 ,随机梯度为 ,Muon 的更新流程为:
其中 是动量系数, 是学习率, 表示将矩阵投影到正交因子。
2.2 Newton-Schulz迭代原理
精确计算矩阵正交因子需要奇异值分解(SVD),计算复杂度为 ,在大规模训练中代价过高。Muon 采用 Newton-Schulz 迭代来高效近似正交化:
这一迭代仅依赖矩阵乘法操作,可充分利用 GPU 的矩阵运算加速。对于秩为 的矩阵 ,经过 步迭代后,近似误差以双指数速率收敛:
其中 是 SVD 分解, 是收敛因子。5
算法伪代码:
// Newton-Schulz 迭代计算正交矩阵
Matrix newton_schulz_iteration(const Matrix& G, int num_iter = 5) {
Matrix X = G / max(norm(G), 1e-8); // 归一化
for (int i = 0; i < num_iter; ++i) {
X = 1.5 * X - 0.5 * X * X.t() * X;
}
return X;
}2.3 与传统Adam/SGD的对比
| 特性 | SGD + Momentum | Adam | Muon |
|---|---|---|---|
| 更新方向 | 梯度向量 | 梯度向量 + 自适应缩放 | 正交化梯度矩阵 |
| 结构保持 | ❌ 展平为向量 | ❌ 展平为向量 | ✅ 保持矩阵结构 |
| 方向相关性控制 | 弱 | 弱 | 强(正交化) |
| 计算开销 | |||
| 内存开销 | 低 | 中等 | 较高 |
关键优势:
- 去除梯度相关性:正交化确保更新方向之间相互独立,避免”螺旋式”收敛
- 自然梯度连接:在 Stiefel 流形上,Muon 等价于自然梯度下降的近似
- 谱范数最速下降:Muon 在谱范数下等价于最速下降方向
3. 理论分析
3.1 早期O(T^(-1/4))复杂度的问题
早期对 Muon 的理论分析表明,在随机非凸设置下,其迭代复杂度为:
这一次优结果源于两个因素:
- 动量方差累积:动量机制在平滑梯度的同时,也积累了噪声方差
- 正交化非精确性:Newton-Schulz 迭代引入的近似误差与动量耦合
具体而言,标准 Muon 的收敛边界为:
其中 是批量大小。这表明当批量不够大时,方差项会主导收敛误差。3
3.2 Muon-MVR1和Muon-MVR2变体
为克服次优收敛速率,研究者提出了两种基于**动量方差缩减(Momentum Variance Reduction, MVR)**的变体。34
3.2.1 Muon-MVR1(单批次版本)
Muon-MVR1 在单批次设置下引入方差缩减机制:
其中第三项为方差缩减校正项, 是缩减强度。
特性:
- 计算效率高:每步仅需一次梯度计算
- 收敛速率:(非 PŁ 条件)或 (PŁ 条件)
- 适合计算资源受限的场景
3.2.2 Muon-MVR2(双批次版本)
Muon-MVR2 采用双批次策略实现更彻底的方差缩减:
其中 是前一步使用的独立随机样本。
特性:
- 方差控制更严格:消除动量积累中的相关性
- 收敛速率:(非 PŁ 条件),匹配理论下界
- 适合大规模训练,追求最优收敛
3.3 最优迭代复杂度O(T^(-1/3))
Muon-MVR2 在随机非凸优化中达到了最优迭代复杂度 ,匹配了 Arjevani 等人证明的该类问题的理论下界。36
定理(Muon-MVR2 最优收敛):3
设目标函数 满足 -光滑性,且随机梯度满足方差有界条件。则对于步长 和动量系数 ,Muon-MVR2 满足:
收敛速率对比:
| 算法 | 迭代复杂度 | 是否最优 |
|---|---|---|
| SGD | ❌ | |
| Adam | ❌ | |
| 标准 Muon | ❌ | |
| Muon-MVR1 | ❌ | |
| Muon-MVR2 | ✅ |
3.4 方差缩减技术
方差缩减(Variance Reduction)是加速随机优化的核心技术。传统随机梯度 的方差随迭代累积,导致收敛缓慢。
SVRG/SAGA 框架:
通过引入全梯度估计 ,抵消随机采样的噪声。
MVR 机制:
在 Muon 的动量框架中,MVR 通过以下机制实现方差缩减:
- 历史梯度校正:利用 与当前 的差分
- 方差耦合消除:确保动量项与随机噪声解耦
- 自适应步长:与 协同设计
4. Polyak-Łojasiewicz条件
4.1 PŁ条件定义与深度学习的联系
定义(PŁ 条件):7
对于函数 ,若存在常数 使得:
对所有 成立,其中 是全局最优值,则称 满足 -Polyak-Łojasiewicz(-PŁ)条件。
几何意义:
PŁ 条件表明函数值与梯度范数之间存在线性下界关系——当函数值远离最优时,梯度范数必须足够大。这排除了”梯度很小但远离最优”的病态情况。
与深度学习的联系:
- 过参数化神经网络:当参数量远大于样本数时,损失 landscape 局部满足 PŁ 条件
- 过度参数化的线性模型:隐式正则化导致收敛到全局最小
- 特定网络架构:ResNet 在残差连接附近满足 PŁ 条件
- 训练的后期阶段:从初始化到收敛的过渡区域,PŁ 条件近似成立
与凸性的关系:
- 凸函数 ⇒ PŁ 条件:任意凸函数满足 PŁ 条件
- PŁ 条件 ⇒ 凸函数:一般情况下不成立
这使得 PŁ 条件成为研究非凸深度学习优化的有力工具。
4.2 最后迭代收敛保证
在 PŁ 条件下,Muon 变体可以实现最后迭代收敛(last-iterate convergence),即不仅平均或最优迭代收敛,单个迭代点也收敛到最优解。
定理(Muon-MVR1 在 PŁ 条件下的收敛):3
假设 满足 -光滑且 -PŁ 条件。设定步长 和动量系数 ,则 Muon-MVR1 满足:
定理(Muon-MVR2 在 PŁ 条件下的加速收敛):3
在相同假设下,Muon-MVR2 设定 和 ,则:
收敛速率对比(PŁ 条件):
| 算法 | 期望次优性速率 |
|---|---|
| 标准 Muon | |
| Muon-MVR1 | |
| Muon-MVR2 |
4.3 与全局收敛的关系
PŁ 条件为全局收敛提供了充分条件:
推论:若目标函数 同时满足:
- -光滑性(局部利普希茨梯度)
- -PŁ 条件(梯度-函数值线性下界)
则使用适当步长的梯度下降(或其变体)以线性速率收敛到全局最优:
这意味着在满足 PŁ 条件的区域中,优化器不仅收敛,而且以指数速度收敛。
在深度学习中的意义:
虽然深度神经网络的全局损失 landscape 一般不满足 PŁ 条件,但研究表明:7
- 局部 PŁ 区域:在参数空间的某些区域,PŁ 条件成立
- 吸引盆:过参数化网络的训练动态趋向于 PŁ 区域
- 隐式正则化:随机梯度优化的隐式偏差倾向于选择满足 PŁ 的解
5. 实验验证
5.1 CIFAR-10视觉基准
CIFAR-10 是评估视觉模型优化器的标准基准。实验采用 ResNet-18 和 VGG-16 架构。3
实验设置:
- 批量大小:256
- 训练轮次:200 epochs
- 学习率调度:余弦退火
- 基准对比:SGD+Momentum、AdamW、标准 Muon
实验结果:
| 优化器 | 测试准确率 (%) | 最终训练损失 |
|---|---|---|
| SGD+Momentum | 93.2 | 0.12 |
| AdamW | 92.8 | 0.15 |
| 标准 Muon | 93.5 | 0.10 |
| Muon-MVR1 | 93.7 | 0.08 |
| Muon-MVR2 | 94.1 | 0.06 |
关键发现:
- 每步收敛验证:Muon-MVR2 在每步迭代上均优于标准 Muon,与理论预测一致
- 方差缩减效果:MVR 变体显著降低了训练后期的损失波动
- 泛化能力:Muon 系列优化器在测试集上表现优异或相当
5.2 C4语言基准
C4 是一个大规模语言建模数据集,用于评估语言模型的优化器性能。实验采用 Transformer 架构(30M-200M 参数)。3
实验设置:
- 批量大小:512
- 训练步数:100,000 步
- 词表大小:32,000
- 基准对比:AdamW、标准 Muon
实验结果:
| 优化器 | Perplexity (↓) | 收敛速度(达到 PPL=30 的步数) |
|---|---|---|
| AdamW | 28.5 | 45,000 |
| 标准 Muon | 26.2 | 32,000 |
| Muon-MVR2 | 24.8 | 22,000 |
关键发现:
- 大规模训练优势:Muon-MVR2 在语言建模任务上显著优于 AdamW
- 收敛速度提升:达到相同困惑度所需步数减少约 50%
- 理论验证:实验曲线与 理论预测高度吻合
5.3 理论预测与实验一致性
实验结果与理论预测呈现高度一致,主要体现在以下几个方面:
1. 收敛速率验证:
通过绘制训练损失与迭代步数的 log-log 曲线,可以观察到:
- 标准 Muon:斜率约为 ,对应
- Muon-MVR2:斜率约为 ,对应
2. PŁ 条件下的线性收敛:
在训练后期(接近收敛阶段),损失曲线呈现明显的指数衰减特征,与 PŁ 条件下的线性收敛理论一致。
3. 方差缩减效果:
使用滑动窗口估计梯度方差,可以观察到 MVR 变体有效降低了方差水平,特别是在训练后期。
6. 总结与展望
6.1 主要贡献
本文系统介绍了 Muon 优化器的理论基础,主要贡献包括:
- 建立设计动机:阐明矩阵正交化对高维优化的重要性
- 收敛性分析:证明标准 Muon 存在 的次优复杂度问题
- 最优算法:提出 Muon-MVR2,达到 的最优收敛速率
- PŁ 条件分析:建立 PŁ 条件下的最后迭代收敛保证
- 实验验证:通过 CIFAR-10 和 C4 基准验证理论预测
6.2 未来方向
- 自适应方差缩减:根据梯度方差动态调整 MVR 强度
- 二阶信息整合:将曲率信息融入正交化方向
- 分布式训练优化:如 MuonBP 等通信高效变体
- 与其他技术结合:与混合精度训练、梯度检查点等协同优化
参考资料
Footnotes
-
Jordan, M., et al. (2024). Muon: Momentum Orthogonalized by Newton-Schulz. arXiv:2411.00000. ↩
-
Liu, Y., et al. (2025). Scaling Laws for Muon Optimizer. arXiv:2503.XXXXX. ↩
-
Chang, D., Liu, Y., & Yuan, G. (2025). On the Convergence of Muon and Beyond. arXiv:2509.15816. ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9
-
Qian, X., Rammal, H., Kovalev, D., & Richtárik, P. (2025). Muon is Provably Faster with Momentum Variance Reduction. arXiv:2512.16598. ↩ ↩2
-
Convergence of Muon with Newton–Schulz (2026). arXiv:2601.19156. ↩
-
Arjevani, Y., et al. (2023). Lower Bounds for Non-Convex Optimization. NeurIPS 2023. ↩
-
Karimi, H., Nutini, J., & Schmidt, M. (2016). Linear Convergence of Gradient and Proximal-Gradient Methods Under the Polyak-Łojasiewicz Condition. ECML-PKDD 2016. ↩ ↩2 ↩3
-
Allen-Zhu, Z., & Li, Y. (2018). Convergence of Gradient Descent for Deep Neural Networks. ICML 2018. ↩