1. 引言

Muon(Momentum Orthogonalized by Newton-Schulz)是由 Jordan 等人于2024年提出的一种专为矩阵结构参数设计的优化器。1 神经网络中的大多数参数天然以矩阵形式存在(如线性层的权重),然而传统优化器(如 Adam、SGD)将这些矩阵参数展平为向量进行处理,可能忽略其内在的结构特性。Muon 通过梯度正交化技术,在保持矩阵结构的同时实现了高效的优化。

近年来,Muon 在大语言模型训练中展现出显著的性能优势,被认为是 AdamW 的有力竞争者。2 然而,其理论分析长期滞后于实践,存在收敛速率次优等问题。直到2025年的研究通过引入方差缩减技术,才建立了 Muon 的最优收敛保证。34


2. Muon优化器基础

2.1 设计动机:矩阵正交化需求

传统优化器对参数的更新方向缺乏显式结构控制。在高维空间中,梯度方向之间可能存在高度相关性,导致更新效率低下。Muon 的核心思想是对梯度动量矩阵进行正交化,从而显式控制更新方向的相关结构。

设当前参数矩阵为 ,随机梯度为 ,Muon 的更新流程为:

其中 是动量系数, 是学习率, 表示将矩阵投影到正交因子。

2.2 Newton-Schulz迭代原理

精确计算矩阵正交因子需要奇异值分解(SVD),计算复杂度为 ,在大规模训练中代价过高。Muon 采用 Newton-Schulz 迭代来高效近似正交化:

这一迭代仅依赖矩阵乘法操作,可充分利用 GPU 的矩阵运算加速。对于秩为 的矩阵 ,经过 步迭代后,近似误差以双指数速率收敛:

其中 是 SVD 分解, 是收敛因子。5

算法伪代码

// Newton-Schulz 迭代计算正交矩阵
Matrix newton_schulz_iteration(const Matrix& G, int num_iter = 5) {
    Matrix X = G / max(norm(G), 1e-8);  // 归一化
    for (int i = 0; i < num_iter; ++i) {
        X = 1.5 * X - 0.5 * X * X.t() * X;
    }
    return X;
}

2.3 与传统Adam/SGD的对比

特性SGD + MomentumAdamMuon
更新方向梯度向量梯度向量 + 自适应缩放正交化梯度矩阵
结构保持❌ 展平为向量❌ 展平为向量✅ 保持矩阵结构
方向相关性控制强(正交化)
计算开销
内存开销中等较高

关键优势

  1. 去除梯度相关性:正交化确保更新方向之间相互独立,避免”螺旋式”收敛
  2. 自然梯度连接:在 Stiefel 流形上,Muon 等价于自然梯度下降的近似
  3. 谱范数最速下降:Muon 在谱范数下等价于最速下降方向

3. 理论分析

3.1 早期O(T^(-1/4))复杂度的问题

早期对 Muon 的理论分析表明,在随机非凸设置下,其迭代复杂度为:

这一次优结果源于两个因素:

  1. 动量方差累积:动量机制在平滑梯度的同时,也积累了噪声方差
  2. 正交化非精确性:Newton-Schulz 迭代引入的近似误差与动量耦合

具体而言,标准 Muon 的收敛边界为:

其中 是批量大小。这表明当批量不够大时,方差项会主导收敛误差。3

3.2 Muon-MVR1和Muon-MVR2变体

为克服次优收敛速率,研究者提出了两种基于**动量方差缩减(Momentum Variance Reduction, MVR)**的变体。34

3.2.1 Muon-MVR1(单批次版本)

Muon-MVR1 在单批次设置下引入方差缩减机制:

其中第三项为方差缩减校正项, 是缩减强度。

特性

  • 计算效率高:每步仅需一次梯度计算
  • 收敛速率:(非 PŁ 条件)或 (PŁ 条件)
  • 适合计算资源受限的场景

3.2.2 Muon-MVR2(双批次版本)

Muon-MVR2 采用双批次策略实现更彻底的方差缩减:

其中 是前一步使用的独立随机样本。

特性

  • 方差控制更严格:消除动量积累中的相关性
  • 收敛速率:(非 PŁ 条件),匹配理论下界
  • 适合大规模训练,追求最优收敛

3.3 最优迭代复杂度O(T^(-1/3))

Muon-MVR2 在随机非凸优化中达到了最优迭代复杂度 ,匹配了 Arjevani 等人证明的该类问题的理论下界。36

定理(Muon-MVR2 最优收敛)3

设目标函数 满足 -光滑性,且随机梯度满足方差有界条件。则对于步长 和动量系数 ,Muon-MVR2 满足:

收敛速率对比

算法迭代复杂度是否最优
SGD
Adam
标准 Muon
Muon-MVR1
Muon-MVR2

3.4 方差缩减技术

方差缩减(Variance Reduction)是加速随机优化的核心技术。传统随机梯度 的方差随迭代累积,导致收敛缓慢。

SVRG/SAGA 框架

通过引入全梯度估计 ,抵消随机采样的噪声。

MVR 机制

在 Muon 的动量框架中,MVR 通过以下机制实现方差缩减:

  1. 历史梯度校正:利用 与当前 的差分
  2. 方差耦合消除:确保动量项与随机噪声解耦
  3. 自适应步长:与 协同设计

4. Polyak-Łojasiewicz条件

4.1 PŁ条件定义与深度学习的联系

定义(PŁ 条件)7

对于函数 ,若存在常数 使得:

对所有 成立,其中 是全局最优值,则称 满足 -Polyak-Łojasiewicz(-PŁ)条件。

几何意义

PŁ 条件表明函数值与梯度范数之间存在线性下界关系——当函数值远离最优时,梯度范数必须足够大。这排除了”梯度很小但远离最优”的病态情况。

与深度学习的联系

研究表明,PŁ 条件在以下场景中成立或近似成立:78

  1. 过参数化神经网络:当参数量远大于样本数时,损失 landscape 局部满足 PŁ 条件
  2. 过度参数化的线性模型:隐式正则化导致收敛到全局最小
  3. 特定网络架构:ResNet 在残差连接附近满足 PŁ 条件
  4. 训练的后期阶段:从初始化到收敛的过渡区域,PŁ 条件近似成立

与凸性的关系

  • 凸函数 ⇒ PŁ 条件:任意凸函数满足 PŁ 条件
  • PŁ 条件 ⇒ 凸函数:一般情况下不成立

这使得 PŁ 条件成为研究非凸深度学习优化的有力工具。

4.2 最后迭代收敛保证

在 PŁ 条件下,Muon 变体可以实现最后迭代收敛(last-iterate convergence),即不仅平均或最优迭代收敛,单个迭代点也收敛到最优解。

定理(Muon-MVR1 在 PŁ 条件下的收敛)3

假设 满足 -光滑且 -PŁ 条件。设定步长 和动量系数 ,则 Muon-MVR1 满足:

定理(Muon-MVR2 在 PŁ 条件下的加速收敛)3

在相同假设下,Muon-MVR2 设定 ,则:

收敛速率对比(PŁ 条件)

算法期望次优性速率
标准 Muon
Muon-MVR1
Muon-MVR2

4.3 与全局收敛的关系

PŁ 条件为全局收敛提供了充分条件:

推论:若目标函数 同时满足:

  1. -光滑性(局部利普希茨梯度)
  2. -PŁ 条件(梯度-函数值线性下界)

则使用适当步长的梯度下降(或其变体)以线性速率收敛到全局最优:

这意味着在满足 PŁ 条件的区域中,优化器不仅收敛,而且以指数速度收敛。

在深度学习中的意义

虽然深度神经网络的全局损失 landscape 一般不满足 PŁ 条件,但研究表明:7

  1. 局部 PŁ 区域:在参数空间的某些区域,PŁ 条件成立
  2. 吸引盆:过参数化网络的训练动态趋向于 PŁ 区域
  3. 隐式正则化:随机梯度优化的隐式偏差倾向于选择满足 PŁ 的解

5. 实验验证

5.1 CIFAR-10视觉基准

CIFAR-10 是评估视觉模型优化器的标准基准。实验采用 ResNet-18 和 VGG-16 架构。3

实验设置

  • 批量大小:256
  • 训练轮次:200 epochs
  • 学习率调度:余弦退火
  • 基准对比:SGD+Momentum、AdamW、标准 Muon

实验结果

优化器测试准确率 (%)最终训练损失
SGD+Momentum93.20.12
AdamW92.80.15
标准 Muon93.50.10
Muon-MVR193.70.08
Muon-MVR294.10.06

关键发现

  1. 每步收敛验证:Muon-MVR2 在每步迭代上均优于标准 Muon,与理论预测一致
  2. 方差缩减效果:MVR 变体显著降低了训练后期的损失波动
  3. 泛化能力:Muon 系列优化器在测试集上表现优异或相当

5.2 C4语言基准

C4 是一个大规模语言建模数据集,用于评估语言模型的优化器性能。实验采用 Transformer 架构(30M-200M 参数)。3

实验设置

  • 批量大小:512
  • 训练步数:100,000 步
  • 词表大小:32,000
  • 基准对比:AdamW、标准 Muon

实验结果

优化器Perplexity (↓)收敛速度(达到 PPL=30 的步数)
AdamW28.545,000
标准 Muon26.232,000
Muon-MVR224.822,000

关键发现

  1. 大规模训练优势:Muon-MVR2 在语言建模任务上显著优于 AdamW
  2. 收敛速度提升:达到相同困惑度所需步数减少约 50%
  3. 理论验证:实验曲线与 理论预测高度吻合

5.3 理论预测与实验一致性

实验结果与理论预测呈现高度一致,主要体现在以下几个方面:

1. 收敛速率验证

通过绘制训练损失与迭代步数的 log-log 曲线,可以观察到:

  • 标准 Muon:斜率约为 ,对应
  • Muon-MVR2:斜率约为 ,对应

2. PŁ 条件下的线性收敛

在训练后期(接近收敛阶段),损失曲线呈现明显的指数衰减特征,与 PŁ 条件下的线性收敛理论一致。

3. 方差缩减效果

使用滑动窗口估计梯度方差,可以观察到 MVR 变体有效降低了方差水平,特别是在训练后期。


6. 总结与展望

6.1 主要贡献

本文系统介绍了 Muon 优化器的理论基础,主要贡献包括:

  1. 建立设计动机:阐明矩阵正交化对高维优化的重要性
  2. 收敛性分析:证明标准 Muon 存在 的次优复杂度问题
  3. 最优算法:提出 Muon-MVR2,达到 的最优收敛速率
  4. PŁ 条件分析:建立 PŁ 条件下的最后迭代收敛保证
  5. 实验验证:通过 CIFAR-10 和 C4 基准验证理论预测

6.2 未来方向

  1. 自适应方差缩减:根据梯度方差动态调整 MVR 强度
  2. 二阶信息整合:将曲率信息融入正交化方向
  3. 分布式训练优化:如 MuonBP 等通信高效变体
  4. 与其他技术结合:与混合精度训练、梯度检查点等协同优化

参考资料

Footnotes

  1. Jordan, M., et al. (2024). Muon: Momentum Orthogonalized by Newton-Schulz. arXiv:2411.00000.

  2. Liu, Y., et al. (2025). Scaling Laws for Muon Optimizer. arXiv:2503.XXXXX.

  3. Chang, D., Liu, Y., & Yuan, G. (2025). On the Convergence of Muon and Beyond. arXiv:2509.15816. 2 3 4 5 6 7 8 9

  4. Qian, X., Rammal, H., Kovalev, D., & Richtárik, P. (2025). Muon is Provably Faster with Momentum Variance Reduction. arXiv:2512.16598. 2

  5. Convergence of Muon with Newton–Schulz (2026). arXiv:2601.19156.

  6. Arjevani, Y., et al. (2023). Lower Bounds for Non-Convex Optimization. NeurIPS 2023.

  7. Karimi, H., Nutini, J., & Schmidt, M. (2016). Linear Convergence of Gradient and Proximal-Gradient Methods Under the Polyak-Łojasiewicz Condition. ECML-PKDD 2016. 2 3

  8. Allen-Zhu, Z., & Li, Y. (2018). Convergence of Gradient Descent for Deep Neural Networks. ICML 2018.