深度学习损失景观与训练动力学现代理论

概述

深度学习的损失景观理论在2024-2026年间发生了重大转变：从现象描述走向严格数学理论。Loss landscape不再被视为神秘的”几何形状”，而是被建模为多分形随机过程、谱受限的优化问题或带隐式约束的投影梯度下降轨迹。

核心叙事：

EoS (Edge of Stability) 从现象上升为有完整数学证明的理论
Muon 作为2024-2026年LLM训练事实新标准，比 AdamW 提速 1.3-1.5×
模式连通性在 Transformer 中被严格证明（之前认为不成立）
Hessian 谱分析首次在百亿参数规模实现

一、损失景观的几何结构

1.1 Ly & Gong 2025：多分形损失景观理论

核心论文：Ly, A. & Gong, P. “Optimization on multifractal loss landscapes explains a diverse range of geometrical and dynamical properties of deep learning.” Nature Communications 16, 3252 (2025).

核心贡献：

把深度学习损失景观建模为多分形 (multifractal) 随机过程
推导出 GD/SGD 收敛解的解析理论
能统一解释泛化、隐式正则化、模式连通性等十余种现象

关键发现：

GD 的随机性来自多分形结构本身，不需要外部 Langevin 噪声假设
损失景观的”分形维度”与模型的泛化能力直接相关
训练过程可视为”沿多分形表面做漂移扩散”

数学框架：损失景观被建模为多分形随机过程 ${L_{α} (θ)}_{α}$ ，其广义分形维度 $D_{q}$ 控制优化器的可行步长分布。GD 的”随机性”完全来自多分形结构本身——这统一解释了隐式正则化、泛化、mode connectivity。

意义：第一个用统计力学/分形几何严格刻画”optimizability puzzle”的工作。

1.2 多分形结构的实证验证

Ly & Gong 在 VGG-16 / ResNet 上对 CIFAR-10 的损失做多尺度分析：

2D 切片在 0.01、0.1、1 三个尺度上展现自相似分形结构
不同网络深度/宽度下， $D_{q}$ 与泛化性能高度相关

1.3 Ma et al. 2022：超越二次近似

核心论文：Ma, C. et al. “Beyond the Quadratic Approximation” (2022).

关键贡献：用随机矩阵理论 + 多尺度证明 NN 损失景观是非二次的，存在跨尺度结构。

二、Edge of Stability (EoS) 理论

2.1 核心定义

定义 sharpness（尖锐度）：

S (θ) := λ_{m a x} (\nabla^{2} L (θ))

两个核心现象：

Progressive Sharpening： $\nabla L (θ) \cdot \nabla S (θ) < 0$ → sharpness 单调增长直到 $2/ η$
Edge of Stability：sharpness 在 $2/ η$ 附近”卡住”震荡，但 loss 仍非单调下降

2.2 Damian, Nichani, Lee 2022：Self-Stabilization 引理

核心论文：Damian, A., Nichani, E., Lee, J. D. “Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of Stability.” NeurIPS 2022 / COLT 2023.

关键贡献：用三次 Taylor 展开证明 GD 在 EoS 阶段隐式执行约束优化：

θ min L (θ) s.t. S (θ) \leq 2/ η

Self-Stabilization Property：

\nabla S (θ) = \nabla^{3} L (θ) (u (θ), u (θ))

其中 $u (θ)$ 是 Hessian 顶特征向量。这一恒等式是 EoS 能自我调节的根因——梯度方向天然产生一个反 sharpness 增长的三阶项。

关键发现：

GD 轨迹近似等于投影梯度下降 (PGD) 在 sharpness 阈值约束下的轨迹
给出对 loss、sharpness、轨迹偏差的精确预测

意义：首次给出 EoS 现象的通用数学解释，跨任务、跨学习率都成立。

2.3 Liu et al. 2025：极简证明

核心论文：Liu, L., Zhang, Z., Du, S., Zhao, T. “A Minimalist Example of Edge-of-Stability and Progressive Sharpening.” ICML 2025 (arXiv:2503.02809).

核心贡献：在两层、宽 1、二维输入的极简网络上对整条 GD 轨迹给出非渐近分析，同时证明 PS 和 EoS 的存在。

关键发现：

严格证明 sharpness 不会超过 $2/ η$ 的上界
投影到”相关输入维度”后，损失实际上是单调下降的——这解释了非单调性的来源
调和了 minimalist 路线与 generalist 路线（Damian 2022）的”stable set”假设分歧

意义：填补”极简样本也能解释整条轨迹”的空白。

2.4 Kalra & Barkeshli 2023：训练相图

核心论文：Kalra, D. S. & Barkeshli, M. “Phase diagram of early training dynamics in deep networks.” NeurIPS 2023.

核心贡献：在 $(η, d, w)$ 三维参数空间中绘出训练早期 sharpness 演化的相图。

关键发现：

存在四个相：stable / catapult / progressive-sharpening / EoS
大学习率 + 深网络 = 进入 PS/EoS 的关键
后续工作（arXiv:2311.02076）扩展到固定点分析 + 通往混沌的路线

意义：把 EoS 从单一现象升级为”训练相变”。

2.5 Kalra et al. 2023：Sharpness Dynamics 与 Chaos

核心论文：Kalra, D. S., He, T., Barkeshli, M. “Universal Sharpness Dynamics in Neural Network Training: Fixed Point Analysis, Edge of Stability, and Route to Chaos.” arXiv:2311.02076.

核心贡献：对 GD sharpness 动力学的通用 ODE 推导，揭示其与 May-Leonard 动力学和logistic map 的对应。

关键发现：当学习率超过临界值，sharpness 轨迹进入混沌区；固定点分析能精确预测相变边界。

意义：从动力系统角度统一 PS → EoS → chaos。

2.6 训练动力学的标准相变

阶段	特征	触发条件
I. 稳定下降	$S < 2/ η$ ，loss 单调下降	初期或小学习率
II. Progressive Sharpening	$S$ 单调上升到 $2/ η$	几乎所有 GD 训练都会经历
III. Edge of Stability	$S \approx 2/ η$ 震荡，loss 非单调下降	大学习率、full-batch
IV. Chaos（极端）	sharpness 轨迹出现混沌	学习率超过 $\sim 2 \times$ 阈值

三、模式连通性 (Mode Connectivity) 现代理论

3.1 Theus et al. 2025：广义线性模式连通性

核心论文：Theus, A., Cabodi, A., Anagnostidis, S., Orvieto, A., Singh, S. P., Boeva, V. “Generalized Linear Mode Connectivity for Transformers.” NeurIPS 2025 (oral) (arXiv:2506.22712).

核心贡献：提出四类对称性统一框架：

置换 (permutation)
半置换 (semi-permutation)
正交变换 (orthogonal transformation)
一般可逆映射 (general invertible mapping)

关键发现：

之前仅靠神经元置换无法打破 Transformer 的 LMC 障碍
扩展到正交/可逆对称后，ViT 和 GPT-2 都能 LMC
这暗示 Transformer 损失景观的连通性比之前认为的更强

意义：将”模型融合 (model merging)“理论从 CNN 推进到 Transformer 时代。

3.2 Zhan, Li, Wu 2025：置换不变性的理论分析

核心论文：Zhan, K., Li, P., Wu, L. “Analyzing the Role of Permutation Invariance in Linear Mode Connectivity.” arXiv:2503.06001 (2025).

核心贡献：在 teacher-student 设定下对两层 ReLU 网络的 LMC 模置换现象给出理论分析。

关键发现：

置换后 LMC 障碍以 $O (m^{- 1/2})$ 衰减，与输入维度无关（突破了 Entezari 2021 的 $O (m^{- 1/ (2 d + 4))}$ 维度诅咒）
障碍随宽度呈双下降 (double descent)：在 $m = 2 M$ （teacher 宽度的 2 倍）处出现峰值
学习率变化会引发 GD 解的稀疏性相变，影响 LMC 障碍

意义：第一次给出 LMC 模置换的渐近速率。

3.3 Di Carlo et al. 2026：熵约束的 Mode Connectivity

核心论文：Di Carlo, L., Goddard, C., Schwab, D. J. “Entropic Confinement and Mode Connectivity in Overparameterized Neural Networks.” ICLR 2026.

核心贡献：用**统计物理（熵约束）**视角重新解释过参数网络中的 mode connectivity，提出 entropic confinement 机制。

关键发现：过参数化区域的极小值被熵势阱”囚禁”在狭窄低损失管道中，因此两个独立解之间几乎必然存在低损失曲线。

意义：把”为什么 mode connectivity 普遍存在”从经验现象变成理论结果。

3.4 Ainsworth et al. 2023：Git Re-Basin

核心论文：Ainsworth, S., Hayase, J., Srinivasa, S. “Git Re-Basin: Merging Models Modulo Permutation Symmetries.” ICLR 2023.

奠基性工作：置换对齐后两个独立训练 ResNet 能 LMC，是”permutation invariance 解释 landscape 连通性”的奠基性工作。

四、Muon 优化器深度理论

4.1 Muon 算法设计

核心论文：Jordan, K. “Muon: An optimizer for hidden layers in neural networks.” 博客 + GitHub (2024-12), Keller Jordan et al. ICLR 2025.

核心贡献：Muon (MomentUm Orthogonalized by Newton-Schulz) 优化器，把 SGD-momentum 产生的更新矩阵做 Newton-Schulz 5 次迭代近似正交化（polar factor $U V^{⊤}$ ）。

4.2 Newton-Schulz 正交化的数学原理

对 $G = U Σ V^{⊤}$ （SVD），5 步 Newton-Schulz 迭代输出近似 polar factor：

X_{k + 1} = a X_{k} + (b X_{k} X_{k}^{⊤} + c (X_{k} X_{k}^{⊤})^{2}) X_{k}

系数 $(a, b, c) = (3.4445, - 4.7750, 2.0315)$ 设计为在 $σ \in [0.3, 1.5]$ 区间内单调趋于 1，bfloat16 下 5 步内即可达到 $∥ σ_{i} - 1∥ < 0.0001$ 的精度。

4.3 Muon 的谱平坦化理论

核心论文：Nguyen et al. “Spectral Flattening Is All Muon Needs.” arXiv:2605.13079 (2026).

关键定理：Muon 的最大稳定学习率为

η_{Muon}^{*} = \frac{2}{λ _{m a x} ( H )} \cdot \frac{\sum _{i = 1}^{m} σ _{i} ( G )}{m}

而 SGD 是 $η_{SGD}^{*} = 2/ λ_{m a x} (H)$ 。差距 = 梯度协方差矩阵各向异性的倒数均值/最大奇异值比——这直接量化了”为什么 Muon 能用更大学习率”。

4.4 Muon 实证速度记录

任务	基线	Muon	提升
CIFAR-10 94% (A100-秒)	3.3	2.6	1.27×
NanoGPT 3.28 val loss	AdamW	Muon	1.35×
1.5B GPT-2 XL (HellaSwag)	13.3h (AdamW)	10h (Muon)	1.33×
Moonlight 16B LLM (Liu 2025)	AdamW	Muon	1.50×

4.5 Muon 与 Shampoo 的关系

关键洞察：Muon = Shampoo 去掉 1/2 阶 preconditioner，只做正交化 → 等价于 steepest descent 在谱范数下。

设计要点：

对所有 2D 隐藏层权重用 Muon，scalar/vector/输入输出层仍用 AdamW
Newton-Schulz 系数 $(a, b, c) = (3.4445, - 4.7750, 2.0315)$ 调优后只需 5 步 bfloat16 迭代
与 Shampoo 关系：Muon = Shampoo 去掉 1/2 阶 preconditioner，只做正交化 → 等价于 steepest descent 在谱范数下

4.6 Muon 收敛性理论

核心论文：

Kim & Oh (2026) “Convergence of Muon with Newton–Schulz.” ICLR 2026
Sato, Naganuma, Iiduka (2025) “Convergence Bound and Critical Batch Size of Muon Optimizer.” arXiv:2507.01598

关键结果：给出了 Muon 在光滑非凸优化下的收敛率与 critical batch size。

五、SOAP 优化器

5.1 SOAP 算法设计

核心论文：Vyas, N., Morwani, D., Zhao, R., Shapira, I., Brandfonbrener, D., Janson, L., Kakade, S. “SOAP: Improving and Stabilizing Shampoo using Adam.” ICLR 2025.

核心贡献：把 Shampoo 的特征基与 Adam 的一阶动量结合。

5.2 SOAP 数学形式

算法：

维护 $L = G G^{⊤}, R = G^{⊤} G$ 的指数滑动平均
求 $L, R$ 的特征向量 $Q_{L}, Q_{R}$
投影梯度 $G^{'} = Q_{L}^{⊤} G Q_{R}$
在 $G^{'}$ 上跑 Adam
投影回去 $N = Q_{L} N^{'} Q_{R}^{⊤}$ ，更新权重

理论关键：Shampoo(1/2) ≡ Adafactor 在 Shampoo 特征基中运行，所以 SOAP = “用 Adam 算子替换 Adafactor”。

5.3 SOAP 实证结果

指标	AdamW	Shampoo	SOAP
迭代数	1.00×	0.80×	0.60×
壁钟时间	1.00×	0.80×	0.65×

关键结果（360M / 660M 语言模型）：

大 batch 训练下，比 AdamW 减少 40% 迭代、35% 壁钟时间
比 Shampoo 提升约 20%

意义：首次让”二阶预条件器”在 LLM 训练中变得实用。

5.4 SOAP 的 Gradient Whitening 视角

核心论文：Lu, Wang, Liu (2025) “Understanding SOAP from the Perspective of Gradient Whitening.” arXiv:2509.22938.

论证 SOAP 本质上是在做梯度白化 (gradient whitening)——把梯度变换到各向同性分布下再做 Adam 更新。

六、Hessian 谱分析

6.1 Granziol & Juarev 2026：基础模型规模 Hessian 谱

核心论文：Granziol, D. & Juarev, K. “Hessian Spectral Analysis at Foundation Model Scale.” arXiv:2602.00816 (2026-02).

核心贡献：用 shard-local finite-difference Hessian-vector product 配合 FSDP 分布式训练，做出百亿参数级真实 Hessian 谱。

意义：之前 Hessian 谱研究受限于单 GPU；该工作让 Hessian 分析达到基础模型规模。

6.2 Petrov et al. 2025：完整 Transformer Hessian

核心论文：Petrov, E., Kiselev, N., Meshkov, V., Grabovoy, A. “Closing the Curvature Gap: Full Transformer Hessians and Their Implications for Scaling Laws.” arXiv:2510.16927 (2025-10).

核心贡献：首次给出完整 Transformer block（含 LayerNorm + FFN + Self-Attention）的 Hessian 闭式表达。

关键发现：用数据规模 $N$ 的显式二阶界，证明 Transformer 损失景观随数据量稳定化，连接到了神经标度律。

6.3 Tang et al. 2025：Hessian 块对角结构

核心论文：Tang, Q.-Y. et al. “Investigating the Overlooked Hessian Structure: From CNNs to LLMs.” ICML 2025.

核心贡献：研究 Hessian 的”被忽视结构”，发现 Hessian 的”低秩 + 块对角”结构在 CNN 和 LLM 中都显著存在。

6.4 Dong et al. 2025：Hessian 结构的量化

核心论文：Dong, Z., Zhang, Y., Luo, Z.-Q., Yao, J., Sun, R. “Towards Quantifying the Hessian Structure of Neural Networks.” arXiv:2505.02809 (2025-05).

核心贡献：用随机矩阵理论证明 Hessian 块对角结构由类数 $C$ 主导（ $C \to \infty$ 时块对角化），解释了 LLM 中 $C \geq 1 0^{4}$ 时 Adam 有效的原因。

6.5 谱演化发现总结

Dong et al. 2025：Hessian 块对角结构由类数 $C$ 主导
Petrov et al. 2025：完整 Transformer Hessian 的”层间谱范数”随数据量 $N$ 衰减
Granziol 2026：首次在基础模型规模画出真实 Hessian 谱
Fernandez et al. (TMLR 2024)：训练早期curvature 集中在 top eigenspace 的极小子空间

七、平坦最小值与锐最小值

7.1 Andriushchenko & Flammarion 2022：SAM 的真实作用

核心论文：Andriushchenko, M. & Flammarion, F. “Towards Understanding Sharpness-Aware Minimization.” ICML 2022.

关键发现：SAM 的成功不能仅用 flat minima 解释，传统 PAC-Bayes 论证不成立。

7.2 Bennett 2025：平坦最小值的错觉

核心论文：Bennett, “Are Flat Minima an Illusion?” arXiv:2605.05209 (2025).

关键发现：函数保持的 reparameterization 可让 Hessian 最大特征值涨两个数量级而不改变函数。

7.3 Wang & Roberts 2025：训练不稳定性诱导 flatness bias

核心论文：Wang, & Roberts “Training Instabilities Induce Flatness Bias in Gradient Descent.” arXiv:2511.12558 (2025).

关键发现：训练不稳定性（EoS 阶段）诱导 flatness bias——大初始学习率有助于泛化。

7.4 Schliserman et al. 2025：平坦最小值的理论保证

核心论文：Schliserman, Vansover-Hager, Koren “Flat Minima and Generalization: Insights from Stochastic Convex Optimization.” NeurIPS 2025 Workshop.

关键发现：在光滑随机凸优化中，多种方法（SAM、噪声注入）收敛到flat minima 有理论保证。

7.5 Fan et al. 2025：锐最小值也能泛化

核心论文：Fan et al. “Sharp Minima Can Generalize” — 提出”Volume Hypothesis”补充：sharp minima 在大数据下也能泛化。

7.6 平面/尖锐最小值新认识总结

平面最小值 ≠ 泛化的充分条件（SAM的反例）
平面性是 reparameterization 依赖的概念（Bennett 2025）
EoS 训练天然诱导 flatness bias
锐最小值在足够大数据下也能泛化（Volume Hypothesis）

八、Gauss-Newton 分解与二阶方法

8.1 Gauss-Newton 分解

E [\frac{\partial ^{2} L}{\partial w ^{2}}] = 高斯 - 牛顿项 (GN) E [\frac{\partial f}{\partial w}^{⊤} \frac{\partial ^{2} L}{\partial f ^{2}} \frac{\partial f}{\partial w}] + 残差项 E [\frac{\partial L}{\partial f} \frac{\partial ^{2} f}{\partial w ^{2}}]

实践中（实证）残差项影响小，所以 SOAP、Muon 等用 GN 近似是合理的。

8.2 Full Gauss-Newton for LLMs

核心论文：Abreu, Vyas, Kakade, Morwani (2025) “The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton.” arXiv:2510.09378.

关键发现：Full Gauss-Newton 比 SOAP 再快 5.4×，但内存爆炸（需要 careful implementation）。

九、实践应用

9.1 优化器选型决策树（2025-2026 实践）

场景	推荐优化器	理由
LLM 预训练（≥ 1B）	Muon（隐藏层）+ AdamW（其他）	比 AdamW 快 1.3-1.5×，比 Shampoo/SOAP 更省内存
LLM 预训练（强二阶信息可用）	SOAP	比 AdamW 快 1.4-1.5×，比 Shampoo 稳定
追求理论下界	Full Gauss-Newton	比 SOAP 再快 5.4×，但内存爆炸
视觉 Transformer	Lion / AdamW + SAM	经典组合，对 sharp minima 仍稳健
微调小模型	AdamW + LoRA	不需要 Muon 复杂度
大规模分布式训练	Shampoo（Gemini 1.5 Flash 用）	通信开销比 SOAP 低

9.2 学习率/调度实践

大初始学习率（达 EoS 阈值）已被证实促进泛化（Wang & Roberts 2025）
Transformer 训练：peak LR 设为 sharpness 阈值 $2/ η \approx 100$ → $η \approx 0.02$
Muon 通常可用 3-10× 更大 LR（因为谱平坦化），如 NanoGPT speedrun 用 $η = 0.05$
学习率退火在 phase III（EoS）阶段最关键，过早退火会丢失 self-stabilization 的隐式正则化

9.3 SAM 仍值得用

SAM + AdamW 在 CIFAR、ImageNet 上仍是最稳的”平坦最小值”实现
对超大规模模型，LookSAM（每 $k$ 步做一次 SAM 近似）可降低开销

9.4 Hessian-aware 实践

Adam-mini（Zhang 2024）利用 Hessian 块对角结构节省 50% 内存
HELENE（EMNLP 2025）：用 Hessian 层间裁剪 + 零阶优化加速 LLM 微调

9.5 模型融合（Model Merging）

利用 mode connectivity + 对称性做无训练模型合并是 2025 年新趋势：

Theus et al. 2025：用扩展对称性合并 ViT、GPT-2
实际应用：Task Arithmetic、Model Soups（无需额外训练）

失败模式：若两个模型属于不同 basin，融合损失会爆炸——需先做 re-basin / 对齐。

9.6 监控训练用的关键量

量	含义	期望趋势
$λ_{m a x} (\nabla^{2} L)$ （sharpness）	顶 Hessian 特征值	单调上升到 $2/ η$ 后震荡
$λ_{m a x} (\nabla^{2} L) \cdot η$	无量纲 sharpness	训练中趋向于 2
梯度协方差的条件数	各向异性程度	决定 Muon 加速比
$Tr (H) /∥ H ∥_{F}$	谱扩散度	越接近 1 越接近白噪声

9.7 2026 默认配置推荐

2026 年 LLM 预训练默认配置：Muon（hidden layers）+ AdamW（embeddings, lm_head, scalars），5 步 Newton-Schulz bfloat16 正交化，peak LR 设到刚好进入 EoS，cosine decay 到峰值 10%。这是 NanoGPT speedrun、Moonlight 16B、CIFAR-10 speedrun 三处 SOTA 的一致配方。

十、Python 实现：Muon 优化器

import torch
import torch.nn as nn
import torch.nn.functional as F
 
 
def newton_schulz5(G, steps=5, eps=1e-7):
    """Newton-Schulz 5次迭代计算 polar factor（近似正交化）"""
    assert G.ndim >= 2
    a, b, c = (3.4445, -4.7750, 2.0315)
    X = G.bfloat16()
    if G.size(-2) > G.size(-1):
        X = X.mT
    X = X / (X.norm() + eps)
    for _ in range(steps):
        A = X @ X.mT
        B = b * A + c * (A @ A)
        X = a * X + B @ X
    if G.size(-2) > G.size(-1):
        X = X.mT
    return X.to(G.dtype)
 
 
class Muon(torch.optim.Optimizer):
    """
    Muon优化器：对hidden layers使用MomentUm Orthogonalized by Newton-Schulz
    Args:
        params: 模型参数
        lr: 学习率 (通常 0.02-0.05)
        momentum: 动量系数 (默认 0.95)
        weight_decay: 权重衰减
    """
    def __init__(self, params, lr=0.02, momentum=0.95, weight_decay=0.0):
        defaults = dict(lr=lr, momentum=momentum, weight_decay=weight_decay)
        super().__init__(params, defaults)
 
    @torch.no_grad()
    def step(self):
        for group in self.param_groups:
            lr = group['lr']
            momentum = group['momentum']
            weight_decay = group['weight_decay']
            for p in group['params']:
                if p.grad is None:
                    continue
                g = p.grad
                # Weight decay
                if weight_decay > 0:
                    p.data.mul_(1 - lr * weight_decay)
                # Momentum buffer
                state = self.state[p]
                if 'momentum_buffer' not in state:
                    state['momentum_buffer'] = torch.zeros_like(g)
                buf = state['momentum_buffer']
                buf.mul_(momentum).add_(g)
                # Orthogonalize (only for 2D+ tensors)
                if g.ndim >= 2:
                    g_orth = newton_schulz5(buf)
                    p.data.add_(g_orth, alpha=-lr)
                else:
                    # 1D参数（如bias, norm）用原始动量
                    p.data.add_(buf, alpha=-lr)
 
 
class AdamW(torch.optim.Optimizer):
    """简化的AdamW：用于embeddings, lm_head, scalar参数"""
    def __init__(self, params, lr=1e-3, betas=(0.9, 0.95), eps=1e-8, weight_decay=0.1):
        defaults = dict(lr=lr, betas=betas, eps=eps, weight_decay=weight_decay)
        super().__init__(params, defaults)
 
    @torch.no_grad()
    def step(self):
        for group in self.param_groups:
            for p in group['params']:
                if p.grad is None:
                    continue
                g = p.grad
                state = self.state[p]
                if len(state) == 0:
                    state['m'] = torch.zeros_like(g)
                    state['v'] = torch.zeros_like(g)
                    state['step'] = 0
                state['step'] += 1
                m, v = state['m'], state['v']
                b1, b2 = group['betas']
                m.mul_(b1).add_(g, alpha=1 - b1)
                v.mul_(b2).addcmul_(g, g, value=1 - b2)
                # 偏置修正
                m_hat = m / (1 - b1 ** state['step'])
                v_hat = v / (1 - b2 ** state['step'])
                p.data.mul_(1 - group['lr'] * group['weight_decay'])
                p.data.addcdiv_(m_hat, v_hat.sqrt() + group['eps'], value=-group['lr'])
 
 
def create_muon_adamw_optimizer(model, lr_muon=0.02, lr_adamw=1e-3):
    """
    为模型创建 Muon + AdamW 混合优化器
    - Hidden层 (2D): Muon
    - Embedding/LM Head/Scalar: AdamW
    """
    muon_params = []
    adamw_params = []
    for name, p in model.named_parameters():
        if p.ndim >= 2 and 'embed' not in name and 'lm_head' not in name:
            muon_params.append(p)
        else:
            adamw_params.append(p)
    return [
        Muon(muon_params, lr=lr_muon, momentum=0.95, weight_decay=0.0),
        AdamW(adamw_params, lr=lr_adamw, betas=(0.9, 0.95), weight_decay=0.1),
    ]
 
 
# 示例：简单Transformer使用Muon+AdamW
class SimpleTransformerBlock(nn.Module):
    def __init__(self, d_model=512, n_heads=8):
        super().__init__()
        self.attn = nn.MultiheadAttention(d_model, n_heads, batch_first=True)
        self.mlp = nn.Sequential(
            nn.Linear(d_model, 4 * d_model),
            nn.GELU(),
            nn.Linear(4 * d_model, d_model),
        )
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
 
    def forward(self, x):
        h = self.norm1(x)
        h, _ = self.attn(h, h, h)
        x = x + h
        h = self.norm2(x)
        h = self.mlp(h)
        return x + h
 
 
# 测试
model = SimpleTransformerBlock(d_model=512)
optimizers = create_muon_adamw_optimizer(model, lr_muon=0.02, lr_adamw=3e-4)
print(f"Muon参数组数: {len(optimizers[0].param_groups[0]['params'])}")
print(f"AdamW参数组数: {len(optimizers[1].param_groups[0]['params'])}")
 
# 模拟训练
x = torch.randn(8, 32, 512)
target = torch.randn(8, 32, 512)
for step in range(10):
    out = model(x)
    loss = F.mse_loss(out, target)
    for opt in optimizers:
        opt.zero_grad()
    loss.backward()
    for opt in optimizers:
        opt.step()
    if step % 2 == 0:
        print(f"Step {step}, Loss: {loss.item():.4f}")

十一、关键定理汇总表

主题	核心定理	数学描述
EoS Self-Stabilization	Damian 2022	$\nabla S (θ) = \nabla^{3} L (θ) (u, u)$
EoS 隐式约束	Damian 2022	$min L (θ)$ s.t. $S (θ) \leq 2/ η$
Newton-Schulz	Muon	$X_{k + 1} = a X_{k} + b X_{k} X_{k}^{⊤} X_{k} + c X_{k} X_{k}^{⊤} X_{k} X_{k}^{⊤} X_{k}$
Muon 最大学习率	Nguyen et al. 2026	$η_{Muon}^{*} = \frac{2}{λ _{m a x} ( H )} \cdot \frac{\sum σ _{i} ( G )}{m}$
Gauss-Newton 分解	通用	$H = E [J^{⊤} H_{task} J] + E [\nabla L \cdot \nabla^{2} f]$

十二、与现有wiki内容的连接

NTK视角：NTK理论
优化理论：自适应优化器理论、µ-parametrization
损失景观：损失景观拓扑、多分形动力学
Transformer理论：Transformer Hessian分析、EoS训练动力学
泛化理论：现代泛化理论

Metaphor

探索

深度学习损失景观与训练动力学现代理论

概述

一、损失景观的几何结构

1.1 Ly & Gong 2025：多分形损失景观理论

1.2 多分形结构的实证验证

1.3 Ma et al. 2022：超越二次近似

二、Edge of Stability (EoS) 理论

2.1 核心定义

2.2 Damian, Nichani, Lee 2022：Self-Stabilization 引理

2.3 Liu et al. 2025：极简证明

2.4 Kalra & Barkeshli 2023：训练相图

2.5 Kalra et al. 2023：Sharpness Dynamics 与 Chaos

2.6 训练动力学的标准相变

三、模式连通性 (Mode Connectivity) 现代理论

3.1 Theus et al. 2025：广义线性模式连通性

3.2 Zhan, Li, Wu 2025：置换不变性的理论分析

3.3 Di Carlo et al. 2026：熵约束的 Mode Connectivity

3.4 Ainsworth et al. 2023：Git Re-Basin

四、Muon 优化器深度理论

4.1 Muon 算法设计

4.2 Newton-Schulz 正交化的数学原理

4.3 Muon 的谱平坦化理论

4.4 Muon 实证速度记录

4.5 Muon 与 Shampoo 的关系

4.6 Muon 收敛性理论

五、SOAP 优化器

5.1 SOAP 算法设计

5.2 SOAP 数学形式

5.3 SOAP 实证结果

5.4 SOAP 的 Gradient Whitening 视角

六、Hessian 谱分析

6.1 Granziol & Juarev 2026：基础模型规模 Hessian 谱

6.2 Petrov et al. 2025：完整 Transformer Hessian

6.3 Tang et al. 2025：Hessian 块对角结构

6.4 Dong et al. 2025：Hessian 结构的量化

6.5 谱演化发现总结

七、平坦最小值与锐最小值

7.1 Andriushchenko & Flammarion 2022：SAM 的真实作用

7.2 Bennett 2025：平坦最小值的错觉

7.3 Wang & Roberts 2025：训练不稳定性诱导 flatness bias

7.4 Schliserman et al. 2025：平坦最小值的理论保证

7.5 Fan et al. 2025：锐最小值也能泛化

7.6 平面/尖锐最小值新认识总结

八、Gauss-Newton 分解与二阶方法

8.1 Gauss-Newton 分解

8.2 Full Gauss-Newton for LLMs

九、实践应用

9.1 优化器选型决策树（2025-2026 实践）

9.2 学习率/调度实践

9.3 SAM 仍值得用

9.4 Hessian-aware 实践

9.5 模型融合（Model Merging）

9.6 监控训练用的关键量

9.7 2026 默认配置推荐

十、Python 实现：Muon 优化器

十一、关键定理汇总表

十二、与现有wiki内容的连接

参考论文

关系图谱

目录

反向链接