概述
深度学习的损失景观理论在2024-2026年间发生了重大转变:从现象描述走向严格数学理论。Loss landscape不再被视为神秘的”几何形状”,而是被建模为多分形随机过程、谱受限的优化问题或带隐式约束的投影梯度下降轨迹。
核心叙事:
- EoS (Edge of Stability) 从现象上升为有完整数学证明的理论
- Muon 作为2024-2026年LLM训练事实新标准,比 AdamW 提速 1.3-1.5×
- 模式连通性在 Transformer 中被严格证明(之前认为不成立)
- Hessian 谱分析首次在百亿参数规模实现
一、损失景观的几何结构
1.1 Ly & Gong 2025:多分形损失景观理论
核心论文:Ly, A. & Gong, P. “Optimization on multifractal loss landscapes explains a diverse range of geometrical and dynamical properties of deep learning.” Nature Communications 16, 3252 (2025).
核心贡献:
- 把深度学习损失景观建模为多分形 (multifractal) 随机过程
- 推导出 GD/SGD 收敛解的解析理论
- 能统一解释泛化、隐式正则化、模式连通性等十余种现象
关键发现:
- GD 的随机性来自多分形结构本身,不需要外部 Langevin 噪声假设
- 损失景观的”分形维度”与模型的泛化能力直接相关
- 训练过程可视为”沿多分形表面做漂移扩散”
数学框架:损失景观被建模为多分形随机过程 ,其广义分形维度 控制优化器的可行步长分布。GD 的”随机性”完全来自多分形结构本身——这统一解释了隐式正则化、泛化、mode connectivity。
意义:第一个用统计力学/分形几何严格刻画”optimizability puzzle”的工作。
1.2 多分形结构的实证验证
Ly & Gong 在 VGG-16 / ResNet 上对 CIFAR-10 的损失做多尺度分析:
- 2D 切片在 0.01、0.1、1 三个尺度上展现自相似分形结构
- 不同网络深度/宽度下, 与泛化性能高度相关
1.3 Ma et al. 2022:超越二次近似
核心论文:Ma, C. et al. “Beyond the Quadratic Approximation” (2022).
关键贡献:用随机矩阵理论 + 多尺度证明 NN 损失景观是非二次的,存在跨尺度结构。
二、Edge of Stability (EoS) 理论
2.1 核心定义
定义 sharpness(尖锐度):
两个核心现象:
- Progressive Sharpening: → sharpness 单调增长直到
- Edge of Stability:sharpness 在 附近”卡住”震荡,但 loss 仍非单调下降
2.2 Damian, Nichani, Lee 2022:Self-Stabilization 引理
核心论文:Damian, A., Nichani, E., Lee, J. D. “Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of Stability.” NeurIPS 2022 / COLT 2023.
关键贡献:用三次 Taylor 展开证明 GD 在 EoS 阶段隐式执行约束优化:
Self-Stabilization Property:
其中 是 Hessian 顶特征向量。这一恒等式是 EoS 能自我调节的根因——梯度方向天然产生一个反 sharpness 增长的三阶项。
关键发现:
- GD 轨迹近似等于投影梯度下降 (PGD) 在 sharpness 阈值约束下的轨迹
- 给出对 loss、sharpness、轨迹偏差的精确预测
意义:首次给出 EoS 现象的通用数学解释,跨任务、跨学习率都成立。
2.3 Liu et al. 2025:极简证明
核心论文:Liu, L., Zhang, Z., Du, S., Zhao, T. “A Minimalist Example of Edge-of-Stability and Progressive Sharpening.” ICML 2025 (arXiv:2503.02809).
核心贡献:在两层、宽 1、二维输入的极简网络上对整条 GD 轨迹给出非渐近分析,同时证明 PS 和 EoS 的存在。
关键发现:
- 严格证明 sharpness 不会超过 的上界
- 投影到”相关输入维度”后,损失实际上是单调下降的——这解释了非单调性的来源
- 调和了 minimalist 路线与 generalist 路线(Damian 2022)的”stable set”假设分歧
意义:填补”极简样本也能解释整条轨迹”的空白。
2.4 Kalra & Barkeshli 2023:训练相图
核心论文:Kalra, D. S. & Barkeshli, M. “Phase diagram of early training dynamics in deep networks.” NeurIPS 2023.
核心贡献:在 三维参数空间中绘出训练早期 sharpness 演化的相图。
关键发现:
- 存在四个相:stable / catapult / progressive-sharpening / EoS
- 大学习率 + 深网络 = 进入 PS/EoS 的关键
- 后续工作(arXiv:2311.02076)扩展到固定点分析 + 通往混沌的路线
意义:把 EoS 从单一现象升级为”训练相变”。
2.5 Kalra et al. 2023:Sharpness Dynamics 与 Chaos
核心论文:Kalra, D. S., He, T., Barkeshli, M. “Universal Sharpness Dynamics in Neural Network Training: Fixed Point Analysis, Edge of Stability, and Route to Chaos.” arXiv:2311.02076.
核心贡献:对 GD sharpness 动力学的通用 ODE 推导,揭示其与 May-Leonard 动力学和logistic map 的对应。
关键发现:当学习率超过临界值,sharpness 轨迹进入混沌区;固定点分析能精确预测相变边界。
意义:从动力系统角度统一 PS → EoS → chaos。
2.6 训练动力学的标准相变
| 阶段 | 特征 | 触发条件 |
|---|---|---|
| I. 稳定下降 | ,loss 单调下降 | 初期或小学习率 |
| II. Progressive Sharpening | 单调上升到 | 几乎所有 GD 训练都会经历 |
| III. Edge of Stability | 震荡,loss 非单调下降 | 大学习率、full-batch |
| IV. Chaos(极端) | sharpness 轨迹出现混沌 | 学习率超过 阈值 |
三、模式连通性 (Mode Connectivity) 现代理论
3.1 Theus et al. 2025:广义线性模式连通性
核心论文:Theus, A., Cabodi, A., Anagnostidis, S., Orvieto, A., Singh, S. P., Boeva, V. “Generalized Linear Mode Connectivity for Transformers.” NeurIPS 2025 (oral) (arXiv:2506.22712).
核心贡献:提出四类对称性统一框架:
- 置换 (permutation)
- 半置换 (semi-permutation)
- 正交变换 (orthogonal transformation)
- 一般可逆映射 (general invertible mapping)
关键发现:
- 之前仅靠神经元置换无法打破 Transformer 的 LMC 障碍
- 扩展到正交/可逆对称后,ViT 和 GPT-2 都能 LMC
- 这暗示 Transformer 损失景观的连通性比之前认为的更强
意义:将”模型融合 (model merging)“理论从 CNN 推进到 Transformer 时代。
3.2 Zhan, Li, Wu 2025:置换不变性的理论分析
核心论文:Zhan, K., Li, P., Wu, L. “Analyzing the Role of Permutation Invariance in Linear Mode Connectivity.” arXiv:2503.06001 (2025).
核心贡献:在 teacher-student 设定下对两层 ReLU 网络的 LMC 模置换现象给出理论分析。
关键发现:
- 置换后 LMC 障碍以 衰减,与输入维度无关(突破了 Entezari 2021 的 维度诅咒)
- 障碍随宽度呈双下降 (double descent):在 (teacher 宽度的 2 倍)处出现峰值
- 学习率变化会引发 GD 解的稀疏性相变,影响 LMC 障碍
意义:第一次给出 LMC 模置换的渐近速率。
3.3 Di Carlo et al. 2026:熵约束的 Mode Connectivity
核心论文:Di Carlo, L., Goddard, C., Schwab, D. J. “Entropic Confinement and Mode Connectivity in Overparameterized Neural Networks.” ICLR 2026.
核心贡献:用**统计物理(熵约束)**视角重新解释过参数网络中的 mode connectivity,提出 entropic confinement 机制。
关键发现:过参数化区域的极小值被熵势阱”囚禁”在狭窄低损失管道中,因此两个独立解之间几乎必然存在低损失曲线。
意义:把”为什么 mode connectivity 普遍存在”从经验现象变成理论结果。
3.4 Ainsworth et al. 2023:Git Re-Basin
核心论文:Ainsworth, S., Hayase, J., Srinivasa, S. “Git Re-Basin: Merging Models Modulo Permutation Symmetries.” ICLR 2023.
奠基性工作:置换对齐后两个独立训练 ResNet 能 LMC,是”permutation invariance 解释 landscape 连通性”的奠基性工作。
四、Muon 优化器深度理论
4.1 Muon 算法设计
核心论文:Jordan, K. “Muon: An optimizer for hidden layers in neural networks.” 博客 + GitHub (2024-12), Keller Jordan et al. ICLR 2025.
核心贡献:Muon (MomentUm Orthogonalized by Newton-Schulz) 优化器,把 SGD-momentum 产生的更新矩阵做 Newton-Schulz 5 次迭代近似正交化(polar factor )。
4.2 Newton-Schulz 正交化的数学原理
对 (SVD),5 步 Newton-Schulz 迭代输出近似 polar factor:
系数 设计为在 区间内单调趋于 1,bfloat16 下 5 步内即可达到 的精度。
4.3 Muon 的谱平坦化理论
核心论文:Nguyen et al. “Spectral Flattening Is All Muon Needs.” arXiv:2605.13079 (2026).
关键定理:Muon 的最大稳定学习率为
而 SGD 是 。差距 = 梯度协方差矩阵各向异性的倒数均值/最大奇异值比——这直接量化了”为什么 Muon 能用更大学习率”。
4.4 Muon 实证速度记录
| 任务 | 基线 | Muon | 提升 |
|---|---|---|---|
| CIFAR-10 94% (A100-秒) | 3.3 | 2.6 | 1.27× |
| NanoGPT 3.28 val loss | AdamW | Muon | 1.35× |
| 1.5B GPT-2 XL (HellaSwag) | 13.3h (AdamW) | 10h (Muon) | 1.33× |
| Moonlight 16B LLM (Liu 2025) | AdamW | Muon | 1.50× |
4.5 Muon 与 Shampoo 的关系
关键洞察:Muon = Shampoo 去掉 1/2 阶 preconditioner,只做正交化 → 等价于 steepest descent 在谱范数下。
设计要点:
- 对所有 2D 隐藏层权重用 Muon,scalar/vector/输入输出层仍用 AdamW
- Newton-Schulz 系数 调优后只需 5 步 bfloat16 迭代
- 与 Shampoo 关系:Muon = Shampoo 去掉 1/2 阶 preconditioner,只做正交化 → 等价于 steepest descent 在谱范数下
4.6 Muon 收敛性理论
核心论文:
- Kim & Oh (2026) “Convergence of Muon with Newton–Schulz.” ICLR 2026
- Sato, Naganuma, Iiduka (2025) “Convergence Bound and Critical Batch Size of Muon Optimizer.” arXiv:2507.01598
关键结果:给出了 Muon 在光滑非凸优化下的收敛率与 critical batch size。
五、SOAP 优化器
5.1 SOAP 算法设计
核心论文:Vyas, N., Morwani, D., Zhao, R., Shapira, I., Brandfonbrener, D., Janson, L., Kakade, S. “SOAP: Improving and Stabilizing Shampoo using Adam.” ICLR 2025.
核心贡献:把 Shampoo 的特征基与 Adam 的一阶动量结合。
5.2 SOAP 数学形式
算法:
- 维护 的指数滑动平均
- 求 的特征向量
- 投影梯度
- 在 上跑 Adam
- 投影回去 ,更新权重
理论关键:Shampoo(1/2) ≡ Adafactor 在 Shampoo 特征基中运行,所以 SOAP = “用 Adam 算子替换 Adafactor”。
5.3 SOAP 实证结果
| 指标 | AdamW | Shampoo | SOAP |
|---|---|---|---|
| 迭代数 | 1.00× | 0.80× | 0.60× |
| 壁钟时间 | 1.00× | 0.80× | 0.65× |
关键结果(360M / 660M 语言模型):
- 大 batch 训练下,比 AdamW 减少 40% 迭代、35% 壁钟时间
- 比 Shampoo 提升约 20%
意义:首次让”二阶预条件器”在 LLM 训练中变得实用。
5.4 SOAP 的 Gradient Whitening 视角
核心论文:Lu, Wang, Liu (2025) “Understanding SOAP from the Perspective of Gradient Whitening.” arXiv:2509.22938.
论证 SOAP 本质上是在做梯度白化 (gradient whitening)——把梯度变换到各向同性分布下再做 Adam 更新。
六、Hessian 谱分析
6.1 Granziol & Juarev 2026:基础模型规模 Hessian 谱
核心论文:Granziol, D. & Juarev, K. “Hessian Spectral Analysis at Foundation Model Scale.” arXiv:2602.00816 (2026-02).
核心贡献:用 shard-local finite-difference Hessian-vector product 配合 FSDP 分布式训练,做出百亿参数级真实 Hessian 谱。
意义:之前 Hessian 谱研究受限于单 GPU;该工作让 Hessian 分析达到基础模型规模。
6.2 Petrov et al. 2025:完整 Transformer Hessian
核心论文:Petrov, E., Kiselev, N., Meshkov, V., Grabovoy, A. “Closing the Curvature Gap: Full Transformer Hessians and Their Implications for Scaling Laws.” arXiv:2510.16927 (2025-10).
核心贡献:首次给出完整 Transformer block(含 LayerNorm + FFN + Self-Attention)的 Hessian 闭式表达。
关键发现:用数据规模 的显式二阶界,证明 Transformer 损失景观随数据量稳定化,连接到了神经标度律。
6.3 Tang et al. 2025:Hessian 块对角结构
核心论文:Tang, Q.-Y. et al. “Investigating the Overlooked Hessian Structure: From CNNs to LLMs.” ICML 2025.
核心贡献:研究 Hessian 的”被忽视结构”,发现 Hessian 的”低秩 + 块对角”结构在 CNN 和 LLM 中都显著存在。
6.4 Dong et al. 2025:Hessian 结构的量化
核心论文:Dong, Z., Zhang, Y., Luo, Z.-Q., Yao, J., Sun, R. “Towards Quantifying the Hessian Structure of Neural Networks.” arXiv:2505.02809 (2025-05).
核心贡献:用随机矩阵理论证明 Hessian 块对角结构由类数 主导( 时块对角化),解释了 LLM 中 时 Adam 有效的原因。
6.5 谱演化发现总结
- Dong et al. 2025:Hessian 块对角结构由类数 主导
- Petrov et al. 2025:完整 Transformer Hessian 的”层间谱范数”随数据量 衰减
- Granziol 2026:首次在基础模型规模画出真实 Hessian 谱
- Fernandez et al. (TMLR 2024):训练早期curvature 集中在 top eigenspace 的极小子空间
七、平坦最小值与锐最小值
7.1 Andriushchenko & Flammarion 2022:SAM 的真实作用
核心论文:Andriushchenko, M. & Flammarion, F. “Towards Understanding Sharpness-Aware Minimization.” ICML 2022.
关键发现:SAM 的成功不能仅用 flat minima 解释,传统 PAC-Bayes 论证不成立。
7.2 Bennett 2025:平坦最小值的错觉
核心论文:Bennett, “Are Flat Minima an Illusion?” arXiv:2605.05209 (2025).
关键发现:函数保持的 reparameterization 可让 Hessian 最大特征值涨两个数量级而不改变函数。
7.3 Wang & Roberts 2025:训练不稳定性诱导 flatness bias
核心论文:Wang, & Roberts “Training Instabilities Induce Flatness Bias in Gradient Descent.” arXiv:2511.12558 (2025).
关键发现:训练不稳定性(EoS 阶段)诱导 flatness bias——大初始学习率有助于泛化。
7.4 Schliserman et al. 2025:平坦最小值的理论保证
核心论文:Schliserman, Vansover-Hager, Koren “Flat Minima and Generalization: Insights from Stochastic Convex Optimization.” NeurIPS 2025 Workshop.
关键发现:在光滑随机凸优化中,多种方法(SAM、噪声注入)收敛到flat minima 有理论保证。
7.5 Fan et al. 2025:锐最小值也能泛化
核心论文:Fan et al. “Sharp Minima Can Generalize” — 提出”Volume Hypothesis”补充:sharp minima 在大数据下也能泛化。
7.6 平面/尖锐最小值新认识总结
- 平面最小值 ≠ 泛化的充分条件(SAM的反例)
- 平面性是 reparameterization 依赖的概念(Bennett 2025)
- EoS 训练天然诱导 flatness bias
- 锐最小值在足够大数据下也能泛化(Volume Hypothesis)
八、Gauss-Newton 分解与二阶方法
8.1 Gauss-Newton 分解
实践中(实证)残差项影响小,所以 SOAP、Muon 等用 GN 近似是合理的。
8.2 Full Gauss-Newton for LLMs
核心论文:Abreu, Vyas, Kakade, Morwani (2025) “The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton.” arXiv:2510.09378.
关键发现:Full Gauss-Newton 比 SOAP 再快 5.4×,但内存爆炸(需要 careful implementation)。
九、实践应用
9.1 优化器选型决策树(2025-2026 实践)
| 场景 | 推荐优化器 | 理由 |
|---|---|---|
| LLM 预训练(≥ 1B) | Muon(隐藏层)+ AdamW(其他) | 比 AdamW 快 1.3-1.5×,比 Shampoo/SOAP 更省内存 |
| LLM 预训练(强二阶信息可用) | SOAP | 比 AdamW 快 1.4-1.5×,比 Shampoo 稳定 |
| 追求理论下界 | Full Gauss-Newton | 比 SOAP 再快 5.4×,但内存爆炸 |
| 视觉 Transformer | Lion / AdamW + SAM | 经典组合,对 sharp minima 仍稳健 |
| 微调小模型 | AdamW + LoRA | 不需要 Muon 复杂度 |
| 大规模分布式训练 | Shampoo(Gemini 1.5 Flash 用) | 通信开销比 SOAP 低 |
9.2 学习率/调度实践
- 大初始学习率(达 EoS 阈值)已被证实促进泛化(Wang & Roberts 2025)
- Transformer 训练:peak LR 设为 sharpness 阈值 →
- Muon 通常可用 3-10× 更大 LR(因为谱平坦化),如 NanoGPT speedrun 用
- 学习率退火在 phase III(EoS)阶段最关键,过早退火会丢失 self-stabilization 的隐式正则化
9.3 SAM 仍值得用
- SAM + AdamW 在 CIFAR、ImageNet 上仍是最稳的”平坦最小值”实现
- 对超大规模模型,LookSAM(每 步做一次 SAM 近似)可降低开销
9.4 Hessian-aware 实践
- Adam-mini(Zhang 2024)利用 Hessian 块对角结构节省 50% 内存
- HELENE(EMNLP 2025):用 Hessian 层间裁剪 + 零阶优化加速 LLM 微调
9.5 模型融合(Model Merging)
利用 mode connectivity + 对称性做无训练模型合并是 2025 年新趋势:
- Theus et al. 2025:用扩展对称性合并 ViT、GPT-2
- 实际应用:Task Arithmetic、Model Soups(无需额外训练)
失败模式:若两个模型属于不同 basin,融合损失会爆炸——需先做 re-basin / 对齐。
9.6 监控训练用的关键量
| 量 | 含义 | 期望趋势 |
|---|---|---|
| (sharpness) | 顶 Hessian 特征值 | 单调上升到 后震荡 |
| 无量纲 sharpness | 训练中趋向于 2 | |
| 梯度协方差的条件数 | 各向异性程度 | 决定 Muon 加速比 |
| 谱扩散度 | 越接近 1 越接近白噪声 |
9.7 2026 默认配置推荐
2026 年 LLM 预训练默认配置:Muon(hidden layers)+ AdamW(embeddings, lm_head, scalars),5 步 Newton-Schulz bfloat16 正交化,peak LR 设到刚好进入 EoS,cosine decay 到峰值 10%。 这是 NanoGPT speedrun、Moonlight 16B、CIFAR-10 speedrun 三处 SOTA 的一致配方。
十、Python 实现:Muon 优化器
import torch
import torch.nn as nn
import torch.nn.functional as F
def newton_schulz5(G, steps=5, eps=1e-7):
"""Newton-Schulz 5次迭代计算 polar factor(近似正交化)"""
assert G.ndim >= 2
a, b, c = (3.4445, -4.7750, 2.0315)
X = G.bfloat16()
if G.size(-2) > G.size(-1):
X = X.mT
X = X / (X.norm() + eps)
for _ in range(steps):
A = X @ X.mT
B = b * A + c * (A @ A)
X = a * X + B @ X
if G.size(-2) > G.size(-1):
X = X.mT
return X.to(G.dtype)
class Muon(torch.optim.Optimizer):
"""
Muon优化器:对hidden layers使用MomentUm Orthogonalized by Newton-Schulz
Args:
params: 模型参数
lr: 学习率 (通常 0.02-0.05)
momentum: 动量系数 (默认 0.95)
weight_decay: 权重衰减
"""
def __init__(self, params, lr=0.02, momentum=0.95, weight_decay=0.0):
defaults = dict(lr=lr, momentum=momentum, weight_decay=weight_decay)
super().__init__(params, defaults)
@torch.no_grad()
def step(self):
for group in self.param_groups:
lr = group['lr']
momentum = group['momentum']
weight_decay = group['weight_decay']
for p in group['params']:
if p.grad is None:
continue
g = p.grad
# Weight decay
if weight_decay > 0:
p.data.mul_(1 - lr * weight_decay)
# Momentum buffer
state = self.state[p]
if 'momentum_buffer' not in state:
state['momentum_buffer'] = torch.zeros_like(g)
buf = state['momentum_buffer']
buf.mul_(momentum).add_(g)
# Orthogonalize (only for 2D+ tensors)
if g.ndim >= 2:
g_orth = newton_schulz5(buf)
p.data.add_(g_orth, alpha=-lr)
else:
# 1D参数(如bias, norm)用原始动量
p.data.add_(buf, alpha=-lr)
class AdamW(torch.optim.Optimizer):
"""简化的AdamW:用于embeddings, lm_head, scalar参数"""
def __init__(self, params, lr=1e-3, betas=(0.9, 0.95), eps=1e-8, weight_decay=0.1):
defaults = dict(lr=lr, betas=betas, eps=eps, weight_decay=weight_decay)
super().__init__(params, defaults)
@torch.no_grad()
def step(self):
for group in self.param_groups:
for p in group['params']:
if p.grad is None:
continue
g = p.grad
state = self.state[p]
if len(state) == 0:
state['m'] = torch.zeros_like(g)
state['v'] = torch.zeros_like(g)
state['step'] = 0
state['step'] += 1
m, v = state['m'], state['v']
b1, b2 = group['betas']
m.mul_(b1).add_(g, alpha=1 - b1)
v.mul_(b2).addcmul_(g, g, value=1 - b2)
# 偏置修正
m_hat = m / (1 - b1 ** state['step'])
v_hat = v / (1 - b2 ** state['step'])
p.data.mul_(1 - group['lr'] * group['weight_decay'])
p.data.addcdiv_(m_hat, v_hat.sqrt() + group['eps'], value=-group['lr'])
def create_muon_adamw_optimizer(model, lr_muon=0.02, lr_adamw=1e-3):
"""
为模型创建 Muon + AdamW 混合优化器
- Hidden层 (2D): Muon
- Embedding/LM Head/Scalar: AdamW
"""
muon_params = []
adamw_params = []
for name, p in model.named_parameters():
if p.ndim >= 2 and 'embed' not in name and 'lm_head' not in name:
muon_params.append(p)
else:
adamw_params.append(p)
return [
Muon(muon_params, lr=lr_muon, momentum=0.95, weight_decay=0.0),
AdamW(adamw_params, lr=lr_adamw, betas=(0.9, 0.95), weight_decay=0.1),
]
# 示例:简单Transformer使用Muon+AdamW
class SimpleTransformerBlock(nn.Module):
def __init__(self, d_model=512, n_heads=8):
super().__init__()
self.attn = nn.MultiheadAttention(d_model, n_heads, batch_first=True)
self.mlp = nn.Sequential(
nn.Linear(d_model, 4 * d_model),
nn.GELU(),
nn.Linear(4 * d_model, d_model),
)
self.norm1 = nn.LayerNorm(d_model)
self.norm2 = nn.LayerNorm(d_model)
def forward(self, x):
h = self.norm1(x)
h, _ = self.attn(h, h, h)
x = x + h
h = self.norm2(x)
h = self.mlp(h)
return x + h
# 测试
model = SimpleTransformerBlock(d_model=512)
optimizers = create_muon_adamw_optimizer(model, lr_muon=0.02, lr_adamw=3e-4)
print(f"Muon参数组数: {len(optimizers[0].param_groups[0]['params'])}")
print(f"AdamW参数组数: {len(optimizers[1].param_groups[0]['params'])}")
# 模拟训练
x = torch.randn(8, 32, 512)
target = torch.randn(8, 32, 512)
for step in range(10):
out = model(x)
loss = F.mse_loss(out, target)
for opt in optimizers:
opt.zero_grad()
loss.backward()
for opt in optimizers:
opt.step()
if step % 2 == 0:
print(f"Step {step}, Loss: {loss.item():.4f}")十一、关键定理汇总表
| 主题 | 核心定理 | 数学描述 |
|---|---|---|
| EoS Self-Stabilization | Damian 2022 | |
| EoS 隐式约束 | Damian 2022 | s.t. |
| Newton-Schulz | Muon | |
| Muon 最大学习率 | Nguyen et al. 2026 | |
| Gauss-Newton 分解 | 通用 |
十二、与现有wiki内容的连接
- NTK视角:NTK理论
- 优化理论:自适应优化器理论、µ-parametrization
- 损失景观:损失景观拓扑、多分形动力学
- Transformer理论:Transformer Hessian分析、EoS训练动力学
- 泛化理论:现代泛化理论