专题概述
本专题整合2024-2026年深度学习理论的三大核心主题,形成现代深度学习理论的统一视角:
深度学习理论基础专题
├── 一、现代泛化理论
│ ├── 双下降 (Double Descent) 精确渐近
│ ├── 良性过拟合 (Benign Overfitting)
│ └── 过参数化:NTK / Lazy / Rich / µP
│
├── 二、损失景观与训练动力学
│ ├── Edge of Stability 完整理论
│ ├── Muon / SOAP 优化器
│ ├── 模式连通性 (Mode Connectivity)
│ └── Hessian 谱分析
│
└── 三、归纳偏置与表示学习
├── 几何深度学习 Erlangen 纲领
├── Neural Collapse 训练末态
├── 神经 Hilbert Ladder 函数空间
└── 对称性原理与等变网络一、核心文档导航
1.1 现代泛化理论
| 文档 | 核心内容 | 关键论文 |
|---|---|---|
| generalization-theory-modern | 双下降、良性过拟合、过参数化的现代理论整合 | Wilson 2025, Bach 2024, Magen 2025, Chen 2025 |
核心命题:
- 双下降 = 偏差-方差分解 + 有效自由度
- 良性过拟合 = 谱条件 + 隐式偏置
- 过参数化 = NTK ↔ Lazy ↔ Rich ↔ µP 的连续谱
1.2 损失景观与训练动力学
| 文档 | 核心内容 | 关键论文 |
|---|---|---|
| loss-landscape-modern-theory | EoS、Muon/SOAP优化器、模式连通性、多分形结构、Hessian谱分析 | Ly & Gong 2025 (Nature Comm), Damian 2022, Jordan 2024, Vyas 2025 |
核心命题:
- EoS 是 sharpness 自稳定化的隐式约束优化
- Muon 通过 Newton-Schulz 正交化实现谱平坦化
- Transformer 通过扩展对称性可达模式连通
- Hessian 谱分析可达基础模型规模
1.3 归纳偏置与表示学习
| 文档 | 核心内容 | 关键论文 |
|---|---|---|
| inductive-bias-representation-theory | 几何深度学习、Neural Collapse、神经 Hilbert Ladder、对称性原理 | Bronstein 2021, Papyan 2020, Chen 2024 (JMLR), Kondor 2025 (PNAS) |
核心命题:
- 几何深度学习 = 用对称群统一架构 (Erlangen 纲领)
- Neural Collapse = 训练末态的全局最优
- Neural Hilbert Ladder = 第一个统一逼近+泛化+深度分离+特征学习的函数空间
- 软归纳偏置 + 灵活假设空间是现代基础模型的核心
二、关键定理速查表
| 主题 | 定理 | 数学描述 |
|---|---|---|
| 双下降 | Bach 2024 | |
| MNI 良性 | Tsigler & Bartlett 2020 | |
| Attention 良性 | Magen 2025 | |
| µP 特征学习 | Chen 2025 | 与初始特征偏离 ,特征线性独立 |
| 复杂度谱 | Feder 2025 | Complexity = Vol() |
| EoS Self-Stab | Damian 2022 | |
| EoS 隐式约束 | Damian 2022 | s.t. |
| Newton-Schulz | Muon | |
| Muon LR* | Nguyen 2026 | |
| Neural Collapse | Papyan 2020 | NC = UFM 全局最优 Simplex ETF |
| Neural Hilbert | Chen 2024 | L 层 NN ↔ L 级 RKHS 链 |
| Erlangen 纲领 | Bronstein 2021 | 5 种几何对应 5 种主流架构 |
| 软偏置统一 | Wilson 2025 | PAC-Bayes + 可数假设解释所有”反常”现象 |
三、学习路径建议
3.1 入门路径(已有基本ML/DL背景)
- 第1周:阅读 generalization-theory-modern 整体框架
- 第2周:阅读 loss-landscape-modern-theory 的第1-3节(几何、EoS、Muon)
- 第3周:阅读 inductive-bias-representation-theory 的第1-4节(GDL、Neural Collapse、IB、MI)
- 第4周:跨专题整合理解(用专题索引+本索引)
3.2 进阶路径(理论导向)
- NTK视角:neural-tangent-kernel-theory-deep-dive → 3-过参数化
- 优化理论:adaptive-optimizer-theory → loss-landscape-modern-theory
- 表示学习:information-bottleneck → inductive-bias-representation-theory
- 对称性:geometric-deep-learning-grids-groups-graphs → 九、对称性与守恒律
3.3 研究路径
- 前沿论文精读:
- Wilson 2025 ICML Spotlight (立场论文)
- Ly & Gong 2025 Nature Communications (多分形)
- Chen 2024 JMLR (NHL函数空间)
- Kondor 2025 PNAS (硬等变)
- 核心实验复现:
- Neural Collapse 训练到TPT验证
- Muon vs AdamW 速度对比
- 双下降曲线数值模拟
四、跨专题连接
4.1 与数学基础
| 数学概念 | 应用方向 | 对应文档 |
|---|---|---|
| 矩阵分解 | 损失景观分析 | loss-landscape-modern-theory |
| 谱理论 | Hessian分析、双下降 | generalization-theory-modern |
| RKHS | Neural Hilbert Ladder | inductive-bias-representation-theory |
| 群论 | GDL等变网络 | inductive-bias-representation-theory |
| 优化理论 | EoS、Muon | loss-landscape-modern-theory |
4.2 与架构专题
| 架构 | 对应理论 | 文档 |
|---|---|---|
| Transformer | 平均场、注意力=核方法 | transformer-mean-field-dynamics, attention-as-kernel-methods |
| CNN | 平移等变 | inductive-bias-representation-theory |
| GNN | 置换等变 | inductive-bias-representation-theory |
| Mamba/SSM | 选择性归纳偏置 | hybrid-ssm-transformer |
| ResNet | 损失景观连通性 | resnet-deep-residual-learning |
4.3 与训练优化
| 优化主题 | 理论支撑 | 文档 |
|---|---|---|
| 学习率调度 | EoS相变 | training-dynamics-edge-of-stability |
| 优化器选择 | Muon vs AdamW vs SOAP | loss-landscape-modern-theory |
| 正则化 | 隐式偏置、谱条件 | generalization-theory-modern |
| 早停 | 神经坍缩 | neural-collapse-deep-resnet-transformer-theory |
五、关键论文清单(推荐阅读顺序)
5.1 立场/综述论文
- Wilson 2025 (ICML Spotlight) “Deep Learning is Not So Mysterious or Different” — 立场论文:PAC-Bayes + 软偏置统一解释
- Bronstein et al. 2021 “Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges” — GDL统一框架
- Ly & Gong 2025 (Nature Communications) “Optimization on multifractal loss landscapes” — 多分形景观理论
5.2 泛化理论核心
- Bach 2024 (SIMODS) “High-Dimensional Analysis of Double Descent” — 双下降精确渐近
- Magen et al. 2025 (NeurIPS) “Benign Overfitting in Single-Head Attention” — Transformer中的良性过拟合
- Chen, Yang, Zhao, Gu 2025 (ICML) “Global Convergence and Rich Feature Learning in L-Layer µP” — µP下同时证明两者
5.3 损失景观核心
- Damian, Nichani, Lee 2022 (NeurIPS) “Self-Stabilization at Edge of Stability” — EoS的数学解释
- Jordan 2024 (ICLR 2025) “Muon: An optimizer for hidden layers” — Muon优化器
- Vyas et al. 2025 (ICLR) “SOAP: Improving and Stabilizing Shampoo using Adam” — SOAP优化器
- Theus et al. 2025 (NeurIPS Oral) “Generalized Linear Mode Connectivity for Transformers” — Transformer模式连通
5.4 表示学习核心
- Papyan, Han, Donoho 2020 (PNAS) “Prevalence of Neural Collapse” — NC1-NC4原始论文
- Chen 2024 (JMLR) “Neural Hilbert Ladders: Multi-Layer Neural Networks in Function Space” — NHL函数空间
- Kondor 2025 (PNAS) “The principles behind equivariant neural networks” — 等变网络的物理原理
- Perin & Deny 2025 (JMLR) “On the Ability of Deep Networks to Learn Symmetries from Data” — 网络学习对称性
六、关键洞察总结
6.1 现代泛化理论的统一叙事
2024-2026 的核心叙事是统一而非颠覆:
- 双下降 → 随机矩阵/贝叶斯/信息论给出与实证吻合的精确渐近刻画
- 良性过拟合 → 从线性 → ReLU → Transformer 层层推进,回归”谱条件+隐式偏置”
- 过参数化 → NTK↔Lazy↔Rich↔µP 谱系由 Tensor Programs 与 minimax 锐界工作连接,最终被”架构复杂度谱”的信息论视角所统一
6.2 损失景观的核心洞察
EoS 已从现象升级为理论:Damian 2022 的 self-stabilization + Liu 2025 的 minimalist 证明构成完整数学框架
Muon 已成为 2024-2026 LLM 训练事实新标准:相比 AdamW 提速 1.3-1.5×,Moonlight 16B 模型用 Muon 训练
模式连通性在 Transformer 中成立:只需扩展对称性到正交/可逆映射
6.3 归纳偏置的统一视角
软归纳偏置 + 灵活假设空间 + 特征学习是统一理解良性过拟合、双下降、Neural Collapse 等现象的关键
硬偏置 vs 软偏置的选择:物理/化学任务硬等变;通用任务软偏好
架构偏置不是唯一来源:初始化和训练算法也提供软偏好
6.4 三大主题的内在联系
软归纳偏置 (Wilson 2025)
↓
灵活的假设空间
↓
+ 特征学习 (Lazy → Rich 谱)
↓
+ 模式连通性 (loss landscape)
↓
= 现代基础模型成功的核心机制
七、实践推荐(2026 最佳实践)
7.1 LLM 预训练默认配置
Muon (hidden layers) + AdamW (embeddings, lm_head, scalars),5 步 Newton-Schulz bfloat16 正交化,peak LR 设到刚好进入 EoS,cosine decay 到峰值 10%
7.2 训练监控的关键量
| 量 | 含义 | 期望趋势 |
|---|---|---|
| sharpness | 单调上升到 后震荡 | |
| 无量纲sharpness | 训练中趋向于 2 | |
| 梯度协方差条件数 | 各向异性程度 | 决定 Muon 加速比 |
7.3 模型选择决策树
| 任务 | 推荐架构 | 理由 |
|---|---|---|
| 短序列 NLP(<2K) | Transformer | 因果掩码 + attention 足够 |
| 长序列(>10K) | Mamba/RWKV/xLSTM | 线性复杂度,长程记忆 |
| 物理/化学 | E(3)-GNN | 物理对称性硬编码 |
| 通用视觉 | ViT | 灵活 + 软偏置 |
7.4 架构偏置选型
| 数据 | 强对称性硬偏置 | 弱偏置+灵活假设空间 |
|---|---|---|
| 图像 | CNN (平移等变) | ViT (位置编码+attention) |
| 序列 | LSTM/SSM (时序) | Transformer (置换不变) |
| 图 | GNN (置换等变) | Graph Transformer (灵活) |
| 分子 | E(3)-GNN | Transformer + 等变正则 |
八、未解问题与未来方向
8.1 理论层面
- 特征学习的有限宽度理论:NTK 和 NHL 都局限于 mean-field 极限
- Mamba/RWKV 的逼近论:为什么输入选择性能让 SSM 匹敌 Transformer?
- Neural Collapse 的反向问题:给定对称性数据分布,NC 是否是唯一吸引子?
- 信息瓶颈与泛化的精确关系:广义 IB 能否解释所有 DNN 现象?
- 互信息最大化的现代替代:Barlow Twins / VICReg 与 IB 的精确数学关系
8.2 实践层面
- Muon 在 RL/生成模型中的应用
- EoS 训练在大模型中的可预测性
- Neural Collapse 在多模态/小样本场景的扩展
- 模式连通性用于模型融合的失败模式
九、与现有wiki内容的连接
9.1 相关专题索引
9.2 数学基础
9.3 机器学习基础
9.4 优化与训练
9.5 架构专题
十、参考文献汇总
现代泛化理论
- Wilson 2025 ICML Spotlight (立场论文)
- Bach 2024 SIMODS (双下降精确渐近)
- Magen et al. 2025 NeurIPS (Transformer中的良性过拟合)
- Xu & Chen 2025 ICML (长尾数据中的隐式特征)
- Tang et al. 2024 arXiv (OOD良性过拟合)
- Wang, Zhang, Arora 2024 ICML (对抗训练下的良性过拟合)
- Park et al. 2025 arXiv (经典视角)
- Chen et al. 2025 ICML (L层µP下全局收敛+特征学习)
- Yang et al. 2024 ICLR (Tensor Programs VI)
- Kumar et al. 2024 ICLR (Grokking = Lazy→Rich)
- Chou et al. 2025 ICML (Lazy/Rich二分超越)
- Dayi & Chen 2025 COLT (LoRA介于Lazy与Feature)
- Feder et al. 2025 arXiv (信息论统一框架)
- Polson & Sokolov 2025 (贝叶斯双下降)
- Olmin & Lindsten 2024 (Epoch-wise双下降)
- Erba et al. 2025 (二次网络的精确渐近)
- Curth et al. 2023 NeurIPS (参数计数反思)
- Tsigler & Bartlett 2020 PNAS (MNI良性过拟合)
- Yang & Li 2024/25 (锐泛化界)
损失景观与训练动力学
- Ly & Gong 2025 Nature Communications (多分形)
- Theus et al. 2025 NeurIPS Oral (GLMC for Transformers)
- Zhan et al. 2025 (置换不变性在LMC中的理论分析)
- Di Carlo et al. 2026 ICLR (Entropic confinement)
- Damian et al. 2022 NeurIPS / COLT 2023 (Self-Stabilization)
- Liu et al. 2025 ICML (EoS极简证明)
- Kalra & Barkeshli 2023 NeurIPS (训练相图)
- Kalra et al. 2023 (Sharpness Dynamics + Chaos)
- Jordan 2024 / ICLR 2025 (Muon优化器)
- Vyas et al. 2025 ICLR (SOAP)
- Nguyen et al. 2026 (Muon谱平坦化)
- Abreu et al. 2025 (Full Gauss-Newton)
- Petrov et al. 2025 (完整Transformer Hessian)
- Granziol 2026 (基础模型规模Hessian谱)
- Tang et al. 2025 ICML (Hessian块对角结构)
- Dong et al. 2025 (Hessian结构的量化)
- Lu, Wang, Liu 2025 (SOAP的Gradient Whitening)
- Ainsworth et al. 2023 ICLR (Git Re-Basin)
- Andriushchenko & Flammarion 2022 (SAM的真实作用)
- Wang & Roberts 2025 (训练不稳定性诱导flatness)
- Kim & Oh 2026 ICLR (Muon收敛性)
归纳偏置与表示学习
- Bronstein et al. 2021 (GDL统一框架)
- Kondor 2025 PNAS (等变网络的物理原理)
- Papyan et al. 2020 PNAS (Neural Collapse)
- Súkeník et al. 2023 NeurIPS (Deep UFM下的NC)
- Hui et al. 2022 (NC的局限)
- Tishby & Zaslavsky 2015 (IB理论)
- Saxe et al. 2018 ICLR (IB理论的修正)
- Westphal et al. 2025 (广义IB)
- Hjelm et al. 2019 ICLR (Deep InfoMax)
- Tschannen et al. 2020 ICML (MI最大化的局限)
- Chen 2024 JMLR (Neural Hilbert Ladder)
- Kidger & Lyons 2020 COLT (深度窄网络通用逼近)
- Lu et al. 2017 NeurIPS (宽度视角的表达力)
- Gu & Dao 2024 (Mamba)
- Wilson 2025 ICML (软归纳偏置)
- Perin & Deny 2025 JMLR (网络学习对称性)
- Bencomo et al. 2025 (架构与初始权重的偏置)
- Zhao, Walters, Yu 2025 (参数空间对称性)
- Andersdotter et al. 2025 JMLR (等变流形Neural ODE)
最后更新:2026-06-21
专题范围:2024-2026年深度学习理论前沿