深度学习理论基础专题索引（2026）

专题概述

本专题整合2024-2026年深度学习理论的三大核心主题，形成现代深度学习理论的统一视角：

深度学习理论基础专题
├── 一、现代泛化理论
│   ├── 双下降 (Double Descent) 精确渐近
│   ├── 良性过拟合 (Benign Overfitting) 
│   └── 过参数化：NTK / Lazy / Rich / µP
│
├── 二、损失景观与训练动力学
│   ├── Edge of Stability 完整理论
│   ├── Muon / SOAP 优化器
│   ├── 模式连通性 (Mode Connectivity)
│   └── Hessian 谱分析
│
└── 三、归纳偏置与表示学习
    ├── 几何深度学习 Erlangen 纲领
    ├── Neural Collapse 训练末态
    ├── 神经 Hilbert Ladder 函数空间
    └── 对称性原理与等变网络

一、核心文档导航

1.1 现代泛化理论

文档	核心内容	关键论文
generalization-theory-modern	双下降、良性过拟合、过参数化的现代理论整合	Wilson 2025, Bach 2024, Magen 2025, Chen 2025

核心命题：

双下降 = 偏差-方差分解 + 有效自由度
良性过拟合 = 谱条件 + 隐式偏置
过参数化 = NTK ↔ Lazy ↔ Rich ↔ µP 的连续谱

1.2 损失景观与训练动力学

文档	核心内容	关键论文
loss-landscape-modern-theory	EoS、Muon/SOAP优化器、模式连通性、多分形结构、Hessian谱分析	Ly & Gong 2025 (Nature Comm), Damian 2022, Jordan 2024, Vyas 2025

核心命题：

EoS 是 sharpness 自稳定化的隐式约束优化
Muon 通过 Newton-Schulz 正交化实现谱平坦化
Transformer 通过扩展对称性可达模式连通
Hessian 谱分析可达基础模型规模

1.3 归纳偏置与表示学习

文档	核心内容	关键论文
inductive-bias-representation-theory	几何深度学习、Neural Collapse、神经 Hilbert Ladder、对称性原理	Bronstein 2021, Papyan 2020, Chen 2024 (JMLR), Kondor 2025 (PNAS)

核心命题：

几何深度学习 = 用对称群统一架构 (Erlangen 纲领)
Neural Collapse = 训练末态的全局最优
Neural Hilbert Ladder = 第一个统一逼近+泛化+深度分离+特征学习的函数空间
软归纳偏置 + 灵活假设空间是现代基础模型的核心

二、关键定理速查表

主题	定理	数学描述
双下降	Bach 2024	$R (\hat{β}_{m}) - R^{*} \sim B (ψ, γ, Σ) + V (ψ, γ, σ^{2})$
MNI 良性	Tsigler & Bartlett 2020	$R - R^{} = ∥ Π_{noise} β^{} ∥^{2} c_{1} + σ^{2} \sum_{k > r} 1/ λ_{k} c_{2}$
Attention 良性	Magen 2025	$R_{test} = O (σ_{ξ}^{2} d / (n SNR^{2})) \to 0$
µP 特征学习	Chen 2025	$Δ_{T}$ 与初始特征偏离 $Θ (1)$ ，特征线性独立
复杂度谱	Feder 2025	Complexity = Vol( ${θ : ρ (θ, θ^{*}) < ϵ}$ )
EoS Self-Stab	Damian 2022	$\nabla S (θ) = \nabla^{3} L (θ) (u, u)$
EoS 隐式约束	Damian 2022	$min L$ s.t. $S \leq 2/ η$
Newton-Schulz	Muon	$X_{k + 1} = a X + b X X^{⊤} X + c (X X^{⊤})^{2} X$
Muon LR*	Nguyen 2026	$η_{Muon}^{*} = \frac{2}{λ _{m a x} ( H )} \cdot \frac{\sum σ _{i} ( G )}{m}$
Neural Collapse	Papyan 2020	NC = UFM 全局最优 $\Rightarrow$ Simplex ETF
Neural Hilbert	Chen 2024	L 层 NN ↔ L 级 RKHS 链
Erlangen 纲领	Bronstein 2021	5 种几何对应 5 种主流架构
软偏置统一	Wilson 2025	PAC-Bayes + 可数假设解释所有”反常”现象

三、学习路径建议

3.1 入门路径（已有基本ML/DL背景）

第1周：阅读 generalization-theory-modern 整体框架
第2周：阅读 loss-landscape-modern-theory 的第1-3节（几何、EoS、Muon）
第3周：阅读 inductive-bias-representation-theory 的第1-4节（GDL、Neural Collapse、IB、MI）
第4周：跨专题整合理解（用专题索引+本索引）

3.2 进阶路径（理论导向）

NTK视角：neural-tangent-kernel-theory-deep-dive → 3-过参数化
优化理论：adaptive-optimizer-theory → loss-landscape-modern-theory
表示学习：information-bottleneck → inductive-bias-representation-theory
对称性：geometric-deep-learning-grids-groups-graphs → 九、对称性与守恒律

3.3 研究路径

前沿论文精读：
- Wilson 2025 ICML Spotlight (立场论文)
- Ly & Gong 2025 Nature Communications (多分形)
- Chen 2024 JMLR (NHL函数空间)
- Kondor 2025 PNAS (硬等变)
核心实验复现：
- Neural Collapse 训练到TPT验证
- Muon vs AdamW 速度对比
- 双下降曲线数值模拟

四、跨专题连接

4.1 与数学基础

数学概念	应用方向	对应文档
矩阵分解	损失景观分析	loss-landscape-modern-theory
谱理论	Hessian分析、双下降	generalization-theory-modern
RKHS	Neural Hilbert Ladder	inductive-bias-representation-theory
群论	GDL等变网络	inductive-bias-representation-theory
优化理论	EoS、Muon	loss-landscape-modern-theory

4.2 与架构专题

架构	对应理论	文档
Transformer	平均场、注意力=核方法	transformer-mean-field-dynamics, attention-as-kernel-methods
CNN	平移等变	inductive-bias-representation-theory
GNN	置换等变	inductive-bias-representation-theory
Mamba/SSM	选择性归纳偏置	hybrid-ssm-transformer
ResNet	损失景观连通性	resnet-deep-residual-learning

4.3 与训练优化

优化主题	理论支撑	文档
学习率调度	EoS相变	training-dynamics-edge-of-stability
优化器选择	Muon vs AdamW vs SOAP	loss-landscape-modern-theory
正则化	隐式偏置、谱条件	generalization-theory-modern
早停	神经坍缩	neural-collapse-deep-resnet-transformer-theory

五、关键论文清单（推荐阅读顺序）

5.1 立场/综述论文

Wilson 2025 (ICML Spotlight) “Deep Learning is Not So Mysterious or Different” — 立场论文：PAC-Bayes + 软偏置统一解释
Bronstein et al. 2021 “Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges” — GDL统一框架
Ly & Gong 2025 (Nature Communications) “Optimization on multifractal loss landscapes” — 多分形景观理论

5.2 泛化理论核心

Bach 2024 (SIMODS) “High-Dimensional Analysis of Double Descent” — 双下降精确渐近
Magen et al. 2025 (NeurIPS) “Benign Overfitting in Single-Head Attention” — Transformer中的良性过拟合
Chen, Yang, Zhao, Gu 2025 (ICML) “Global Convergence and Rich Feature Learning in L-Layer µP” — µP下同时证明两者

5.3 损失景观核心

Damian, Nichani, Lee 2022 (NeurIPS) “Self-Stabilization at Edge of Stability” — EoS的数学解释
Jordan 2024 (ICLR 2025) “Muon: An optimizer for hidden layers” — Muon优化器
Vyas et al. 2025 (ICLR) “SOAP: Improving and Stabilizing Shampoo using Adam” — SOAP优化器
Theus et al. 2025 (NeurIPS Oral) “Generalized Linear Mode Connectivity for Transformers” — Transformer模式连通

5.4 表示学习核心

Papyan, Han, Donoho 2020 (PNAS) “Prevalence of Neural Collapse” — NC1-NC4原始论文
Chen 2024 (JMLR) “Neural Hilbert Ladders: Multi-Layer Neural Networks in Function Space” — NHL函数空间
Kondor 2025 (PNAS) “The principles behind equivariant neural networks” — 等变网络的物理原理
Perin & Deny 2025 (JMLR) “On the Ability of Deep Networks to Learn Symmetries from Data” — 网络学习对称性

六、关键洞察总结

6.1 现代泛化理论的统一叙事

2024-2026 的核心叙事是统一而非颠覆：

双下降 → 随机矩阵/贝叶斯/信息论给出与实证吻合的精确渐近刻画

良性过拟合 → 从线性 → ReLU → Transformer 层层推进，回归”谱条件+隐式偏置”

过参数化 → NTK↔Lazy↔Rich↔µP 谱系由 Tensor Programs 与 minimax 锐界工作连接，最终被”架构复杂度谱”的信息论视角所统一

6.2 损失景观的核心洞察

EoS 已从现象升级为理论：Damian 2022 的 self-stabilization + Liu 2025 的 minimalist 证明构成完整数学框架

Muon 已成为 2024-2026 LLM 训练事实新标准：相比 AdamW 提速 1.3-1.5×，Moonlight 16B 模型用 Muon 训练

模式连通性在 Transformer 中成立：只需扩展对称性到正交/可逆映射

6.3 归纳偏置的统一视角

软归纳偏置 + 灵活假设空间 + 特征学习是统一理解良性过拟合、双下降、Neural Collapse 等现象的关键

硬偏置 vs 软偏置的选择：物理/化学任务硬等变；通用任务软偏好

架构偏置不是唯一来源：初始化和训练算法也提供软偏好

6.4 三大主题的内在联系

软归纳偏置 (Wilson 2025)
       ↓
灵活的假设空间
       ↓
+ 特征学习 (Lazy → Rich 谱)
       ↓
+ 模式连通性 (loss landscape)
       ↓
= 现代基础模型成功的核心机制

七、实践推荐（2026 最佳实践）

7.1 LLM 预训练默认配置

Muon (hidden layers) + AdamW (embeddings, lm_head, scalars)，5 步 Newton-Schulz bfloat16 正交化，peak LR 设到刚好进入 EoS，cosine decay 到峰值 10%

7.2 训练监控的关键量

量	含义	期望趋势
$λ_{m a x} (\nabla^{2} L)$	sharpness	单调上升到 $2/ η$ 后震荡
$λ_{m a x} (H) \cdot η$	无量纲sharpness	训练中趋向于 2
梯度协方差条件数	各向异性程度	决定 Muon 加速比

7.3 模型选择决策树

任务	推荐架构	理由
短序列 NLP（<2K）	Transformer	因果掩码 + attention 足够
长序列（>10K）	Mamba/RWKV/xLSTM	线性复杂度，长程记忆
物理/化学	E(3)-GNN	物理对称性硬编码
通用视觉	ViT	灵活 + 软偏置

7.4 架构偏置选型

数据	强对称性硬偏置	弱偏置+灵活假设空间
图像	CNN (平移等变)	ViT (位置编码+attention)
序列	LSTM/SSM (时序)	Transformer (置换不变)
图	GNN (置换等变)	Graph Transformer (灵活)
分子	E(3)-GNN	Transformer + 等变正则

八、未解问题与未来方向

8.1 理论层面

特征学习的有限宽度理论：NTK 和 NHL 都局限于 mean-field 极限
Mamba/RWKV 的逼近论：为什么输入选择性能让 SSM 匹敌 Transformer？
Neural Collapse 的反向问题：给定对称性数据分布，NC 是否是唯一吸引子？
信息瓶颈与泛化的精确关系：广义 IB 能否解释所有 DNN 现象？
互信息最大化的现代替代：Barlow Twins / VICReg 与 IB 的精确数学关系

8.2 实践层面

Muon 在 RL/生成模型中的应用
EoS 训练在大模型中的可预测性
Neural Collapse 在多模态/小样本场景的扩展
模式连通性用于模型融合的失败模式

九、与现有wiki内容的连接

9.1 相关专题索引

9.2 数学基础

9.3 机器学习基础

9.4 优化与训练

9.5 架构专题

十、参考文献汇总

现代泛化理论

Wilson 2025 ICML Spotlight (立场论文)
Bach 2024 SIMODS (双下降精确渐近)
Magen et al. 2025 NeurIPS (Transformer中的良性过拟合)
Xu & Chen 2025 ICML (长尾数据中的隐式特征)
Tang et al. 2024 arXiv (OOD良性过拟合)
Wang, Zhang, Arora 2024 ICML (对抗训练下的良性过拟合)
Park et al. 2025 arXiv (经典视角)
Chen et al. 2025 ICML (L层µP下全局收敛+特征学习)
Yang et al. 2024 ICLR (Tensor Programs VI)
Kumar et al. 2024 ICLR (Grokking = Lazy→Rich)
Chou et al. 2025 ICML (Lazy/Rich二分超越)
Dayi & Chen 2025 COLT (LoRA介于Lazy与Feature)
Feder et al. 2025 arXiv (信息论统一框架)
Polson & Sokolov 2025 (贝叶斯双下降)
Olmin & Lindsten 2024 (Epoch-wise双下降)
Erba et al. 2025 (二次网络的精确渐近)
Curth et al. 2023 NeurIPS (参数计数反思)
Tsigler & Bartlett 2020 PNAS (MNI良性过拟合)
Yang & Li 2024/25 (锐泛化界)

损失景观与训练动力学

Ly & Gong 2025 Nature Communications (多分形)
Theus et al. 2025 NeurIPS Oral (GLMC for Transformers)
Zhan et al. 2025 (置换不变性在LMC中的理论分析)
Di Carlo et al. 2026 ICLR (Entropic confinement)
Damian et al. 2022 NeurIPS / COLT 2023 (Self-Stabilization)
Liu et al. 2025 ICML (EoS极简证明)
Kalra & Barkeshli 2023 NeurIPS (训练相图)
Kalra et al. 2023 (Sharpness Dynamics + Chaos)
Jordan 2024 / ICLR 2025 (Muon优化器)
Vyas et al. 2025 ICLR (SOAP)
Nguyen et al. 2026 (Muon谱平坦化)
Abreu et al. 2025 (Full Gauss-Newton)
Petrov et al. 2025 (完整Transformer Hessian)
Granziol 2026 (基础模型规模Hessian谱)
Tang et al. 2025 ICML (Hessian块对角结构)
Dong et al. 2025 (Hessian结构的量化)
Lu, Wang, Liu 2025 (SOAP的Gradient Whitening)
Ainsworth et al. 2023 ICLR (Git Re-Basin)
Andriushchenko & Flammarion 2022 (SAM的真实作用)
Wang & Roberts 2025 (训练不稳定性诱导flatness)
Kim & Oh 2026 ICLR (Muon收敛性)

归纳偏置与表示学习

Bronstein et al. 2021 (GDL统一框架)
Kondor 2025 PNAS (等变网络的物理原理)
Papyan et al. 2020 PNAS (Neural Collapse)
Súkeník et al. 2023 NeurIPS (Deep UFM下的NC)
Hui et al. 2022 (NC的局限)
Tishby & Zaslavsky 2015 (IB理论)
Saxe et al. 2018 ICLR (IB理论的修正)
Westphal et al. 2025 (广义IB)
Hjelm et al. 2019 ICLR (Deep InfoMax)
Tschannen et al. 2020 ICML (MI最大化的局限)
Chen 2024 JMLR (Neural Hilbert Ladder)
Kidger & Lyons 2020 COLT (深度窄网络通用逼近)
Lu et al. 2017 NeurIPS (宽度视角的表达力)
Gu & Dao 2024 (Mamba)
Wilson 2025 ICML (软归纳偏置)
Perin & Deny 2025 JMLR (网络学习对称性)
Bencomo et al. 2025 (架构与初始权重的偏置)
Zhao, Walters, Yu 2025 (参数空间对称性)
Andersdotter et al. 2025 JMLR (等变流形Neural ODE)

最后更新：2026-06-21
专题范围：2024-2026年深度学习理论前沿

Metaphor

探索

深度学习理论基础专题索引（2026）

专题概述

一、核心文档导航

1.1 现代泛化理论

1.2 损失景观与训练动力学

1.3 归纳偏置与表示学习

二、关键定理速查表

三、学习路径建议

3.1 入门路径（已有基本ML/DL背景）

3.2 进阶路径（理论导向）

3.3 研究路径

四、跨专题连接

4.1 与数学基础

4.2 与架构专题

4.3 与训练优化

五、关键论文清单（推荐阅读顺序）

5.1 立场/综述论文

5.2 泛化理论核心

5.3 损失景观核心

5.4 表示学习核心

六、关键洞察总结

6.1 现代泛化理论的统一叙事

6.2 损失景观的核心洞察

6.3 归纳偏置的统一视角

6.4 三大主题的内在联系

七、实践推荐（2026 最佳实践）

7.1 LLM 预训练默认配置

7.2 训练监控的关键量

7.3 模型选择决策树

7.4 架构偏置选型

八、未解问题与未来方向

8.1 理论层面

8.2 实践层面

九、与现有wiki内容的连接

9.1 相关专题索引

9.2 数学基础

9.3 机器学习基础

9.4 优化与训练

9.5 架构专题

十、参考文献汇总

现代泛化理论

损失景观与训练动力学

归纳偏置与表示学习

关系图谱

目录

反向链接