专题概述

本专题整合2024-2026年深度学习理论的三大核心主题,形成现代深度学习理论的统一视角

深度学习理论基础专题
├── 一、现代泛化理论
│   ├── 双下降 (Double Descent) 精确渐近
│   ├── 良性过拟合 (Benign Overfitting) 
│   └── 过参数化:NTK / Lazy / Rich / µP

├── 二、损失景观与训练动力学
│   ├── Edge of Stability 完整理论
│   ├── Muon / SOAP 优化器
│   ├── 模式连通性 (Mode Connectivity)
│   └── Hessian 谱分析

└── 三、归纳偏置与表示学习
    ├── 几何深度学习 Erlangen 纲领
    ├── Neural Collapse 训练末态
    ├── 神经 Hilbert Ladder 函数空间
    └── 对称性原理与等变网络

一、核心文档导航

1.1 现代泛化理论

文档核心内容关键论文
generalization-theory-modern双下降、良性过拟合、过参数化的现代理论整合Wilson 2025, Bach 2024, Magen 2025, Chen 2025

核心命题

  • 双下降 = 偏差-方差分解 + 有效自由度
  • 良性过拟合 = 谱条件 + 隐式偏置
  • 过参数化 = NTK ↔ Lazy ↔ Rich ↔ µP 的连续谱

1.2 损失景观与训练动力学

文档核心内容关键论文
loss-landscape-modern-theoryEoS、Muon/SOAP优化器、模式连通性、多分形结构、Hessian谱分析Ly & Gong 2025 (Nature Comm), Damian 2022, Jordan 2024, Vyas 2025

核心命题

  • EoS 是 sharpness 自稳定化的隐式约束优化
  • Muon 通过 Newton-Schulz 正交化实现谱平坦化
  • Transformer 通过扩展对称性可达模式连通
  • Hessian 谱分析可达基础模型规模

1.3 归纳偏置与表示学习

文档核心内容关键论文
inductive-bias-representation-theory几何深度学习、Neural Collapse、神经 Hilbert Ladder、对称性原理Bronstein 2021, Papyan 2020, Chen 2024 (JMLR), Kondor 2025 (PNAS)

核心命题

  • 几何深度学习 = 用对称群统一架构 (Erlangen 纲领)
  • Neural Collapse = 训练末态的全局最优
  • Neural Hilbert Ladder = 第一个统一逼近+泛化+深度分离+特征学习的函数空间
  • 软归纳偏置 + 灵活假设空间是现代基础模型的核心

二、关键定理速查表

主题定理数学描述
双下降Bach 2024
MNI 良性Tsigler & Bartlett 2020
Attention 良性Magen 2025
µP 特征学习Chen 2025 与初始特征偏离 ,特征线性独立
复杂度谱Feder 2025Complexity = Vol()
EoS Self-StabDamian 2022
EoS 隐式约束Damian 2022 s.t.
Newton-SchulzMuon
Muon LR*Nguyen 2026
Neural CollapsePapyan 2020NC = UFM 全局最优 Simplex ETF
Neural HilbertChen 2024L 层 NN ↔ L 级 RKHS 链
Erlangen 纲领Bronstein 20215 种几何对应 5 种主流架构
软偏置统一Wilson 2025PAC-Bayes + 可数假设解释所有”反常”现象

三、学习路径建议

3.1 入门路径(已有基本ML/DL背景)

  1. 第1周:阅读 generalization-theory-modern 整体框架
  2. 第2周:阅读 loss-landscape-modern-theory 的第1-3节(几何、EoS、Muon)
  3. 第3周:阅读 inductive-bias-representation-theory 的第1-4节(GDL、Neural Collapse、IB、MI)
  4. 第4周:跨专题整合理解(用专题索引+本索引)

3.2 进阶路径(理论导向)

  1. NTK视角neural-tangent-kernel-theory-deep-dive3-过参数化
  2. 优化理论adaptive-optimizer-theoryloss-landscape-modern-theory
  3. 表示学习information-bottleneckinductive-bias-representation-theory
  4. 对称性geometric-deep-learning-grids-groups-graphs九、对称性与守恒律

3.3 研究路径

  1. 前沿论文精读
    • Wilson 2025 ICML Spotlight (立场论文)
    • Ly & Gong 2025 Nature Communications (多分形)
    • Chen 2024 JMLR (NHL函数空间)
    • Kondor 2025 PNAS (硬等变)
  2. 核心实验复现
    • Neural Collapse 训练到TPT验证
    • Muon vs AdamW 速度对比
    • 双下降曲线数值模拟

四、跨专题连接

4.1 与数学基础

数学概念应用方向对应文档
矩阵分解损失景观分析loss-landscape-modern-theory
谱理论Hessian分析、双下降generalization-theory-modern
RKHSNeural Hilbert Ladderinductive-bias-representation-theory
群论GDL等变网络inductive-bias-representation-theory
优化理论EoS、Muonloss-landscape-modern-theory

4.2 与架构专题

架构对应理论文档
Transformer平均场、注意力=核方法transformer-mean-field-dynamics, attention-as-kernel-methods
CNN平移等变inductive-bias-representation-theory
GNN置换等变inductive-bias-representation-theory
Mamba/SSM选择性归纳偏置hybrid-ssm-transformer
ResNet损失景观连通性resnet-deep-residual-learning

4.3 与训练优化

优化主题理论支撑文档
学习率调度EoS相变training-dynamics-edge-of-stability
优化器选择Muon vs AdamW vs SOAPloss-landscape-modern-theory
正则化隐式偏置、谱条件generalization-theory-modern
早停神经坍缩neural-collapse-deep-resnet-transformer-theory

五、关键论文清单(推荐阅读顺序)

5.1 立场/综述论文

  1. Wilson 2025 (ICML Spotlight) “Deep Learning is Not So Mysterious or Different” — 立场论文:PAC-Bayes + 软偏置统一解释
  2. Bronstein et al. 2021 “Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges” — GDL统一框架
  3. Ly & Gong 2025 (Nature Communications) “Optimization on multifractal loss landscapes” — 多分形景观理论

5.2 泛化理论核心

  1. Bach 2024 (SIMODS) “High-Dimensional Analysis of Double Descent” — 双下降精确渐近
  2. Magen et al. 2025 (NeurIPS) “Benign Overfitting in Single-Head Attention” — Transformer中的良性过拟合
  3. Chen, Yang, Zhao, Gu 2025 (ICML) “Global Convergence and Rich Feature Learning in L-Layer µP” — µP下同时证明两者

5.3 损失景观核心

  1. Damian, Nichani, Lee 2022 (NeurIPS) “Self-Stabilization at Edge of Stability” — EoS的数学解释
  2. Jordan 2024 (ICLR 2025) “Muon: An optimizer for hidden layers” — Muon优化器
  3. Vyas et al. 2025 (ICLR) “SOAP: Improving and Stabilizing Shampoo using Adam” — SOAP优化器
  4. Theus et al. 2025 (NeurIPS Oral) “Generalized Linear Mode Connectivity for Transformers” — Transformer模式连通

5.4 表示学习核心

  1. Papyan, Han, Donoho 2020 (PNAS) “Prevalence of Neural Collapse” — NC1-NC4原始论文
  2. Chen 2024 (JMLR) “Neural Hilbert Ladders: Multi-Layer Neural Networks in Function Space” — NHL函数空间
  3. Kondor 2025 (PNAS) “The principles behind equivariant neural networks” — 等变网络的物理原理
  4. Perin & Deny 2025 (JMLR) “On the Ability of Deep Networks to Learn Symmetries from Data” — 网络学习对称性

六、关键洞察总结

6.1 现代泛化理论的统一叙事

2024-2026 的核心叙事是统一而非颠覆

  • 双下降 → 随机矩阵/贝叶斯/信息论给出与实证吻合的精确渐近刻画
  • 良性过拟合 → 从线性 → ReLU → Transformer 层层推进,回归”谱条件+隐式偏置”
  • 过参数化 → NTK↔Lazy↔Rich↔µP 谱系由 Tensor Programs 与 minimax 锐界工作连接,最终被”架构复杂度谱”的信息论视角所统一

6.2 损失景观的核心洞察

EoS 已从现象升级为理论:Damian 2022 的 self-stabilization + Liu 2025 的 minimalist 证明构成完整数学框架

Muon 已成为 2024-2026 LLM 训练事实新标准:相比 AdamW 提速 1.3-1.5×,Moonlight 16B 模型用 Muon 训练

模式连通性在 Transformer 中成立:只需扩展对称性到正交/可逆映射

6.3 归纳偏置的统一视角

软归纳偏置 + 灵活假设空间 + 特征学习是统一理解良性过拟合、双下降、Neural Collapse 等现象的关键

硬偏置 vs 软偏置的选择:物理/化学任务硬等变;通用任务软偏好

架构偏置不是唯一来源:初始化和训练算法也提供软偏好

6.4 三大主题的内在联系

软归纳偏置 (Wilson 2025)
       ↓
灵活的假设空间
       ↓
+ 特征学习 (Lazy → Rich 谱)
       ↓
+ 模式连通性 (loss landscape)
       ↓
= 现代基础模型成功的核心机制

七、实践推荐(2026 最佳实践)

7.1 LLM 预训练默认配置

Muon (hidden layers) + AdamW (embeddings, lm_head, scalars),5 步 Newton-Schulz bfloat16 正交化,peak LR 设到刚好进入 EoS,cosine decay 到峰值 10%

7.2 训练监控的关键量

含义期望趋势
sharpness单调上升到 后震荡
无量纲sharpness训练中趋向于 2
梯度协方差条件数各向异性程度决定 Muon 加速比

7.3 模型选择决策树

任务推荐架构理由
短序列 NLP(<2K)Transformer因果掩码 + attention 足够
长序列(>10K)Mamba/RWKV/xLSTM线性复杂度,长程记忆
物理/化学E(3)-GNN物理对称性硬编码
通用视觉ViT灵活 + 软偏置

7.4 架构偏置选型

数据强对称性硬偏置弱偏置+灵活假设空间
图像CNN (平移等变)ViT (位置编码+attention)
序列LSTM/SSM (时序)Transformer (置换不变)
GNN (置换等变)Graph Transformer (灵活)
分子E(3)-GNNTransformer + 等变正则

八、未解问题与未来方向

8.1 理论层面

  1. 特征学习的有限宽度理论:NTK 和 NHL 都局限于 mean-field 极限
  2. Mamba/RWKV 的逼近论:为什么输入选择性能让 SSM 匹敌 Transformer?
  3. Neural Collapse 的反向问题:给定对称性数据分布,NC 是否是唯一吸引子?
  4. 信息瓶颈与泛化的精确关系:广义 IB 能否解释所有 DNN 现象?
  5. 互信息最大化的现代替代:Barlow Twins / VICReg 与 IB 的精确数学关系

8.2 实践层面

  1. Muon 在 RL/生成模型中的应用
  2. EoS 训练在大模型中的可预测性
  3. Neural Collapse 在多模态/小样本场景的扩展
  4. 模式连通性用于模型融合的失败模式

九、与现有wiki内容的连接

9.1 相关专题索引

9.2 数学基础

9.3 机器学习基础

9.4 优化与训练

9.5 架构专题


十、参考文献汇总

现代泛化理论

  • Wilson 2025 ICML Spotlight (立场论文)
  • Bach 2024 SIMODS (双下降精确渐近)
  • Magen et al. 2025 NeurIPS (Transformer中的良性过拟合)
  • Xu & Chen 2025 ICML (长尾数据中的隐式特征)
  • Tang et al. 2024 arXiv (OOD良性过拟合)
  • Wang, Zhang, Arora 2024 ICML (对抗训练下的良性过拟合)
  • Park et al. 2025 arXiv (经典视角)
  • Chen et al. 2025 ICML (L层µP下全局收敛+特征学习)
  • Yang et al. 2024 ICLR (Tensor Programs VI)
  • Kumar et al. 2024 ICLR (Grokking = Lazy→Rich)
  • Chou et al. 2025 ICML (Lazy/Rich二分超越)
  • Dayi & Chen 2025 COLT (LoRA介于Lazy与Feature)
  • Feder et al. 2025 arXiv (信息论统一框架)
  • Polson & Sokolov 2025 (贝叶斯双下降)
  • Olmin & Lindsten 2024 (Epoch-wise双下降)
  • Erba et al. 2025 (二次网络的精确渐近)
  • Curth et al. 2023 NeurIPS (参数计数反思)
  • Tsigler & Bartlett 2020 PNAS (MNI良性过拟合)
  • Yang & Li 2024/25 (锐泛化界)

损失景观与训练动力学

  • Ly & Gong 2025 Nature Communications (多分形)
  • Theus et al. 2025 NeurIPS Oral (GLMC for Transformers)
  • Zhan et al. 2025 (置换不变性在LMC中的理论分析)
  • Di Carlo et al. 2026 ICLR (Entropic confinement)
  • Damian et al. 2022 NeurIPS / COLT 2023 (Self-Stabilization)
  • Liu et al. 2025 ICML (EoS极简证明)
  • Kalra & Barkeshli 2023 NeurIPS (训练相图)
  • Kalra et al. 2023 (Sharpness Dynamics + Chaos)
  • Jordan 2024 / ICLR 2025 (Muon优化器)
  • Vyas et al. 2025 ICLR (SOAP)
  • Nguyen et al. 2026 (Muon谱平坦化)
  • Abreu et al. 2025 (Full Gauss-Newton)
  • Petrov et al. 2025 (完整Transformer Hessian)
  • Granziol 2026 (基础模型规模Hessian谱)
  • Tang et al. 2025 ICML (Hessian块对角结构)
  • Dong et al. 2025 (Hessian结构的量化)
  • Lu, Wang, Liu 2025 (SOAP的Gradient Whitening)
  • Ainsworth et al. 2023 ICLR (Git Re-Basin)
  • Andriushchenko & Flammarion 2022 (SAM的真实作用)
  • Wang & Roberts 2025 (训练不稳定性诱导flatness)
  • Kim & Oh 2026 ICLR (Muon收敛性)

归纳偏置与表示学习

  • Bronstein et al. 2021 (GDL统一框架)
  • Kondor 2025 PNAS (等变网络的物理原理)
  • Papyan et al. 2020 PNAS (Neural Collapse)
  • Súkeník et al. 2023 NeurIPS (Deep UFM下的NC)
  • Hui et al. 2022 (NC的局限)
  • Tishby & Zaslavsky 2015 (IB理论)
  • Saxe et al. 2018 ICLR (IB理论的修正)
  • Westphal et al. 2025 (广义IB)
  • Hjelm et al. 2019 ICLR (Deep InfoMax)
  • Tschannen et al. 2020 ICML (MI最大化的局限)
  • Chen 2024 JMLR (Neural Hilbert Ladder)
  • Kidger & Lyons 2020 COLT (深度窄网络通用逼近)
  • Lu et al. 2017 NeurIPS (宽度视角的表达力)
  • Gu & Dao 2024 (Mamba)
  • Wilson 2025 ICML (软归纳偏置)
  • Perin & Deny 2025 JMLR (网络学习对称性)
  • Bencomo et al. 2025 (架构与初始权重的偏置)
  • Zhao, Walters, Yu 2025 (参数空间对称性)
  • Andersdotter et al. 2025 JMLR (等变流形Neural ODE)

最后更新:2026-06-21
专题范围:2024-2026年深度学习理论前沿