概述
深度学习理论是理解现代神经网络训练与泛化行为的核心学科。本索引系统整理深度学习理论的六大前沿方向,提供学习路径建议、核心公式速查和论文推荐。
理论方向导航
1. 泛化理论 (Generalization Theory)
理解深度学习为何能在过参数化情况下仍具有良好的泛化能力。
核心问题
- 为什么过参数化网络不会过拟合?
- SGD/SAM等优化器的隐式正则化
- 数据依赖的泛化界
- Scaling Law与泛化的关系
核心文献
| 论文 | 会议 | 核心贡献 |
|---|---|---|
| PAC-Bayes Generalization | Various | 基于后验的泛化界 |
| Neural Tangent Kernel | NeurIPS 2019 | 无限宽网络线性化 |
| Edge of Stability | NeurIPS 2021 | 梯度下降动力学 |
| Grokking | ICML 2023 | 算法泛化与数据依赖 |
相关文档
2. 优化理论 (Optimization Theory)
深度神经网络的优化景观、收敛性和自适应方法。
核心问题
- 损失景观的几何结构
- 梯度下降的收敛条件
- 自适应方法的理论基础
- 批量大小与学习率的权衡
核心文献
| 论文 | 会议 | 核心贡献 |
|---|---|---|
| Adaptive Optimizer Convergence | ICML 2024 | Adam/SGD收敛速率 |
| Muon Optimizer | ICLR 2025 | 谱平坦化理论基础 |
| Gradient Clipping | NeurIPS 2024 | 梯度裁剪与收敛 |
| Normalization and Convergence | ICML 2025 | 归一化的理论分析 |
相关文档
3. 表示理论 (Representation Theory)
深度网络如何表示和转换信息。
核心问题
- 表示学习的几何结构
- 群不变性与等变性
- 表示的组合性
- 深度与宽度的表达能力
核心文献
| 论文 | 会议 | 核心贡献 |
|---|---|---|
| Universal Approximation | Various | MLP表达能力 |
| Expressive Power of Transformers | ICLR 2023 | Transformer表达能力 |
| Information Bottleneck | ICML 2015 | 表示压缩理论 |
| Contexture Theory | Nature 2024 | 上下文表示理论 |
相关文档
4. 架构理论 (Architecture Theory)
神经网络架构设计与理论分析的交叉。
核心问题
- Transformer的动力学与收敛
- 注意力机制的数学理解
- 深度缩放的限制
- 残差连接的作用
核心文献
| 论文 | 会议 | 核心贡献 |
|---|---|---|
| Transformer Dynamics | NeurIPS 2024 | 平均场动力学 |
| Attention as OT | ICML 2024 | 最优传输视角 |
| Post-LayerNorm | ICLR 2026 | 深度缩放理论 |
| Curse of Depth | NeurIPS 2025 | 深度诅咒现象 |
相关文档
5. 采样与生成理论 (Sampling & Generation)
扩散模型、归一化流和GAN的理论基础。
核心问题
- 扩散模型的收敛率
- 最优传输与生成模型
- Flow Matching的理论保证
- 采样步数优化
核心文献
| 论文 | 会议 | 核心贡献 |
|---|---|---|
| Diffusion O(d/T) | NeurIPS 2024 | O(d/T)收敛率 |
| Flow Matching | JMLR 2024 | 统一生成框架 |
| Score Matching Theory | ICML 2023 | 得分匹配理论 |
| DPM-Solver | ICLR 2024 | 快速采样 |
相关文档
6. 物理与几何交叉 (Physics & Geometry)
统计物理、几何与深度学习的深层联系。
核心问题
- 神经网络的统计物理图像
- 能量景观与相变
- 信息瓶颈的热力学解释
- 黎曼几何视角
核心文献
| 论文 | 会议 | 核心贡献 |
|---|---|---|
| Loss Landscape Topology | AISTATS 2015 | 损失景观拓扑 |
| Neural Thermodynamics | Physics Reports 2019 | 统计物理框架 |
| Mean Field Transformers | AMS 2025 | 平均场理论 |
| Riemannian Geometry | NeurIPS 2020 | 黎曼几何深度学习 |
相关文档
学习路径建议
入门路径(3-6个月)
-
数学基础 (2-4周)
- 线性代数:矩阵分析、特征值、奇异值分解
- 概率论:随机变量、KL散度、信息论基础
- 优化基础:梯度下降、牛顿法、KKT条件
-
核心理论 (4-8周)
- 泛化理论:VC维度、Rademacher复杂度、PAC-Bayes
- 优化理论:收敛速率、谱分析
- 表示理论:通用逼近定理、NTK
-
高级专题 (4-8周)
- Transformer理论
- 扩散模型理论
- 物理交叉视角
推荐资源
| 资源类型 | 推荐 |
|---|---|
| 教科书 | ”Understanding Deep Learning” (Simon Prince) |
| 课程 | MIT 6.S191, Stanford CS224N |
| 论文集 | NeurIPS/ICML/ICLR Theory Track |
| 综述 | arXiv:2108.11476 (Deep Learning Theory) |
核心公式速查
泛化理论
| 概念 | 公式 |
|---|---|
| VC界 | |
| Rademacher | |
| PAC-Bayes | $P(\mathcal{L}_\theta \leq \hat{\mathcal{L}} + \sqrt{\frac{KL(\theta |
| NTK |
优化理论
| 概念 | 公式 |
|---|---|
| GD更新 | |
| Adam | |
| 收敛率(凸) | |
| 收敛率(非凸) |
表示理论
| 概念 | 公式 |
|---|---|
| 通用逼近 | $\sup_{x \in [0,1]^d} |
| 信息瓶颈 | $\min_{p(t |
| NTK Gram |
扩散模型
| 概念 | 公式 |
|---|---|
| 前向过程 | $q(x_t |
| ELBO | $\log p(x) \geq \mathbb{E}q\left[\log \frac{p(x{0:T})}{q(x_{1:T} |
| DDPM损失 | |
| Wasserstein |
论文推荐
必读经典
-
泛化理论
- Bartlett & Mendelson (2002): Rademacher and Gaussian complexities
- McAllester (1999): PAC-Bayes framework
-
优化理论
- Robbins & Monro (1951): Stochastic approximation
- Bottou et al. (2018): Optimization for deep learning
-
表示理论
- Hornik et al. (1989): Universal approximation
- Jacot et al. (2018): Neural Tangent Kernel
-
扩散模型
- Sohl-Dickstein et al. (2015): Deep unsupervised learning with diffusion
- Ho et al. (2020): DDPM
前沿进展 (2024-2026)
| 方向 | 论文 | 年份 |
|---|---|---|
| 扩散收敛 | De Bortoli et al. | 2024 |
| Transformer动力学 | Geshkovski et al. | 2025 |
| 深度诅咒 | Various | 2025 |
| 形式化可解释性 | Goldfeder et al. | 2026 |
| Learning Mechanics | Simon, Kunin et al. | 2026 |
| Propagation Field | Gu | 2026 |
| Mamba-3 | Lahoti et al. (ICLR 2026 Best Paper) | 2026 |
工具与库
| 工具 | 用途 |
|---|---|
| JAX | 自动微分、函数式编程 |
| PyTorch | 神经网络实现 |
| Z3 | SMT求解器 |
| Geometric Deep Learning | 几何深度学习框架 |
| NetKet | 量子/统计物理神经网络 |
开放问题
- 深度学习为何泛化? 过参数化与泛化的精确关系
- 涌现能力理论 规模与能力的定量转变
- Transformer理论 注意力机制的完整数学理解
- 扩散模型 最优采样步数的理论下界
- 因果表示 因果推断与表示学习的统一
- Learning Mechanics 深度学习”力学”的完整公理化体系
7. 新架构与学习力学
7.1 Learning Mechanics(学习力学)
新增:2026年提出的深度学习新科学理论框架
Learning Mechanics将深度学习训练过程类比为”力学”系统,关注训练动力学而非端点行为。
核心思想
- 类比牛顿力学:将参数演化视为受”力”(梯度)驱动的粒子运动
- 概率分布演化:训练过程是参数分布的演化方程
- 宏观可观测量:关注粗粒化的统计量(平均损失、梯度范数等)
五大研究支柱
- 可解的理想化设置:线性网络、无限宽度极限
- 可处理的极限:NTK、平均场理论
- 简单数学定律:Scaling Laws、Edge of Stability
- 超参数理论:学习率缩放、批量大小影响
- 普适行为:跨架构的共同规律
相关文档
7.2 Propagation Field(传播场)
新增:2026年提出的几何传播场理论
Propagation Field将神经网络重新解释为由隐藏态轨迹构成的场,关注内部表示的几何结构。
核心概念
- 传播场:
- 路径敏感性:
- Jacobian保留度:
关键发现
- 端点等效≠轨迹等效:两个在测试集上等效的模型,其传播场几何可能差一个数量级
- 传播场决定泛化:几何性质比端点更能预测泛化能力
- Field-Aware训练:基于传播场指标的改进训练方法
相关文档
7.3 Mamba-3(新架构)
新增:ICLR 2026最佳论文
Mamba-3是选择性状态空间模型的最新进展,带来三大核心创新。
三大核心改进
- 更表达性的SSM离散化:输入依赖的状态转移矩阵
- 复数值状态更新:更好地建模振荡和相位信息
- 多输入多输出(MIMO):并行信息聚合,自然映射张量核心
性能提升
| 指标 | 相比Mamba-2 | 相比Gated DeltaNet |
|---|---|---|
| 语言建模困惑度 | +0.6pp | +1.8pp |
| 状态效率 | -50%状态大小 | - |
相关文档
索引更新历史
- 2026-06-21: 添加Learning Mechanics、Propagation Field、Mamba-3文档
- 2026-06-21: 添加2025-2026深度学习理论新洞察专题(7个文档)
- 2026-06-20: 添加Transformer动力学、扩散收敛、神经热力学、形式化可解释性文档
- 2026-05-19: 更新权重空间学习、测试时计算Scaling
- 2026-05-17: 添加深度诅咒、Post-LayerNorm、NOBLE
- 2026-05-16: 添加注意力OT理论、粒子系统模型