概述

深度学习理论是理解现代神经网络训练与泛化行为的核心学科。本索引系统整理深度学习理论的六大前沿方向,提供学习路径建议、核心公式速查和论文推荐。


理论方向导航

1. 泛化理论 (Generalization Theory)

理解深度学习为何能在过参数化情况下仍具有良好的泛化能力。

核心问题

  • 为什么过参数化网络不会过拟合?
  • SGD/SAM等优化器的隐式正则化
  • 数据依赖的泛化界
  • Scaling Law与泛化的关系

核心文献

论文会议核心贡献
PAC-Bayes GeneralizationVarious基于后验的泛化界
Neural Tangent KernelNeurIPS 2019无限宽网络线性化
Edge of StabilityNeurIPS 2021梯度下降动力学
GrokkingICML 2023算法泛化与数据依赖

相关文档


2. 优化理论 (Optimization Theory)

深度神经网络的优化景观、收敛性和自适应方法。

核心问题

  • 损失景观的几何结构
  • 梯度下降的收敛条件
  • 自适应方法的理论基础
  • 批量大小与学习率的权衡

核心文献

论文会议核心贡献
Adaptive Optimizer ConvergenceICML 2024Adam/SGD收敛速率
Muon OptimizerICLR 2025谱平坦化理论基础
Gradient ClippingNeurIPS 2024梯度裁剪与收敛
Normalization and ConvergenceICML 2025归一化的理论分析

相关文档


3. 表示理论 (Representation Theory)

深度网络如何表示和转换信息。

核心问题

  • 表示学习的几何结构
  • 群不变性与等变性
  • 表示的组合性
  • 深度与宽度的表达能力

核心文献

论文会议核心贡献
Universal ApproximationVariousMLP表达能力
Expressive Power of TransformersICLR 2023Transformer表达能力
Information BottleneckICML 2015表示压缩理论
Contexture TheoryNature 2024上下文表示理论

相关文档


4. 架构理论 (Architecture Theory)

神经网络架构设计与理论分析的交叉。

核心问题

  • Transformer的动力学与收敛
  • 注意力机制的数学理解
  • 深度缩放的限制
  • 残差连接的作用

核心文献

论文会议核心贡献
Transformer DynamicsNeurIPS 2024平均场动力学
Attention as OTICML 2024最优传输视角
Post-LayerNormICLR 2026深度缩放理论
Curse of DepthNeurIPS 2025深度诅咒现象

相关文档


5. 采样与生成理论 (Sampling & Generation)

扩散模型、归一化流和GAN的理论基础。

核心问题

  • 扩散模型的收敛率
  • 最优传输与生成模型
  • Flow Matching的理论保证
  • 采样步数优化

核心文献

论文会议核心贡献
Diffusion O(d/T)NeurIPS 2024O(d/T)收敛率
Flow MatchingJMLR 2024统一生成框架
Score Matching TheoryICML 2023得分匹配理论
DPM-SolverICLR 2024快速采样

相关文档


6. 物理与几何交叉 (Physics & Geometry)

统计物理、几何与深度学习的深层联系。

核心问题

  • 神经网络的统计物理图像
  • 能量景观与相变
  • 信息瓶颈的热力学解释
  • 黎曼几何视角

核心文献

论文会议核心贡献
Loss Landscape TopologyAISTATS 2015损失景观拓扑
Neural ThermodynamicsPhysics Reports 2019统计物理框架
Mean Field TransformersAMS 2025平均场理论
Riemannian GeometryNeurIPS 2020黎曼几何深度学习

相关文档


学习路径建议

入门路径(3-6个月)

  1. 数学基础 (2-4周)

    • 线性代数:矩阵分析、特征值、奇异值分解
    • 概率论:随机变量、KL散度、信息论基础
    • 优化基础:梯度下降、牛顿法、KKT条件
  2. 核心理论 (4-8周)

    • 泛化理论:VC维度、Rademacher复杂度、PAC-Bayes
    • 优化理论:收敛速率、谱分析
    • 表示理论:通用逼近定理、NTK
  3. 高级专题 (4-8周)

    • Transformer理论
    • 扩散模型理论
    • 物理交叉视角

推荐资源

资源类型推荐
教科书”Understanding Deep Learning” (Simon Prince)
课程MIT 6.S191, Stanford CS224N
论文集NeurIPS/ICML/ICLR Theory Track
综述arXiv:2108.11476 (Deep Learning Theory)

核心公式速查

泛化理论

概念公式
VC界
Rademacher
PAC-Bayes$P(\mathcal{L}_\theta \leq \hat{\mathcal{L}} + \sqrt{\frac{KL(\theta
NTK

优化理论

概念公式
GD更新
Adam
收敛率(凸)
收敛率(非凸)

表示理论

概念公式
通用逼近$\sup_{x \in [0,1]^d}
信息瓶颈$\min_{p(t
NTK Gram

扩散模型

概念公式
前向过程$q(x_t
ELBO$\log p(x) \geq \mathbb{E}q\left[\log \frac{p(x{0:T})}{q(x_{1:T}
DDPM损失
Wasserstein

论文推荐

必读经典

  1. 泛化理论

    • Bartlett & Mendelson (2002): Rademacher and Gaussian complexities
    • McAllester (1999): PAC-Bayes framework
  2. 优化理论

    • Robbins & Monro (1951): Stochastic approximation
    • Bottou et al. (2018): Optimization for deep learning
  3. 表示理论

    • Hornik et al. (1989): Universal approximation
    • Jacot et al. (2018): Neural Tangent Kernel
  4. 扩散模型

    • Sohl-Dickstein et al. (2015): Deep unsupervised learning with diffusion
    • Ho et al. (2020): DDPM

前沿进展 (2024-2026)

方向论文年份
扩散收敛De Bortoli et al.2024
Transformer动力学Geshkovski et al.2025
深度诅咒Various2025
形式化可解释性Goldfeder et al.2026
Learning MechanicsSimon, Kunin et al.2026
Propagation FieldGu2026
Mamba-3Lahoti et al. (ICLR 2026 Best Paper)2026

工具与库

工具用途
JAX自动微分、函数式编程
PyTorch神经网络实现
Z3SMT求解器
Geometric Deep Learning几何深度学习框架
NetKet量子/统计物理神经网络

开放问题

  1. 深度学习为何泛化? 过参数化与泛化的精确关系
  2. 涌现能力理论 规模与能力的定量转变
  3. Transformer理论 注意力机制的完整数学理解
  4. 扩散模型 最优采样步数的理论下界
  5. 因果表示 因果推断与表示学习的统一
  6. Learning Mechanics 深度学习”力学”的完整公理化体系

7. 新架构与学习力学

7.1 Learning Mechanics(学习力学)

新增:2026年提出的深度学习新科学理论框架

Learning Mechanics将深度学习训练过程类比为”力学”系统,关注训练动力学而非端点行为。

核心思想

  • 类比牛顿力学:将参数演化视为受”力”(梯度)驱动的粒子运动
  • 概率分布演化:训练过程是参数分布的演化方程
  • 宏观可观测量:关注粗粒化的统计量(平均损失、梯度范数等)

五大研究支柱

  1. 可解的理想化设置:线性网络、无限宽度极限
  2. 可处理的极限:NTK、平均场理论
  3. 简单数学定律:Scaling Laws、Edge of Stability
  4. 超参数理论:学习率缩放、批量大小影响
  5. 普适行为:跨架构的共同规律

相关文档

7.2 Propagation Field(传播场)

新增:2026年提出的几何传播场理论

Propagation Field将神经网络重新解释为由隐藏态轨迹构成的场,关注内部表示的几何结构。

核心概念

  • 传播场
  • 路径敏感性
  • Jacobian保留度

关键发现

  • 端点等效≠轨迹等效:两个在测试集上等效的模型,其传播场几何可能差一个数量级
  • 传播场决定泛化:几何性质比端点更能预测泛化能力
  • Field-Aware训练:基于传播场指标的改进训练方法

相关文档

7.3 Mamba-3(新架构)

新增:ICLR 2026最佳论文

Mamba-3是选择性状态空间模型的最新进展,带来三大核心创新。

三大核心改进

  1. 更表达性的SSM离散化:输入依赖的状态转移矩阵
  2. 复数值状态更新:更好地建模振荡和相位信息
  3. 多输入多输出(MIMO):并行信息聚合,自然映射张量核心

性能提升

指标相比Mamba-2相比Gated DeltaNet
语言建模困惑度+0.6pp+1.8pp
状态效率-50%状态大小-

相关文档


索引更新历史


相关主题索引