专题介绍

深度学习理论专题系统整理深度学习领域的数学理论进展,包括注意力机制的最优传输理论、LLM泛化界、表示学习理论等前沿方向。


内容导航

一、注意力机制理论

文档描述
transformer-hessian-full-analysisTransformer Hessian完整分析
attention-optimal-transport-theorySelf-Attention与最优传输理论
transformer-particle-system-modelTransformer的粒子系统模型
attention-optimal-transport-theory注意力变体的OT视角

核心内容

  • LayerNorm和FFN的Hessian分析
  • 曲率间隙现象与解决方案
  • 注意力作为半松弛熵最优传输问题
文档描述
attention-optimal-transport-theorySelf-Attention与最优传输理论
transformer-particle-system-modelTransformer的粒子系统模型
attention-optimal-transport-theory注意力变体的OT视角

核心内容

  • 注意力作为半松弛熵最优传输问题
  • Sinkhorn迭代与注意力计算的对应
  • Transformer的Mean-Field动态
  • Kuramoto振子模型与Transformer的联系

二、LLM泛化理论

文档描述
llm-compression-generalization-boundsLLM压缩泛化界理论
mu-parametrization-rich-feature-learningμ参数化与Rich Feature Learning
deep-learning-theory-2025-2026-frontiers综合理论进展

核心内容

  • Token-as-Data-Points分析框架
  • 非平凡PAC-Bayes界
  • μ参数化:全局收敛+特征学习兼得
  • Compute-Optimal Scaling与泛化
  • 长度外推理论

三、表示学习理论

文档描述
contexture-theory-foundation-modelsContexture理论与Foundation Model
features-at-convergence-theoremFeatures at Convergence定理
deep-learning-theory-2025-2026-frontiers综合理论进展

核心内容

  • 六条对齐关系
  • 表示对齐与Universality
  • Features at Convergence:不依赖可辨识性的新框架
  • 对比学习泛化界

四、Grokking与训练动态

文档描述
grokking-mechanism-theoryGrokking机制理论

核心内容

  • Margin-Based解释延迟泛化
  • Fourier特征与学习速度
  • 彩票假设的联系
  • 归纳偏置演化
文档描述
contexture-theory-foundation-modelsContexture理论与Foundation Model
deep-learning-theory-2025-2026-frontiers综合理论进展

核心内容

  • 六条对齐关系
  • 表示对齐与Universality
  • 对比学习泛化界

五、相关理论方向

文档描述相关度
transformer-circuit-complexity-theoryTransformer电路复杂度⭐⭐⭐
contrastive-learning-theory对比学习理论⭐⭐⭐
generalization-theory-2025-advances泛化理论进展⭐⭐⭐
information-geometry-foundations信息几何基础⭐⭐
rkhs-kernel-theory-mlRKHS核方法理论⭐⭐

学习路径建议

入门路径(理论基础)

1. 线性代数复习
   ↓
2. 最优传输基础 (Peyré & Cuturi)
   ↓
3. Attention与OT理论 ← [[attention-optimal-transport-theory]]
   ↓
4. LLM泛化界 ← [[llm-compression-generalization-bounds]]

进阶路径(深度理论)

1. 入门路径
   ↓
2. Mean-Field动态 ← [[transformer-particle-system-model]]
   ↓
3. Contexture理论 ← [[contexture-theory-foundation-models]]
   ↓
4. 综合进展 ← [[deep-learning-theory-2025-2026-frontiers]]

研究路径(前沿专题)

1. 电路复杂度 ← [[transformer-circuit-complexity-theory]]
   ↓
2. 表示学习 ← [[contexture-theory-foundation-models]]
   ↓
3. 泛化理论 ← [[generalization-theory-2025-advances]]
   ↓
4. 最新进展 ← [[deep-learning-theory-2025-2026-frontiers]]

核心公式速查

最优传输注意力

PAC-Bayes泛化界

Token-as-Data-Points界

Mean-Field方程


工具与库推荐

用途
POTPython Optimal Transport库
GeomLoss几何学习的OT
ot轻量级OT实现
scipy优化与统计
# 基本OT使用示例
import ot
 
# 计算Wasserstein距离
a = np.array([0.5, 0.5])  # 源分布
b = np.array([0.5, 0.5])  # 目标分布
M = np.array([[0, 1], [1, 0]])  # 成本矩阵
 
W = ot.emd2(a, b, M)  # Wasserstein距离

论文推荐

必读论文

  1. Geshkovski et al. (2025). A mathematical perspective on transformers. AMS Bulletin.
  2. Lotfi et al. (2024). Non-vacuous generalization bounds for LLMs. ICML.
  3. Finzi et al. (2025). Compute-optimal LLMs provably generalize better. ICLR.
  4. Zhai et al. (2024). Contexture: A theory of representation learning. arXiv.
  5. Yang et al. (2025). μ-parameterization and Rich Feature Learning. arXiv:2503.09565.

进阶论文

  1. Peyré & Cuturi (2019). Computational Optimal Transport. FnTML.
  2. Huang et al. (2025). Length generalization framework. ICLR.
  3. Hieu et al. (2024). Contrastive learning bounds. ICML.
  4. Liu et al. (2026). A Theory of Grokking. arXiv:2602.16849.

前沿论文

  1. OpenReview 2025. Self-Attention as Semi-Relaxed EOT.
  2. van Rossem & Saxe (2024). Representation Universality.
  3. Yang et al. (2025). Features at Convergence. arXiv:2507.05644.
  4. arXiv:2510.16927. Transformer Hessian Analysis: Full Analysis of Layer Norm and FFN.

实践项目建议

项目1:实现Sinkhorn Attention

  • 实现标准Attention与Sinkhorn Attention对比
  • 分析不同温度下的注意力模式
  • 在下游任务上评估效果

项目2:分析表示对齐

  • 提取多个模型的中间表示
  • 计算表示相似性(RSA)
  • 可视化表示几何

项目3:验证泛化界

  • 在不同规模模型上验证理论预测
  • 比较Token-as-Data-Points与传统界
  • 分析计算量与泛化的关系

与其他专题的关联

相关专题关联内容
transformer-length-generalization长度外推实践
contrastive-learning-theory对比学习理论
generalization-theory-2025-advances泛化理论进展
linear-algebra-dl深度学习线性代数

最后更新:2026-05-18