专题介绍
深度学习理论专题系统整理深度学习领域的数学理论进展,包括注意力机制的最优传输理论、LLM泛化界、表示学习理论等前沿方向。
内容导航
一、注意力机制理论
核心内容:
- LayerNorm和FFN的Hessian分析
- 曲率间隙现象与解决方案
- 注意力作为半松弛熵最优传输问题
核心内容:
- 注意力作为半松弛熵最优传输问题
- Sinkhorn迭代与注意力计算的对应
- Transformer的Mean-Field动态
- Kuramoto振子模型与Transformer的联系
二、LLM泛化理论
核心内容:
- Token-as-Data-Points分析框架
- 非平凡PAC-Bayes界
- μ参数化:全局收敛+特征学习兼得
- Compute-Optimal Scaling与泛化
- 长度外推理论
三、表示学习理论
核心内容:
- 六条对齐关系
- 表示对齐与Universality
- Features at Convergence:不依赖可辨识性的新框架
- 对比学习泛化界
四、Grokking与训练动态
核心内容:
- Margin-Based解释延迟泛化
- Fourier特征与学习速度
- 彩票假设的联系
- 归纳偏置演化
核心内容:
- 六条对齐关系
- 表示对齐与Universality
- 对比学习泛化界
五、相关理论方向
学习路径建议
入门路径(理论基础)
1. 线性代数复习
↓
2. 最优传输基础 (Peyré & Cuturi)
↓
3. Attention与OT理论 ← [[attention-optimal-transport-theory]]
↓
4. LLM泛化界 ← [[llm-compression-generalization-bounds]]
进阶路径(深度理论)
1. 入门路径
↓
2. Mean-Field动态 ← [[transformer-particle-system-model]]
↓
3. Contexture理论 ← [[contexture-theory-foundation-models]]
↓
4. 综合进展 ← [[deep-learning-theory-2025-2026-frontiers]]
研究路径(前沿专题)
1. 电路复杂度 ← [[transformer-circuit-complexity-theory]]
↓
2. 表示学习 ← [[contexture-theory-foundation-models]]
↓
3. 泛化理论 ← [[generalization-theory-2025-advances]]
↓
4. 最新进展 ← [[deep-learning-theory-2025-2026-frontiers]]
核心公式速查
最优传输注意力
A∗=argAmax⟨A,S⟩−ϵH(A)s.t.A1=1
PAC-Bayes泛化界
LD(θ)≤L^S(θ)+2mDKL(P∥Q)+ln(m/δ)
Token-as-Data-Points界
LD(θ)≤L^S(θ)+O~(mC)
Mean-Field方程
∂t∂μt+∇⋅(μtv[μt])=0
工具与库推荐
| 库 | 用途 |
|---|
| POT | Python Optimal Transport库 |
| GeomLoss | 几何学习的OT |
| ot | 轻量级OT实现 |
| scipy | 优化与统计 |
# 基本OT使用示例
import ot
# 计算Wasserstein距离
a = np.array([0.5, 0.5]) # 源分布
b = np.array([0.5, 0.5]) # 目标分布
M = np.array([[0, 1], [1, 0]]) # 成本矩阵
W = ot.emd2(a, b, M) # Wasserstein距离
论文推荐
必读论文
- Geshkovski et al. (2025). A mathematical perspective on transformers. AMS Bulletin.
- Lotfi et al. (2024). Non-vacuous generalization bounds for LLMs. ICML.
- Finzi et al. (2025). Compute-optimal LLMs provably generalize better. ICLR.
- Zhai et al. (2024). Contexture: A theory of representation learning. arXiv.
- Yang et al. (2025). μ-parameterization and Rich Feature Learning. arXiv:2503.09565.
进阶论文
- Peyré & Cuturi (2019). Computational Optimal Transport. FnTML.
- Huang et al. (2025). Length generalization framework. ICLR.
- Hieu et al. (2024). Contrastive learning bounds. ICML.
- Liu et al. (2026). A Theory of Grokking. arXiv:2602.16849.
前沿论文
- OpenReview 2025. Self-Attention as Semi-Relaxed EOT.
- van Rossem & Saxe (2024). Representation Universality.
- Yang et al. (2025). Features at Convergence. arXiv:2507.05644.
- arXiv:2510.16927. Transformer Hessian Analysis: Full Analysis of Layer Norm and FFN.
实践项目建议
项目1:实现Sinkhorn Attention
- 实现标准Attention与Sinkhorn Attention对比
- 分析不同温度下的注意力模式
- 在下游任务上评估效果
项目2:分析表示对齐
- 提取多个模型的中间表示
- 计算表示相似性(RSA)
- 可视化表示几何
项目3:验证泛化界
- 在不同规模模型上验证理论预测
- 比较Token-as-Data-Points与传统界
- 分析计算量与泛化的关系
与其他专题的关联
最后更新:2026-05-18