深度学习理论专题索引

专题介绍

深度学习理论专题系统整理深度学习领域的数学理论进展，包括注意力机制的最优传输理论、LLM泛化界、表示学习理论等前沿方向。

内容导航

一、注意力机制理论

文档	描述
transformer-hessian-full-analysis	Transformer Hessian完整分析
attention-optimal-transport-theory	Self-Attention与最优传输理论
transformer-particle-system-model	Transformer的粒子系统模型
attention-optimal-transport-theory	注意力变体的OT视角

核心内容：

LayerNorm和FFN的Hessian分析
曲率间隙现象与解决方案
注意力作为半松弛熵最优传输问题

文档	描述
attention-optimal-transport-theory	Self-Attention与最优传输理论
transformer-particle-system-model	Transformer的粒子系统模型
attention-optimal-transport-theory	注意力变体的OT视角

核心内容：

注意力作为半松弛熵最优传输问题
Sinkhorn迭代与注意力计算的对应
Transformer的Mean-Field动态
Kuramoto振子模型与Transformer的联系

二、LLM泛化理论

文档	描述
llm-compression-generalization-bounds	LLM压缩泛化界理论
mu-parametrization-rich-feature-learning	μ参数化与Rich Feature Learning
deep-learning-theory-2025-2026-frontiers	综合理论进展

核心内容：

Token-as-Data-Points分析框架
非平凡PAC-Bayes界
μ参数化：全局收敛+特征学习兼得
Compute-Optimal Scaling与泛化
长度外推理论

三、表示学习理论

文档	描述
contexture-theory-foundation-models	Contexture理论与Foundation Model
features-at-convergence-theorem	Features at Convergence定理
deep-learning-theory-2025-2026-frontiers	综合理论进展

核心内容：

六条对齐关系
表示对齐与Universality
Features at Convergence：不依赖可辨识性的新框架
对比学习泛化界

四、Grokking与训练动态

文档	描述
grokking-mechanism-theory	Grokking机制理论

核心内容：

Margin-Based解释延迟泛化
Fourier特征与学习速度
彩票假设的联系
归纳偏置演化

文档	描述
contexture-theory-foundation-models	Contexture理论与Foundation Model
deep-learning-theory-2025-2026-frontiers	综合理论进展

核心内容：

六条对齐关系
表示对齐与Universality
对比学习泛化界

五、相关理论方向

文档	描述	相关度
transformer-circuit-complexity-theory	Transformer电路复杂度	⭐⭐⭐
contrastive-learning-theory	对比学习理论	⭐⭐⭐
generalization-theory-2025-advances	泛化理论进展	⭐⭐⭐
information-geometry-foundations	信息几何基础	⭐⭐
rkhs-kernel-theory-ml	RKHS核方法理论	⭐⭐
neural-collapse-deep-resnet-transformer-theory	神经崩溃在深度ResNet/Transformer中的全局最优性	⭐⭐⭐⭐
resnet-conservation-laws-training	ResNet/Transformer训练动力学的守恒律	⭐⭐⭐⭐
resnet-hamiltonian-feature-learning	ResNet特征学习的哈密顿力学	⭐⭐⭐⭐
sign-lottery-ticket-hypothesis	符号彩票假说	⭐⭐⭐⭐
feature-learning-beyond-lazy-rich-dichotomy	超越懒惰/丰富二分法	⭐⭐⭐⭐
optimizer-memory-implicit-regularization	优化器记忆效应与隐式正则化	⭐⭐⭐
gnn-unified-vanishing-gradient-theory	GNN统一理论：过平滑、过压缩与梯度消失	⭐⭐⭐⭐

学习路径建议

入门路径（理论基础）

1. 线性代数复习
   ↓
2. 最优传输基础 (Peyré & Cuturi)
   ↓
3. Attention与OT理论 ← [[attention-optimal-transport-theory]]
   ↓
4. LLM泛化界 ← [[llm-compression-generalization-bounds]]

进阶路径（深度理论）

1. 入门路径
   ↓
2. Mean-Field动态 ← [[transformer-particle-system-model]]
   ↓
3. Contexture理论 ← [[contexture-theory-foundation-models]]
   ↓
4. 综合进展 ← [[deep-learning-theory-2025-2026-frontiers]]

研究路径（前沿专题）

1. 电路复杂度 ← [[transformer-circuit-complexity-theory]]
   ↓
2. 表示学习 ← [[contexture-theory-foundation-models]]
   ↓
3. 泛化理论 ← [[generalization-theory-2025-advances]]
   ↓
4. 最新进展 ← [[deep-learning-theory-2025-2026-frontiers]]

2025-2026 最新突破专题

1. ResNet/Transformer神经崩溃 ← [[../neural-collapse-deep-resnet-transformer-theory]]
   ↓
2. 守恒律视角的训练动力学 ← [[../resnet-conservation-laws-training]]
   ↓
3. ResNet哈密顿力学与瓶颈 ← [[../resnet-hamiltonian-feature-learning]]
   ↓
4. 懒惰/丰富特征学习谱 ← [[../feature-learning-beyond-lazy-rich-dichotomy]]
   ↓
5. 优化器记忆与隐式正则化 ← [[../optimizer-memory-implicit-regularization]]
   ↓
6. 符号彩票假说 ← [[../sign-lottery-ticket-hypothesis]]
   ↓
7. GNN三大病理现象统一理论 ← [[../graph-neural-network/gnn-unified-vanishing-gradient-theory]]

核心公式速查

最优传输注意力

A^{*} = ar g A max ⟨ A, S ⟩ - ϵH (A) s.t. A 1 = 1

PAC-Bayes泛化界

L_{D} (θ) \leq \hat{L}_{S} (θ) + \frac{D _{K L} ( P ∥ Q ) + ln ( m / δ )}{2 m}

Token-as-Data-Points界

L_{D} (θ) \leq \hat{L}_{S} (θ) + \tilde{O} (\frac{C}{m})

Mean-Field方程

\frac{\partial μ _{t}}{\partial t} + \nabla \cdot (μ_{t} v [μ_{t}]) = 0

工具与库推荐

库	用途
POT	Python Optimal Transport库
GeomLoss	几何学习的OT
ot	轻量级OT实现
scipy	优化与统计

# 基本OT使用示例
import ot
 
# 计算Wasserstein距离
a = np.array([0.5, 0.5])  # 源分布
b = np.array([0.5, 0.5])  # 目标分布
M = np.array([[0, 1], [1, 0]])  # 成本矩阵
 
W = ot.emd2(a, b, M)  # Wasserstein距离

论文推荐

必读论文

Geshkovski et al. (2025). A mathematical perspective on transformers. AMS Bulletin.
Lotfi et al. (2024). Non-vacuous generalization bounds for LLMs. ICML.
Finzi et al. (2025). Compute-optimal LLMs provably generalize better. ICLR.
Zhai et al. (2024). Contexture: A theory of representation learning. arXiv.
Yang et al. (2025). μ-parameterization and Rich Feature Learning. arXiv:2503.09565.

进阶论文

Peyré & Cuturi (2019). Computational Optimal Transport. FnTML.
Huang et al. (2025). Length generalization framework. ICLR.
Hieu et al. (2024). Contrastive learning bounds. ICML.
Liu et al. (2026). A Theory of Grokking. arXiv:2602.16849.

前沿论文

OpenReview 2025. Self-Attention as Semi-Relaxed EOT.
van Rossem & Saxe (2024). Representation Universality.
Yang et al. (2025). Features at Convergence. arXiv:2507.05644.
arXiv:2510.16927. Transformer Hessian Analysis: Full Analysis of Layer Norm and FFN.

实践项目建议

项目1：实现Sinkhorn Attention

实现标准Attention与Sinkhorn Attention对比
分析不同温度下的注意力模式
在下游任务上评估效果

项目2：分析表示对齐

提取多个模型的中间表示
计算表示相似性（RSA）
可视化表示几何

项目3：验证泛化界

在不同规模模型上验证理论预测
比较Token-as-Data-Points与传统界
分析计算量与泛化的关系

与其他专题的关联

相关专题	关联内容
transformer-length-generalization	长度外推实践
contrastive-learning-theory	对比学习理论
generalization-theory-2025-advances	泛化理论进展
linear-algebra-dl	深度学习线性代数

最后更新：2026-06-21

Metaphor

探索

深度学习理论专题索引

专题介绍

内容导航

一、注意力机制理论

二、LLM泛化理论

三、表示学习理论

四、Grokking与训练动态

五、相关理论方向

学习路径建议

入门路径（理论基础）

进阶路径（深度理论）

研究路径（前沿专题）

2025-2026 最新突破专题

核心公式速查

最优传输注意力

PAC-Bayes泛化界

Token-as-Data-Points界

Mean-Field方程

工具与库推荐

论文推荐

必读论文

进阶论文

前沿论文

实践项目建议

项目1：实现Sinkhorn Attention

项目2：分析表示对齐

项目3：验证泛化界

与其他专题的关联

Learning Mechanics 深度学习力学理论

Propagation Field 神经传播场几何理论

深度学习理论前沿综合索引

Features at Convergence定理

Grokking机制理论

μ参数化与Rich Feature Learning

Transformer Hessian完整分析