概述
本文档是注意力机制理论深度解析系列的索引页面,涵盖从多个理论视角理解注意力机制的文档。
文档列表
核心理论文档
| 文档 | 核心内容 | 难度 |
|---|---|---|
| 注意力作为核方法 | Nadaraya-Watson视角、核方法统一框架 | ⭐⭐⭐ |
| 注意力与最优传输 | OT理论、Wasserstein距离、Sinkhorn | ⭐⭐⭐⭐ |
| 注意力低秩瓶颈 | 低秩分析、压缩技术 | ⭐⭐⭐ |
| 注意力温度与熵 | 温度参数、熵正则化、模型行为 | ⭐⭐⭐ |
| 注意力表达能力 | 计算复杂度、表达能力极限 | ⭐⭐⭐⭐ |
| SSM与注意力统一 | SSD框架、混合架构设计 | ⭐⭐⭐⭐ |
补充阅读
| 文档 | 核心内容 | 难度 |
|---|---|---|
| 注意力谱分析 | 秩崩溃、随机矩阵理论 | ⭐⭐⭐ |
| 低秩压缩 | KV Cache优化、SVD压缩 | ⭐⭐⭐ |
| 马尔可夫链视角 | 稳态分布、token重要性 | ⭐⭐⭐ |
| FlashAttention | IO优化、tiling技术 | ⭐⭐ |
学习路径
路径1:理论基础(入门)
1. attention-as-kernel-methods
↓
2. attention-entropy-temperature-theory
↓
3. attention-rank-collapse-spectral-theory
目标:建立对注意力机制的基础理论理解
路径2:高级理论(进阶)
1. attention-as-kernel-methods
↓
2. attention-optimal-transport-theory
↓
3. attention-expressivity-limits
↓
4. attention-ssm-unified-theory
目标:深入理解注意力的计算理论和几何本质
路径3:工程实践(应用)
1. attention-as-kernel-methods
↓
2. attention-low-rank-bottleneck
↓
3. attention-matrix-low-rank-compression
↓
4. flash-attention-io-aware-attention
目标:掌握注意力优化和工程实现
核心公式速查
基础注意力
Nadaraya-Watson形式
最优传输
注意力熵
温度-核宽关系
主题关联图
┌─────────────────────────────────────────┐
│ 注意力机制理论 │
└─────────────────────────────────────────┘
│
┌─────────────────────────┼─────────────────────────┐
│ │ │
▼ ▼ ▼
┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ 核方法视角 │ │ 最优传输视角 │ │ 信息论视角 │
├─────────────────┤ ├─────────────────┤ ├─────────────────┤
│ Nadaraya-Watson │ │ Wasserstein距离 │ │ 熵/互信息 │
│ 核回归 │ │ Sinkhorn算法 │ │ 信息瓶颈 │
│ RKHS │ │ 正则化耦合 │ │ 速率失真 │
└────────┬────────┘ └────────┬────────┘ └────────┬────────┘
│ │ │
└───────────────────────┼───────────────────────┘
│
▼
┌─────────────────────────┐
│ 表达能力与极限 │
├─────────────────────────┤
│ 计算复杂度分析 │
│ 电路复杂度 │
│ 形式语言理论 │
└───────────┬─────────────┘
│
▼
┌─────────────────────────┐
│ SSM-Attention统一 │
├─────────────────────────┤
│ SSD框架 │
│ 混合架构设计 │
└─────────────────────────┘
核心论文引用
核方法视角
- [arXiv:2601.22766] “On the Theory of Attention”
- [arXiv:2106.01506] “Kernel and Deep Learning”
- [arXiv:2006.10540] “Neural Tangent Kernel and Attention”
最优传输视角
- [arXiv:2508.08369] “Attention as Optimal Transport”
- [arXiv:2410.19931] “OTformer”
表达能力分析
- [arXiv:2604.14727] “Expressive Power of Transformers”
- [arXiv:2209.04881] “Transformers Can Do Arithmetic”
SSM统一框架
- [arXiv:2408.01129] “Transformers are SSMs”
- [arXiv:2405.21060] “Mamba-2 State Space Duality”
相关主题
深度学习理论
Transformer架构
图神经网络
更新日志
| 日期 | 更新内容 |
|---|---|
| 2026-06-21 | 新增注意力理论系列文档索引 |
| 2026-06-21 | 新增 attention-as-kernel-methods |
| 2026-06-21 | 新增 attention-entropy-temperature-theory |
| 2026-06-21 | 新增 attention-expressivity-limits |
| 2026-06-21 | 新增 attention-ssm-unified-theory |