注意力机制理论索引

概述

本文档是注意力机制理论深度解析系列的索引页面，涵盖从多个理论视角理解注意力机制的文档。

文档列表

核心理论文档

文档	核心内容	难度
注意力作为核方法	Nadaraya-Watson视角、核方法统一框架	⭐⭐⭐
注意力与最优传输	OT理论、Wasserstein距离、Sinkhorn	⭐⭐⭐⭐
注意力低秩瓶颈	低秩分析、压缩技术	⭐⭐⭐
注意力温度与熵	温度参数、熵正则化、模型行为	⭐⭐⭐
注意力表达能力	计算复杂度、表达能力极限	⭐⭐⭐⭐
SSM与注意力统一	SSD框架、混合架构设计	⭐⭐⭐⭐

补充阅读

文档	核心内容	难度
注意力谱分析	秩崩溃、随机矩阵理论	⭐⭐⭐
低秩压缩	KV Cache优化、SVD压缩	⭐⭐⭐
马尔可夫链视角	稳态分布、token重要性	⭐⭐⭐
FlashAttention	IO优化、tiling技术	⭐⭐

学习路径

路径1：理论基础（入门）

1. attention-as-kernel-methods
   ↓
2. attention-entropy-temperature-theory
   ↓
3. attention-rank-collapse-spectral-theory

目标：建立对注意力机制的基础理论理解

路径2：高级理论（进阶）

1. attention-as-kernel-methods
   ↓
2. attention-optimal-transport-theory
   ↓
3. attention-expressivity-limits
   ↓
4. attention-ssm-unified-theory

目标：深入理解注意力的计算理论和几何本质

路径3：工程实践（应用）

1. attention-as-kernel-methods
   ↓
2. attention-low-rank-bottleneck
   ↓
3. attention-matrix-low-rank-compression
   ↓
4. flash-attention-io-aware-attention

目标：掌握注意力优化和工程实现

核心公式速查

基础注意力

Attention (Q, K, V) = softmax (\frac{Q K ^{T}}{d _{k}}) V

Nadaraya-Watson形式

\hat{f} (x) = \frac{\sum _{i} K ( x , x _{i} ) y _{i}}{\sum _{i} K ( x , x _{i} )}

最优传输

W (μ, ν) = γ \in Γ (μ, ν) min ⟨ C, γ ⟩

注意力熵

H (A_{i}) = - j \sum A_{ij} lo g A_{ij}

温度-核宽关系

σ = \frac{τ}{2}

主题关联图

                    ┌─────────────────────────────────────────┐
                    │         注意力机制理论                   │
                    └─────────────────────────────────────────┘
                                    │
          ┌─────────────────────────┼─────────────────────────┐
          │                         │                         │
          ▼                         ▼                         ▼
┌─────────────────┐     ┌─────────────────┐     ┌─────────────────┐
│  核方法视角     │     │  最优传输视角    │     │  信息论视角     │
├─────────────────┤     ├─────────────────┤     ├─────────────────┤
│ Nadaraya-Watson │     │ Wasserstein距离 │     │ 熵/互信息      │
│ 核回归          │     │ Sinkhorn算法    │     │ 信息瓶颈       │
│ RKHS            │     │ 正则化耦合     │     │ 速率失真       │
└────────┬────────┘     └────────┬────────┘     └────────┬────────┘
         │                       │                       │
         └───────────────────────┼───────────────────────┘
                                 │
                                 ▼
                    ┌─────────────────────────┐
                    │    表达能力与极限      │
                    ├─────────────────────────┤
                    │ 计算复杂度分析          │
                    │ 电路复杂度             │
                    │ 形式语言理论           │
                    └───────────┬─────────────┘
                                │
                                ▼
                    ┌─────────────────────────┐
                    │    SSM-Attention统一    │
                    ├─────────────────────────┤
                    │ SSD框架                 │
                    │ 混合架构设计           │
                    └─────────────────────────┘

核心论文引用

核方法视角

[arXiv:2601.22766] “On the Theory of Attention”
[arXiv:2106.01506] “Kernel and Deep Learning”
[arXiv:2006.10540] “Neural Tangent Kernel and Attention”

最优传输视角

[arXiv:2508.08369] “Attention as Optimal Transport”
[arXiv:2410.19931] “OTformer”

表达能力分析

[arXiv:2604.14727] “Expressive Power of Transformers”
[arXiv:2209.04881] “Transformers Can Do Arithmetic”

SSM统一框架

[arXiv:2408.01129] “Transformers are SSMs”
[arXiv:2405.21060] “Mamba-2 State Space Duality”

更新日志

日期	更新内容
2026-06-21	新增注意力理论系列文档索引
2026-06-21	新增 attention-as-kernel-methods
2026-06-21	新增 attention-entropy-temperature-theory
2026-06-21	新增 attention-expressivity-limits
2026-06-21	新增 attention-ssm-unified-theory

Metaphor

探索

注意力机制理论索引

概述

文档列表

核心理论文档

补充阅读

学习路径

路径1：理论基础（入门）

路径2：高级理论（进阶）

路径3：工程实践（应用）

核心公式速查

基础注意力

Nadaraya-Watson形式

最优传输

注意力熵

温度-核宽关系

主题关联图

核心论文引用

核方法视角

最优传输视角

表达能力分析

SSM统一框架

相关主题

深度学习理论

Transformer架构

图神经网络

更新日志

关系图谱

目录