概述

本文档是注意力机制理论深度解析系列的索引页面,涵盖从多个理论视角理解注意力机制的文档。


文档列表

核心理论文档

文档核心内容难度
注意力作为核方法Nadaraya-Watson视角、核方法统一框架⭐⭐⭐
注意力与最优传输OT理论、Wasserstein距离、Sinkhorn⭐⭐⭐⭐
注意力低秩瓶颈低秩分析、压缩技术⭐⭐⭐
注意力温度与熵温度参数、熵正则化、模型行为⭐⭐⭐
注意力表达能力计算复杂度、表达能力极限⭐⭐⭐⭐
SSM与注意力统一SSD框架、混合架构设计⭐⭐⭐⭐

补充阅读

文档核心内容难度
注意力谱分析秩崩溃、随机矩阵理论⭐⭐⭐
低秩压缩KV Cache优化、SVD压缩⭐⭐⭐
马尔可夫链视角稳态分布、token重要性⭐⭐⭐
FlashAttentionIO优化、tiling技术⭐⭐

学习路径

路径1:理论基础(入门)

1. attention-as-kernel-methods
   ↓
2. attention-entropy-temperature-theory
   ↓
3. attention-rank-collapse-spectral-theory

目标:建立对注意力机制的基础理论理解

路径2:高级理论(进阶)

1. attention-as-kernel-methods
   ↓
2. attention-optimal-transport-theory
   ↓
3. attention-expressivity-limits
   ↓
4. attention-ssm-unified-theory

目标:深入理解注意力的计算理论和几何本质

路径3:工程实践(应用)

1. attention-as-kernel-methods
   ↓
2. attention-low-rank-bottleneck
   ↓
3. attention-matrix-low-rank-compression
   ↓
4. flash-attention-io-aware-attention

目标:掌握注意力优化和工程实现


核心公式速查

基础注意力

Nadaraya-Watson形式

最优传输

注意力熵

温度-核宽关系


主题关联图

                    ┌─────────────────────────────────────────┐
                    │         注意力机制理论                   │
                    └─────────────────────────────────────────┘
                                    │
          ┌─────────────────────────┼─────────────────────────┐
          │                         │                         │
          ▼                         ▼                         ▼
┌─────────────────┐     ┌─────────────────┐     ┌─────────────────┐
│  核方法视角     │     │  最优传输视角    │     │  信息论视角     │
├─────────────────┤     ├─────────────────┤     ├─────────────────┤
│ Nadaraya-Watson │     │ Wasserstein距离 │     │ 熵/互信息      │
│ 核回归          │     │ Sinkhorn算法    │     │ 信息瓶颈       │
│ RKHS            │     │ 正则化耦合     │     │ 速率失真       │
└────────┬────────┘     └────────┬────────┘     └────────┬────────┘
         │                       │                       │
         └───────────────────────┼───────────────────────┘
                                 │
                                 ▼
                    ┌─────────────────────────┐
                    │    表达能力与极限      │
                    ├─────────────────────────┤
                    │ 计算复杂度分析          │
                    │ 电路复杂度             │
                    │ 形式语言理论           │
                    └───────────┬─────────────┘
                                │
                                ▼
                    ┌─────────────────────────┐
                    │    SSM-Attention统一    │
                    ├─────────────────────────┤
                    │ SSD框架                 │
                    │ 混合架构设计           │
                    └─────────────────────────┘

核心论文引用

核方法视角

  • [arXiv:2601.22766] “On the Theory of Attention”
  • [arXiv:2106.01506] “Kernel and Deep Learning”
  • [arXiv:2006.10540] “Neural Tangent Kernel and Attention”

最优传输视角

  • [arXiv:2508.08369] “Attention as Optimal Transport”
  • [arXiv:2410.19931] “OTformer”

表达能力分析

  • [arXiv:2604.14727] “Expressive Power of Transformers”
  • [arXiv:2209.04881] “Transformers Can Do Arithmetic”

SSM统一框架

  • [arXiv:2408.01129] “Transformers are SSMs”
  • [arXiv:2405.21060] “Mamba-2 State Space Duality”

相关主题

深度学习理论

Transformer架构

图神经网络


更新日志

日期更新内容
2026-06-21新增注意力理论系列文档索引
2026-06-21新增 attention-as-kernel-methods
2026-06-21新增 attention-entropy-temperature-theory
2026-06-21新增 attention-expressivity-limits
2026-06-21新增 attention-ssm-unified-theory