稀疏注意力的Trade-offs：Transformer大语言模型实证研究

概述

稀疏注意力机制是扩展Transformer大语言模型（LLM）长上下文能力的重要策略。然而，由于缺乏全面的评估，其效率-精度权衡一直不够清晰。arXiv:2504.17768填补了这一空白，进行了迄今为止最大规模的免训练稀疏注意力实证分析，评估了六种方法横跨多个模型家族和规模、序列长度达128K tokens、稀疏度高达0.95（即1/20注意力预算）在九个不同任务上的表现。¹

本文系统性地解析这篇论文的核心贡献，包括稀疏注意力方法的四轴分类体系、最大规模实验的设置与发现、以及对实践者的指导建议。

1. 研究背景：为什么需要稀疏注意力

1.1 长上下文处理的瓶颈

Transformer LLM处理长序列的能力是长上下文处理和推理时扩展的核心。然而，自注意力机制是这一能力的基本瓶颈：

Prefill阶段：计算复杂度随序列长度呈二次增长（ $O (n^{2})$ ），导致首token时间（TTFT）和部署成本激增
Decoding阶段：Key-Value（KV）缓存随序列长度线性增长，每个生成步骤都需要从内存加载不断扩展的缓存，成为运行时主导因素

1.2 稀疏注意力的承诺

稀疏注意力机制通过仅计算部分Query-Key交互来近似密集注意力输出，从而降低成本：

稀疏度 = 1 - \frac{实际计算量}{完整计算量}

当稀疏度为0.95时，意味着仅计算原始QK交互的5%。

1.3 研究空白

尽管稀疏注意力在工业界和学术界都得到了广泛采用，但此前缺乏系统性的评估：

已有工作覆盖的配置有限
特定用例分析，缺乏系统性比较
未控制序列长度变量
阻碍了方法之间的公平对比

2. 稀疏注意力方法的四轴分类体系

Nawrot等人提出了一个从四个设计轴对稀疏注意力方法进行分类的框架，解决了快速演进方法比较困难的问题。¹

2.1 评分函数（Scoring Function）

评分函数决定了如何估计每个Query-Key单元的重要性。这涉及固定模式与动态模式的选择：

类型	描述	优点	缺点
固定模式	跨所有输入统一应用	无计算开销	无法适应不同输入需求
动态模式	根据处理内容自适应	更好保留模型质量	需要额外计算识别重要连接

动态模式的具体方法：

基于注意力的启发式方法：
- SparQ：使用最高幅度维度的近似注意力分数
- H₂O：使用聚合注意力分数
- TOVA：使用最新Query指导选择
基于表示的启发式方法：
- MInference Vertical-Slash：使用块级池化的Token表示
- SnapKV：基于最近Query窗口的重要性预测
互补启发式：
- 基于Key的范数（Devoto等，2024）
- 基于Value的范数（Guo等，2024）

关键约束：稀疏注意力的成本包括稀疏操作和重要性估计开销。在Prefill期间，逐单元重要性估计需要二次成本，因此方法必须选择细粒度单元的全局选择或更粗粒度的块间选择。

2.2 注意力模式（Attention Pattern）

注意力模式定义了注意力的结构单元，即从注意力矩阵中剪枝或保留的基本单元。

2.2.1 主要模式类型

模式	描述	特点
局部窗口（Local Window）	每个Query周围的连续区域	高效但无法捕获长距离依赖
垂直列（Vertical Column）	全局对所有Query可用的Token	捕获全局信息
斜向（Slash）	距每个Query固定偏移的Token	平衡局部和远程注意力
块（Block）	固定大小的矩阵块（如64×64）	计算效率高，内存局部性好

2.2.2 模式对比可视化

稠密注意力:        块稀疏:           垂直-斜向:
■■■■■■■■          ■■■□□□□□          ■■■■■■■■
■■■■■■■■          ■■■□□□□□          □□■■□□□□
■■■■■■■■    →     □□□■■■■□    →     □□■■■□□
■■■■■■■■          ■■■□□□□□          □□□□■■□□
■■■■■■■■          □□□□□□□□          □□□□□■□□
■■■■■■■■          □□□□□□□□          □□□□□□□■

2.2.3 具体方法示例

基于块的方法：

Star Attention：使用局部块和第一个前缀块近似注意力
MInference Block-Sparse：额外包含每个Query块的一组动态选择块
Quest/InfLLM：将KV缓存分成连续页面，为每个解码Token选择子集

垂直-斜向模式：

LM-Infinite/StreamingLLM：使用局部滑动窗口补充前缀Token（注意力接收器）
Tri-shape：为后缀Token添加完整注意力
SnapKV：引入动态选择的垂直列
MInference Vertical-Slash：添加局部窗口外任意偏移的对角斜向

2.3 组合策略（Combination Strategy）

第三个维度是预算分配：为目标稀疏度在模型组件（层和头）之间分配计算资源。

2.3.1 均匀分配 vs 自适应分配

策略	描述	代表方法	特点
均匀分配	每个头分配相等预算	Block-Sparse、SnapKV	计算简单，但忽略层/头贡献差异
自适应分配	根据层深度/头重要性变化预算	PyramidKV、PyramidInfer、MoA、Ada-KV	更灵活，但增加复杂度

2.3.2 自适应方法详解

PyramidKV/PyramidInfer：

观察到注意力分数熵随层深度减小
分配更大预算给早期层

MoA（稀疏注意力混合专家）：

使用Taylor近似在层间最优分配全局预算

Ada-KV：

选择top- $(k \times h)$ 个Token（ $h$ 是头数）
允许关键头保留更多Key同时剪枝其他头

基于阈值的方法：

设置覆盖率阈值（如注意力质量的95%）
每个头动态选择单元以满足阈值
代表方法：Twilight、FlexPrefill、Tactic、SampleAttention

2.4 粒度级别（Granularity Level）

粒度级别定义了重要性估计和预算分配的操作单元大小。

2.4.1 主要粒度级别

粒度	描述	优势	劣势
Token级	单独选择每个Token	最精确选择	开销最大
块级	选择固定大小的Token块	效率高	精度损失
页面级	将Token分组为页面进行选择	平衡效率和精度	粒度较粗
多头级	跨多个头批量选择	最简单	最不灵活

2.4.2 KV缓存管理策略

策略	描述	代表方法	优势	劣势
KV缓存驱逐	永久丢弃选择的Token	H₂O、SnapKV	直接减少内存占用	牺牲信息保真度
完整KV缓存保留	维护整个缓存，仅选择性加载	Quest、SparQ	避免信息丢失，可容忍更高稀疏度	不减少峰值内存

3. 最大规模实验设置

3.1 模型家族与规模

实验覆盖三个模型家族，参数规模从4B到72B：

模型家族	规模	层数	Q头数	KV头数	官方上下文支持
Qwen 2.5	7B, 14B, 32B, 72B	28-80	28-64	4-8	128K
Llama 3.1	8B, 70B	32-80	32-64	8	128K
Gemma 3	4B, 12B, 27B	34-62	8-32	4-16	128K

选择Qwen 2.5作为主要模型家族的原因：

原生128K上下文支持
多个模型规模保持合理性能
训练数据一致性
有指令微调版本支持思维链评估

Gemma 3的特殊性：采用混合注意力设计，6层中有5层使用滑动窗口注意力（1024 tokens），仅1层使用全局（密集）注意力。稀疏注意力方法仅应用于剩余的密集层。

3.2 六种评估方法

选择六种代表性方法，覆盖不同设计维度：

方法	作用阶段	粒度级别	预算分配	KV管理	核心特点
Block-Sparse	Prefill	块级（16×16）	均匀	-	局部+首块+动态选择块
Vertical-Slash	Prefill	细粒度Token	均匀	-	垂直列+斜向+局部窗口
FlexPrefill	Prefill	细粒度Token	自适应（阈值）	-	动态层/头预算分配
SnapKV	Decoding	Token级	均匀	驱逐	均匀Token预算
Ada-SnapKV	Decoding	Token级	自适应	驱逐	动态头预算分配
Quest	Decoding	页面级（16 Token）	动态	保留完整缓存	查询感知页面选择

3.3 九个评估任务

任务设计覆盖三个关键维度：弥散度（Dispersion）、范围（Scope）和自然性（Naturalness）。

任务类型	任务名称	弥散度	范围	自然性	评估指标
单一QA	QuALITY	低	低	自然语言	精确匹配
	SQuAD	低	低	自然语言	F1
	TOEFL	低	低	自然语言	精确匹配
多QA	Ruler NIAH（大海捞针）	低	低	合成	精确匹配
	Story Retrieval	低	低	自然语言	精确匹配
高范围	Ruler CWE（高频词提取）	低	高	合成	IoU
	Story Filtering	低	高	自然语言	IoU
高弥散度	Ruler VT（变量追踪）	高	低	合成	IoU
	Story Multi-hop	高	低	自然语言	精确匹配

任务定义

弥散度（Dispersion）：定位必要信息的难度
范围（Scope）：需要处理多少信息
自然性（Naturalness）：自然语言文本 vs 合成数据

3.4 评估设置

参数	设置
序列长度	16K, 32K, 64K（所有模型），128K（仅Qwen/Llama部分方法）
稀疏度	0（密集）至0.95（1/20注意力预算）
样本数	Qwen: 100个/配置，Llama/Gemma: 50个/配置
总配置数	7,065个配置
计算资源	约4个计算节点×8×H100 GPUs×21天

4. 关键发现

4.1 发现一：稀疏注意力是有效的

4.1.1 isoCost分析结果

isoCost分析揭示了一个关键洞察：稀疏化使更大的稀疏模型能够在相同计算成本下优于更小的密集模型。

Prefill阶段（Qwen 128K tokens）：

配置	稀疏度	注意力预算	性能	成本
Qwen-7B 密集	0	1/1	基准	高成本
Qwen-14B 稀疏(0.8)	0.8	1/5	超过密集7B	中等
Qwen-72B 稀疏(0.93)	0.93	1/15	Pareto最优	中等

关键观察：

仅高稀疏度配置位于Pareto前沿
Prefill阶段：稀疏度0.8-0.93（1/5至1/15注意力预算）保持最优
稀疏度0.95（1/20预算）落在最优边界以下

Decoding阶段表现更好：

即使0.95稀疏度配置也优于更小的密集模型
Quest方法在解码阶段展现更强弹性

4.1.2 注意力比率的影响

Gemma由于滑动窗口架构，基准注意力比率较低：

模型	序列长度	Prefill注意力占比	Decoding KV缓存占比
Qwen-14B（密集）	64K	76%	79%
Gemma-12B（滑动窗口）	64K	42%	61%

含义：具有内置架构稀疏度的模型需要更长序列才能从额外稀疏化中获益。

4.1.3 成本-效益分析

加速比 = \frac{注意力 FLOPs 减少比例}{总 FLOPs 减少比例}

实测加速比：

序列长度	Prefill注意力占比	5×稀疏化加速比
16K	40%	1.5×
64K	68%	2.2×
128K	80%	2.8×

4.2 发现二：Prefill阶段的重要性估计挑战

4.2.1 Prefill与Decoding的不同约束

Prefill阶段的限制：

每个单元（逐单元）重要性估计需要二次成本
仅两种策略可行：
1. 细粒度单元的全局选择（Vertical-Slash）
2. 块间选择（Block-Sparse）

Decoding阶段的灵活性：

每步仅处理一个Query
可以进行Token级到页面的选择
Quest可执行更细粒度的Token-块选择，容忍更高压缩率

4.2.2 任务相关的最优方法

Prefill阶段的最佳方法因任务而异：

任务类型	最佳Prefill方法	原因
检索任务（低弥散/低范围）	Vertical-Slash	细粒度Token选择精确定位特定事实
需要广泛上下文或多步推理的任务	Block-Sparse	为每个Query块选择不同Key-Token块

示例：

Story Filtering（高范围任务）：Block-Sparse明显优于Vertical-Slash
Ruler NIAH（低范围任务）：Vertical-Slash表现更佳

4.2.3 动态预算分配的效果

Prefill阶段：

FlexPrefill与Vertical-Slash相比无显著优势
可能原因：“注意力接收器现象”——基于阈值的选择捕获高注意力Token但遗漏分布长尾中的信息

Decoding阶段：

Ada-SnapKV持续优于均匀SnapKV
在多查询任务（如Story Retrieval）中优势更明显
但两者仍不如Quest的完整缓存方法

4.3 发现三：更长序列容忍更高稀疏度

4.3.1 序列长度与稀疏度容忍度的关系

固定注意力预算比例下，更长序列的性能下降更小：

注意力预算	16K相对误差	32K相对误差	64K相对误差
1/20	≈0.33	≈0.26	≈0.20

规律：相同的稀疏比例随着序列增长危害减小。

4.3.2 等误差曲线分析

对于目标相对误差≈0.2，所需预算比例：

序列长度	所需注意力预算
16K	1/10
32K	1/15
64K	1/20

含义：

固定Token预算（如始终1/10）随序列增长会超出目标误差
固定比例预算是次优的
最优Token预算应随序列长度次线性增长

4.3.3 Herdan定律的解释

Herdan定律指出：随着时间推移，新信息变得更加罕见。这可以解释为什么稀疏度容忍度随距离增加——远处Token的信息价值降低，更容易被安全地稀疏化。

4.4 发现四：固定预算方法不是最优的

4.4.1 当前动态方法的局限性

尽管当前动态方法（FlexPrefill等）缺乏鲁棒性，但实验结果表明：

固定比例预算是次优的
应开发可靠的非线性预算分配机制

4.4.2 实践建议

生产环境中的建议：

不要使用固定稀疏度
根据序列长度动态调整注意力预算
考虑亚线性增长策略

4.4.3 与Condensate Theorem的联系

Condensate Theorem提供了理论支持：训练好的语言模型的注意力天然呈现稀疏性，存在一个常数大小的Condensate Manifold支撑集。

关键对比：

方面	Condensate Theorem	本文实证研究
理论基础	数学证明	实证评估
稀疏度	理论无损	实际有损可接受
最优预算	常数（~97个Token）	随序列次线性增长
适用性	预训练模型	推理阶段

整合视角：

Condensate Theorem证明稀疏性是学习的拓扑性质
实证研究表明，稀疏化确实在实践中有效
两者共同支持：稀疏注意力不是妥协，而是忠实还原模型已学到的行为

5. 任务相关性能分析

5.1 不同任务的稀疏度容忍度

任务组之间的性能差距揭示了部署风险：

任务类型	稀疏度容忍范围	说明
单一QA	0.95（1/20预算）	轻微性能下降
多QA	0.8-0.9（1/5至1/10预算）	显著性能下降
高范围/高弥散度	0.5-0.67（1/2至1/3预算）	即使适度稀疏也会下降

5.2 方法-任务匹配

任务	Prefill最佳	Decoding最佳	关键因素
QuALITY/TOEFL/SQuAD	Vertical-Slash	Quest	低弥散/低范围
Ruler NIAH	Vertical-Slash	Ada-SnapKV	细粒度Token选择重要
Story Retrieval	Block-Sparse	Quest	自然语言文本
Ruler CWE	Block-Sparse	Quest	需要广泛上下文
Ruler VT	Block-Sparse	Quest	高弥散度
Story Filtering	Block-Sparse	Quest	高范围任务

5.3 合成vs自然语言的不对称性

关键发现：

Quest在自然语言检索（Story Retrieval）优于Ada-SnapKV
但在合成检索（Ruler NIAH）劣于Ada-SnapKV

原因分析：

Quest的页面级粒度放大了效果
合成任务中随机符号序列产生不太可区分的Key表示
较粗粒度的块在区分不相关Token集时更困难

6. 实践指导

6.1 方法选择建议

6.1.1 根据推理阶段选择

Prefill阶段：

任务类型	推荐方法	配置建议
检索任务	Vertical-Slash	近似窗口512 tokens
推理/聚合任务	Block-Sparse	块大小16×16
通用场景	Vertical-Slash	默认选择

Decoding阶段：

优先级	推荐方法	原因
质量优先	Quest	完整缓存，更高压缩容忍度
内存受限	Ada-SnapKV	减少峰值内存
简单实现	SnapKV	均匀预算，配置简单

6.1.2 根据模型架构选择

模型类型	建议
密集注意力模型（Qwen、Llama）	标准稀疏化方法
滑动窗口模型（Gemma）	需要更长序列才能获益

6.2 稀疏度配置指南

序列长度	推荐稀疏度	注意力预算
16K	0.7-0.8	1/3-1/5
32K	0.8-0.87	1/5-1/8
64K	0.87-0.93	1/8-1/15
128K	0.9-0.95	1/10-1/20

6.3 评估方法论建议

6.3.1 基准测试设计原则

覆盖多样性：跨任务类型、序列长度、模型规模评估
避免单一指标：不要仅在简单QA基准上测试
控制变量：精确控制序列长度
区分阶段：分别评估Prefill和Decoding

6.3.2 关键陷阱

陷阱	说明	规避方法
简单基准偏差	NIAH等任务在所有模型上接近完美	添加更难任务
阶段混淆	密集Prefill+稀疏Decoding掩盖问题	分离评估
忽略自然性	合成任务可能无法泛化	添加自然语言任务

7. 与Condensate Theorem的联系

7.1 理论-实证对齐

Condensate Theorem与本文实证研究形成互补：

维度	Condensate Theorem	本文研究
方法论	理论证明	实证评估
核心发现	注意力稀疏是学习的拓扑性质	稀疏注意力实际有效
最优性保证	数学恒等式（无损）	Pareto优化（有损可接受）
实践意义	理论可能性	工程可行性

7.2 Condensate Set与实验发现的对应

Condensate Theorem的预测：

Condensate Set大小恒定（~97个位置）
随序列增长，覆盖率从78%增至99.98%

实证验证：

更长序列容忍更高稀疏度
序列长度与稀疏度容忍度正相关

7.3 整合视角

稀疏注意力的双重验证：

理论验证（Condensate Theorem）：
- 稀疏性是梯度下降学习到的
- 稀疏注意力可以无损（数学等价）
- Condensate Manifold大小恒定
实证验证（本文研究）：
- 稀疏化确实在实践中有效
- Pareto前沿改善明确
- 任务自适应方法选择关键

对未来研究的启示：

开发更精确的Condensate Set识别方法
结合理论与实证的最优稀疏化策略
端到端学习的选择函数

8. 局限性与未来方向

8.1 当前研究的局限性

局限性	描述	影响
仅评估免训练方法	训练方法需要大量计算资源	可能有额外收益
模型覆盖有限	仅Qwen、Llama、Gemma	其他家族可能表现不同
128K评估受限	基线性能低，缺乏鲁棒性	需要更强的长上下文模型
未评估推理模型	o1、DeepSeek-R1等可能不同	可能有独特注意力模式
未研究方法交互	与量化、权重剪枝的联合效果	实际部署常组合使用

8.2 未来研究方向

亚线性预算分配机制：开发可靠的随序列长度自适应稀疏度的方法
训练感知的稀疏化：结合训练过程的方法可能减少训练-推理不匹配
与推理时扩展的结合：在推理时计算扩展场景下评估稀疏注意力的作用
多模态扩展：将稀疏注意力原理推广到视觉、音频等其他模态
硬件协同优化：针对稀疏操作优化的GPU内核

9. 结论

arXiv:2504.17768提供了迄今为止最大规模的免训练稀疏注意力实证分析，揭示了三个关键洞察：

9.1 有效性证明

稀疏注意力使更大的稀疏模型能够在相同计算成本下优于更小的密集模型，改善Pareto前沿。对于长序列，仅高稀疏度配置位于Pareto前沿。

9.2 实践部署指导

方法选择应考虑任务特性：

细粒度Token选择（如Vertical-Slash）擅长检索
基于块的方法（如Block-Sparse）适合推理和聚合
Quest在大多数场景下提供鲁棒的Decoding性能

9.3 设计建议

更长序列容忍更高稀疏度，暗示生产环境中部署的固定预算方法是次优的。未来设计应使稀疏度适应序列长度，可能采用次线性Token预算增长策略。

Metaphor

探索