LLM推理系统与优化专题
本专题系统性地介绍大语言模型(LLM)推理优化的核心技术与实践方法。
专题内容
推理系统基础
KV Cache优化
推理系统优化
学习路径
入门路线
1. 推理系统基础
└─> 理解LLM推理的pipeline和瓶颈
2. KV Cache机制
└─> MLA/PyramidKV/H2O/StreamingLLM
3. 批处理优化
└─> 连续批处理原理
4. 长上下文处理
└─> 各种优化技术的综合应用
进阶路线
1. 深入理解注意力机制的变体
└─> DuoAttention的检索/流式分离
2. 系统级优化
└─> Titan推理系统架构
3. 协同设计
└─> 模型-系统-硬件联合优化
核心公式速查
注意力计算
Attention(Q,K,V)=softmax(dkQKT)V
KV Cache内存
MemoryKV=2×L×H×D×T×B
PyramidKV缓存
cache_size[l]=max_len×(1−α⋅Ll)2
H2O累积分数
sj(t)=sj(t−1)+i=1∑tαi,j
论文推荐
必读论文
| 论文 | 年份 | 核心贡献 |
|---|
| vLLM: PagedAttention | 2023 | Paged KV Cache |
| DeepSeek-V3 MLA | 2024 | 低秩KV压缩 |
| H2O | 2023 | 重击手机制 |
| StreamingLLM | 2023 | Attention Sink |
| Titan | 2025 | SOTA推理系统 |
进阶论文
| 论文 | 年份 | 核心贡献 |
|---|
| FlashAttention | 2022 | IO感知的注意力 |
| PyramidKV | 2024 | 金字塔式缓存 |
| DuoAttention | 2024 | 双路径注意力 |
| YaRN | 2023 | RoPE外推 |
| LongRoPE | 2024 | 超长上下文 |
工具与框架
相关专题