LLM推理系统与优化专题

本专题系统性地介绍大语言模型(LLM)推理优化的核心技术与实践方法。

专题内容

推理系统基础

KV Cache优化

推理系统优化

学习路径

入门路线

1. 推理系统基础
   └─> 理解LLM推理的pipeline和瓶颈

2. KV Cache机制
   └─> MLA/PyramidKV/H2O/StreamingLLM

3. 批处理优化
   └─> 连续批处理原理

4. 长上下文处理
   └─> 各种优化技术的综合应用

进阶路线

1. 深入理解注意力机制的变体
   └─> DuoAttention的检索/流式分离

2. 系统级优化
   └─> Titan推理系统架构

3. 协同设计
   └─> 模型-系统-硬件联合优化

核心公式速查

注意力计算

KV Cache内存

PyramidKV缓存

H2O累积分数

论文推荐

必读论文

论文年份核心贡献
vLLM: PagedAttention2023Paged KV Cache
DeepSeek-V3 MLA2024低秩KV压缩
H2O2023重击手机制
StreamingLLM2023Attention Sink
Titan2025SOTA推理系统

进阶论文

论文年份核心贡献
FlashAttention2022IO感知的注意力
PyramidKV2024金字塔式缓存
DuoAttention2024双路径注意力
YaRN2023RoPE外推
LongRoPE2024超长上下文

工具与框架

框架特点适用场景
|vLLMPagedAttention,连续批处理通用推理
|TensorRT-LLMNVIDIA优化生产部署
|llama.cpp量化,CPU推理本地部署
|SGLangRadixAttention高吞吐

相关专题