测试时计算专题索引
专题介绍
测试时计算缩放(Test-Time Compute Scaling)是大型语言模型(LLM)领域的重要研究方向,旨在通过在推理阶段分配更多计算资源来提升模型性能。与传统的训练时缩放不同,测试时计算缩放提供了更灵活的性能优化手段。
核心问题:如何在有限的推理计算预算下,最大化模型的推理效果?
发展历程
| 阶段 | 时间 | 关键突破 |
|---|---|---|
| 萌芽期 | 2022-2023 | Chain-of-Thought推理 |
| 发展期 | 2023-2024 | Self-Consistency、多采样投票 |
| 成熟期 | 2024-2025 | 树搜索、验证器引导 |
| 突破期 | 2025-2026 | 隐式推理、混合架构、自适应分配 |
内容导航
核心概念
推理模型与架构
前沿方法
相关专题
- Agentic Reasoning — 推理与Agent结合
- 测试时计算自适应缩放 — 自适应缩放策略
- RLVR推理训练 — 推理能力的强化学习训练
学习路径
入门路径
目标:理解测试时计算缩放的基本概念和方法
-
第一阶段:阅读 测试时计算缩放前沿进展2026
- 了解什么是测试时计算缩放
- 掌握基本策略分类(验证器、树搜索、自适应)
-
第二阶段:阅读 测试时缩放高原现象分析
- 理解边际效益递减现象
- 掌握高原突破策略
-
第三阶段:实践
- 尝试简单的多采样投票方法
- 实现基本的早停机制
进阶路径
目标:深入理解前沿方法,能够实现复杂推理系统
-
第一阶段:深入架构
-
第二阶段:高级方法
-
第三阶段:实践
- 实现完整的生成-验证循环
- 训练自定义验证器
研究路径
目标:跟踪最新研究,能够提出创新方法
- 广泛阅读:arXiv论文、顶会论文
- 深入分析:复现关键方法
- 创新思考:发现现有方法的局限
- 理论探索:建立形式化框架
核心公式速查
性能-计算关系
对数模型:
幂律模型:
自适应分配
约束优化:
拉格朗日形式:
工具与库
推理框架
| 框架 | 特点 | 适用场景 |
|---|---|---|
| vLLM | PagedAttention、高吞吐 | 生产部署 |
| Hugging Face TGI | 易于使用、稳定性好 | 通用场景 |
| LightLLM | 轻量级、高效率 | 资源受限 |
| DeepSeek-V2 | 原生支持TTA | 深度优化 |
验证器相关
- Reward Models:训练用于评估答案质量的模型
- Process Reward Models:评估推理过程的每一步
- Consistency Checkers:检测推理的一致性
论文推荐
必读论文
-
Forest-of-Thought (ICML 2025)
- 多思维路径推理框架
- [arXiv链接]
-
Scaling by Thinking (NeurIPS 2025)
- 隐式推理与循环深度
- [arXiv链接]
-
Adaptive Test-Time Compute (arXiv 2026)
- 约束优化框架
- [arXiv链接]
-
Scaling over Scaling (arXiv 2025)
- 高原现象分析
- [arXiv链接]
进阶论文
- Self-Consistency
- Tree of Thoughts
- Reflexion
- VCPO (Value-Constrained Policy Optimization)
- GRPO / DAPO
前沿论文
- Large Reasoning Models相关
- Test-Time Compute Scaling相关
- 隐式推理相关
实践项目
初级项目
-
多采样投票系统
- 实现多次采样和投票
- 比较不同采样策略
-
早停机制
- 基于置信度的早停
- 评估效率提升
中级项目
-
验证器训练
- 使用标注数据训练验证器
- 实现步骤级验证
-
自适应分配器
- 基于问题难度的分配
- 动态调整策略
高级项目
-
完整生成-验证循环
- 实现自我修正机制
- 端到端优化
-
混合推理系统
- 结合显式和隐式推理
- 根据问题自适应选择
相关领域链接
上游领域
并行领域
下游应用
更新日志
- 2026-05-16:创建专题索引
- 添加核心文档链接
- 建立学习路径
- 整理论文推荐
专题维护者:Wiki AI Team
最后更新:2026-05-16