测试时计算缩放前沿进展2026
概述
测试时计算缩放(Test-Time Compute Scaling)是近年来大型语言模型(LLM)领域最重要的研究方向之一。与传统的训练时缩放(通过增加模型参数或训练数据来提升性能)不同,测试时计算缩放关注的是在推理阶段如何有效分配计算资源,以在给定预算下获得最佳的推理效果1。
什么是测试时计算缩放
测试时计算缩放的核心思想是:当推理时间预算充裕时,可以通过额外的计算来提升答案质量。这包括:
- 多次采样与选择:生成多个候选答案,使用验证器或投票机制选择最佳答案
- 扩展推理长度:使用更长的思维链(Chain-of-Thought)来深入思考
- 树搜索与探索:在推理空间中进行更广泛的搜索
- 自适应计算分配:根据问题难度动态调整计算量1
测试时缩放 vs 训练时缩放
| 维度 | 训练时缩放 | 测试时缩放 |
|---|---|---|
| 计算发生时机 | 模型训练阶段 | 模型推理阶段 |
| 灵活性 | 固定,一旦训练完成 | 动态,可根据需求调整 |
| 成本结构 | 一次性高成本 | 按需付费 |
| 适用场景 | 通用能力提升 | 关键任务优化 |
| 延迟 | 离线训练 | 在线推理 |
核心挑战
测试时计算缩放面临几个核心挑战:
- 计算效率:如何在有限的计算预算下最大化效果
- 策略选择:不同问题可能需要不同的推理策略
- 边际效益递减:超过一定点后,增加计算资源的收益会显著降低
- 错误累积:长推理链中错误可能累积,导致结果变差2
测试时计算策略分类
基于验证器的策略
验证器引导的方法使用一个单独的验证模型来评估候选答案的质量:
Self-Consistency with Verifier:
- 生成多个候选推理路径
- 使用验证器为每个路径打分
- 选择得分最高的路径作为最终答案
def verifier_guided_reasoning(model, verifier, prompt, num_samples=10):
"""验证器引导的推理"""
candidates = []
scores = []
# 生成多个候选
for _ in range(num_samples):
response = model.generate(prompt, temperature=0.8)
candidates.append(response)
# 验证器打分
score = verifier.score(prompt, response)
scores.append(score)
# 选择最佳候选
best_idx = np.argmax(scores)
return candidates[best_idx]树搜索策略
树搜索方法在推理空间中进行系统性探索:
Beam Search扩展:
- 维护多个活跃的推理路径
- 每步扩展所有路径
- 使用累积分数进行剪枝
Monte Carlo Tree Search (MCTS):
- 使用树结构组织推理空间
- 通过随机模拟评估路径价值
- 平衡探索与利用
class MCTSNode:
def __init__(self, state, parent=None):
self.state = state
self.parent = parent
self.children = {}
self.visit_count = 0
self.value_sum = 0.0
def uct_score(self, c_param=1.414):
"""UCB1公式计算UCT分数"""
if self.visit_count == 0:
return float('inf')
exploitation = self.value_sum / self.visit_count
exploration = c_param * np.sqrt(np.log(self.parent.visit_count) / self.visit_count)
return exploitation + exploration自适应分配策略
自适应策略根据问题难度动态分配计算资源1:
基于难度的分配:
- 简单问题:少量计算即可得到正确答案
- 困难问题:需要更多的推理步骤
基于性能的动态调整:
- 监控推理过程中的置信度
- 当置信度持续低迷时增加计算
- 当已找到高质量答案时提前终止
最新研究进展(2025-2026)
Forest-of-Thought:多思维路径扩展
ICML 2025的Forest-of-Thought提出了一种新颖的多思维路径生成框架3。
核心思想:
- 将推理视为在”思维森林”中的探索
- 同时维护多个推理路径
- 通过集成多个路径来提升推理质量
技术框架:
-
思维森林构建
- 从根节点(问题)开始
- 每次扩展生成多个子思维
- 保持探索的多样性
-
路径评估
- 每个叶节点代表一个完整推理
- 使用验证器评估路径质量
- 聚合多个路径的信息
-
结果集成
- 加权投票或选择性集成
- 置信度加权平均
实验结果:
- 在数学推理任务上显著优于单路径方法
- 代码生成任务提升明显
- 推理效率相比穷举搜索大幅提升
Scaling by Thinking:连续空间推理
NeurIPS 2025的Scaling by Thinking提出了隐式推理的新范式4。
核心创新:
- 不在离散Token空间中进行推理
- 在连续的隐状态空间中进行”思考”
- 通过展开循环块来隐式扩展计算
架构设计:
class RecurrentReasoningBlock(nn.Module):
"""循环推理块 - 隐式推理的核心"""
def __init__(self, hidden_dim):
super().__init__()
self.transition = nn.Linear(hidden_dim, hidden_dim)
self.gate = nn.Linear(hidden_dim * 2, hidden_dim)
self.norm = nn.LayerNorm(hidden_dim)
def forward(self, hidden_state, num_steps=1):
"""迭代推理:在隐空间中展开计算"""
for _ in range(num_steps):
# 门控更新
combined = torch.cat([hidden_state, self.transition(hidden_state)], dim=-1)
gate = torch.sigmoid(self.gate(combined))
candidate = torch.tanh(self.transition(hidden_state))
hidden_state = gate * hidden_state + (1 - gate) * candidate
hidden_state = self.norm(hidden_state)
return hidden_state优势:
- 推理效率显著高于显式Token生成
- 可以在任意深度展开
- 避免离散空间推理的噪声
Adaptive Test-Time Compute Allocation
arXiv 2604.14853提出了一种约束优化框架下的自适应计算分配方法1。
问题形式化:
其中 是推理策略, 是轨迹 的奖励, 是计算成本, 是预算。
方法特点:
- 将计算分配问题形式化为约束优化
- 使用强化学习学习策略
- 支持动态预算调整
实验结果:
- AIME-2025验证准确率显著提升
- 训练时间减少2.5倍(相比同步训练)
- 计算效率提升明显
Parameter vs Test-Time Scaling对比
The Art of Scaling Test-Time Compute系统比较了参数量缩放与测试时计算缩放5。
关键发现:
- 成本效率:对于某些任务,小模型+测试时缩放比大模型更经济
- 任务依赖:不同任务对两种缩放方式的响应不同
- 最优分配:存在最优的参数-测试时计算分配点
Pareto最优边界:
- 横轴:模型参数量
- 纵轴:测试时计算量
- Pareto前沿上的点代表最优权衡
效率-效果权衡分析
计算预算分配
在有限计算预算下,如何最优分配是关键问题。
边际效益分析:
通常会发现:
- 前几步计算带来显著提升
- 边际收益快速递减
- 存在明显的收益饱和点
问题难度与策略选择
难度估计方法:
- 基于Token概率的熵
- 中间答案的一致性
- 验证器的置信度
自适应策略选择:
| 问题难度 | 推荐策略 | 预期收益 |
|---|---|---|
| 简单 | 直接回答/少量采样 | 高 |
| 中等 | 标准CoT/少量搜索 | 中-高 |
| 困难 | 长CoT/树搜索/验证器 | 中 |
边际效益递减的数学刻画
设 为测试时计算量为 时的性能,则常见的函数形式:
对数模型:
幂律模型:
饱和模型:
这些模型都能刻画边际效益递减的现象。
实践指南
何时使用测试时缩放
推荐场景:
- 任务质量要求高
- 计算资源充裕
- 问题有验证可能
- 响应延迟可接受
不推荐场景:
- 实时性要求高
- 计算资源受限
- 批量处理场景
- 问题过于简单
资源受限场景的最优策略
当计算资源受限时,推荐策略优先级:
- 温度采样优化:调整temperature和top-p
- 早停策略:当置信度高时提前终止
- 轻量级验证器:使用小模型作为验证器
- 知识蒸馏:将推理能力压缩到模型中
开源工具与实现
主要工具:
- vLLM:支持PagedAttention和连续批处理
- Hugging Face TGI:优化推理服务
- LightLLM:高效推理框架
- DeepSeek-V2:原生支持测试时缩放
示例代码:
from vllm import LLM, SamplingParams
def scaled_reasoning(model_path, prompt, max_compute_budget=1000):
"""带计算预算的推理"""
llm = LLM(model=model_path)
# 自适应采样策略
for compute_step in range(max_compute_budget):
outputs = llm.generate([prompt])
# 检查是否满足停止条件
if check_confidence(outputs[0]):
break
# 增加计算(可能需要多次采样)
prompt = refine_prompt(outputs[0])
return outputs[0]总结与展望
测试时计算缩放已经成为LLM推理优化的核心研究方向。从早期的简单多次采样,到现在的Forest-of-Thought、Scaling by Thinking等复杂策略,这个领域正在快速演进。
未来趋势:
- 自适应策略普及:根据问题难度自动调整计算
- 隐式推理崛起:在隐空间进行”思考”可能更高效
- 软硬件协同:专门为测试时缩放优化的硬件
- 混合策略:结合多种方法的优势
关键洞察:
- 测试时缩放不是万能的,存在明显的边际效益递减
- 问题难度估计是自适应策略的关键
- 隐式推理可能是突破效率瓶颈的关键
参考资料
Footnotes
-
Adaptive Test-Time Compute Allocation for Reasoning LLMs via Constrained Policy Optimization. arXiv:2604.14853. Fudan University & ETH Zurich. ↩ ↩2 ↩3 ↩4
-
Scaling over Scaling: Exploring Test-Time Scaling Plateau in Large Reasoning Models. arXiv:2505.20522. ↩
-
Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning. ICML 2025. Proceedings of Machine Learning Research 267:4253-4267. ↩
-
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach. NeurIPS 2025. ↩
-
The Art of Scaling Test-Time Compute for Large Language Models. arXiv:2512.02008. Microsoft Research & IIT Delhi. ↩