测试时计算缩放前沿进展2026

概述

测试时计算缩放(Test-Time Compute Scaling)是近年来大型语言模型(LLM)领域最重要的研究方向之一。与传统的训练时缩放(通过增加模型参数或训练数据来提升性能)不同,测试时计算缩放关注的是在推理阶段如何有效分配计算资源,以在给定预算下获得最佳的推理效果1

什么是测试时计算缩放

测试时计算缩放的核心思想是:当推理时间预算充裕时,可以通过额外的计算来提升答案质量。这包括:

  • 多次采样与选择:生成多个候选答案,使用验证器或投票机制选择最佳答案
  • 扩展推理长度:使用更长的思维链(Chain-of-Thought)来深入思考
  • 树搜索与探索:在推理空间中进行更广泛的搜索
  • 自适应计算分配:根据问题难度动态调整计算量1

测试时缩放 vs 训练时缩放

维度训练时缩放测试时缩放
计算发生时机模型训练阶段模型推理阶段
灵活性固定,一旦训练完成动态,可根据需求调整
成本结构一次性高成本按需付费
适用场景通用能力提升关键任务优化
延迟离线训练在线推理

核心挑战

测试时计算缩放面临几个核心挑战:

  1. 计算效率:如何在有限的计算预算下最大化效果
  2. 策略选择:不同问题可能需要不同的推理策略
  3. 边际效益递减:超过一定点后,增加计算资源的收益会显著降低
  4. 错误累积:长推理链中错误可能累积,导致结果变差2

测试时计算策略分类

基于验证器的策略

验证器引导的方法使用一个单独的验证模型来评估候选答案的质量:

Self-Consistency with Verifier

  • 生成多个候选推理路径
  • 使用验证器为每个路径打分
  • 选择得分最高的路径作为最终答案
def verifier_guided_reasoning(model, verifier, prompt, num_samples=10):
    """验证器引导的推理"""
    candidates = []
    scores = []
    
    # 生成多个候选
    for _ in range(num_samples):
        response = model.generate(prompt, temperature=0.8)
        candidates.append(response)
        
        # 验证器打分
        score = verifier.score(prompt, response)
        scores.append(score)
    
    # 选择最佳候选
    best_idx = np.argmax(scores)
    return candidates[best_idx]

树搜索策略

树搜索方法在推理空间中进行系统性探索:

Beam Search扩展

  • 维护多个活跃的推理路径
  • 每步扩展所有路径
  • 使用累积分数进行剪枝

Monte Carlo Tree Search (MCTS)

  • 使用树结构组织推理空间
  • 通过随机模拟评估路径价值
  • 平衡探索与利用
class MCTSNode:
    def __init__(self, state, parent=None):
        self.state = state
        self.parent = parent
        self.children = {}
        self.visit_count = 0
        self.value_sum = 0.0
    
    def uct_score(self, c_param=1.414):
        """UCB1公式计算UCT分数"""
        if self.visit_count == 0:
            return float('inf')
        exploitation = self.value_sum / self.visit_count
        exploration = c_param * np.sqrt(np.log(self.parent.visit_count) / self.visit_count)
        return exploitation + exploration

自适应分配策略

自适应策略根据问题难度动态分配计算资源1

基于难度的分配

  • 简单问题:少量计算即可得到正确答案
  • 困难问题:需要更多的推理步骤

基于性能的动态调整

  • 监控推理过程中的置信度
  • 当置信度持续低迷时增加计算
  • 当已找到高质量答案时提前终止

最新研究进展(2025-2026)

Forest-of-Thought:多思维路径扩展

ICML 2025的Forest-of-Thought提出了一种新颖的多思维路径生成框架3

核心思想

  • 将推理视为在”思维森林”中的探索
  • 同时维护多个推理路径
  • 通过集成多个路径来提升推理质量

技术框架

  1. 思维森林构建

    • 从根节点(问题)开始
    • 每次扩展生成多个子思维
    • 保持探索的多样性
  2. 路径评估

    • 每个叶节点代表一个完整推理
    • 使用验证器评估路径质量
    • 聚合多个路径的信息
  3. 结果集成

    • 加权投票或选择性集成
    • 置信度加权平均

实验结果

  • 在数学推理任务上显著优于单路径方法
  • 代码生成任务提升明显
  • 推理效率相比穷举搜索大幅提升

Scaling by Thinking:连续空间推理

NeurIPS 2025的Scaling by Thinking提出了隐式推理的新范式4

核心创新

  • 不在离散Token空间中进行推理
  • 在连续的隐状态空间中进行”思考”
  • 通过展开循环块来隐式扩展计算

架构设计

class RecurrentReasoningBlock(nn.Module):
    """循环推理块 - 隐式推理的核心"""
    def __init__(self, hidden_dim):
        super().__init__()
        self.transition = nn.Linear(hidden_dim, hidden_dim)
        self.gate = nn.Linear(hidden_dim * 2, hidden_dim)
        self.norm = nn.LayerNorm(hidden_dim)
    
    def forward(self, hidden_state, num_steps=1):
        """迭代推理:在隐空间中展开计算"""
        for _ in range(num_steps):
            # 门控更新
            combined = torch.cat([hidden_state, self.transition(hidden_state)], dim=-1)
            gate = torch.sigmoid(self.gate(combined))
            candidate = torch.tanh(self.transition(hidden_state))
            hidden_state = gate * hidden_state + (1 - gate) * candidate
            hidden_state = self.norm(hidden_state)
        return hidden_state

优势

  • 推理效率显著高于显式Token生成
  • 可以在任意深度展开
  • 避免离散空间推理的噪声

Adaptive Test-Time Compute Allocation

arXiv 2604.14853提出了一种约束优化框架下的自适应计算分配方法1

问题形式化

其中 是推理策略, 是轨迹 的奖励, 是计算成本, 是预算。

方法特点

  • 将计算分配问题形式化为约束优化
  • 使用强化学习学习策略
  • 支持动态预算调整

实验结果

  • AIME-2025验证准确率显著提升
  • 训练时间减少2.5倍(相比同步训练)
  • 计算效率提升明显

Parameter vs Test-Time Scaling对比

The Art of Scaling Test-Time Compute系统比较了参数量缩放与测试时计算缩放5

关键发现

  1. 成本效率:对于某些任务,小模型+测试时缩放比大模型更经济
  2. 任务依赖:不同任务对两种缩放方式的响应不同
  3. 最优分配:存在最优的参数-测试时计算分配点

Pareto最优边界

  • 横轴:模型参数量
  • 纵轴:测试时计算量
  • Pareto前沿上的点代表最优权衡

效率-效果权衡分析

计算预算分配

在有限计算预算下,如何最优分配是关键问题。

边际效益分析

通常会发现:

  • 前几步计算带来显著提升
  • 边际收益快速递减
  • 存在明显的收益饱和点

问题难度与策略选择

难度估计方法

  • 基于Token概率的熵
  • 中间答案的一致性
  • 验证器的置信度

自适应策略选择

问题难度推荐策略预期收益
简单直接回答/少量采样
中等标准CoT/少量搜索中-高
困难长CoT/树搜索/验证器

边际效益递减的数学刻画

为测试时计算量为 时的性能,则常见的函数形式:

对数模型

幂律模型

饱和模型

这些模型都能刻画边际效益递减的现象。


实践指南

何时使用测试时缩放

推荐场景

  • 任务质量要求高
  • 计算资源充裕
  • 问题有验证可能
  • 响应延迟可接受

不推荐场景

  • 实时性要求高
  • 计算资源受限
  • 批量处理场景
  • 问题过于简单

资源受限场景的最优策略

当计算资源受限时,推荐策略优先级:

  1. 温度采样优化:调整temperature和top-p
  2. 早停策略:当置信度高时提前终止
  3. 轻量级验证器:使用小模型作为验证器
  4. 知识蒸馏:将推理能力压缩到模型中

开源工具与实现

主要工具

  • vLLM:支持PagedAttention和连续批处理
  • Hugging Face TGI:优化推理服务
  • LightLLM:高效推理框架
  • DeepSeek-V2:原生支持测试时缩放

示例代码

from vllm import LLM, SamplingParams
 
def scaled_reasoning(model_path, prompt, max_compute_budget=1000):
    """带计算预算的推理"""
    llm = LLM(model=model_path)
    
    # 自适应采样策略
    for compute_step in range(max_compute_budget):
        outputs = llm.generate([prompt])
        
        # 检查是否满足停止条件
        if check_confidence(outputs[0]):
            break
        
        # 增加计算(可能需要多次采样)
        prompt = refine_prompt(outputs[0])
    
    return outputs[0]

总结与展望

测试时计算缩放已经成为LLM推理优化的核心研究方向。从早期的简单多次采样,到现在的Forest-of-Thought、Scaling by Thinking等复杂策略,这个领域正在快速演进。

未来趋势

  1. 自适应策略普及:根据问题难度自动调整计算
  2. 隐式推理崛起:在隐空间进行”思考”可能更高效
  3. 软硬件协同:专门为测试时缩放优化的硬件
  4. 混合策略:结合多种方法的优势

关键洞察

  • 测试时缩放不是万能的,存在明显的边际效益递减
  • 问题难度估计是自适应策略的关键
  • 隐式推理可能是突破效率瓶颈的关键

参考资料

Footnotes

  1. Adaptive Test-Time Compute Allocation for Reasoning LLMs via Constrained Policy Optimization. arXiv:2604.14853. Fudan University & ETH Zurich. 2 3 4

  2. Scaling over Scaling: Exploring Test-Time Scaling Plateau in Large Reasoning Models. arXiv:2505.20522.

  3. Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning. ICML 2025. Proceedings of Machine Learning Research 267:4253-4267.

  4. Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach. NeurIPS 2025.

  5. The Art of Scaling Test-Time Compute for Large Language Models. arXiv:2512.02008. Microsoft Research & IIT Delhi.