Thinking with Video:视频生成作为推理范式

1. 概述

复旦大学、上海创智学院、哈尔滨工业大学、中国香港中文大学联合团队在 CVPR 2026 提出一个颠覆性观点:

视频生成模型本身可以作为推理模型——让模型”想象”出推理过程。12

这一观点打破了”推理必须是文本符号”的传统假设。在许多视觉推理任务中(如空间旋转、心理旋转、物理直觉),生成中间视频生成中间文本更自然、更有效。

最令人震惊的实验结果是:Sora-2 在 VideoThinkBench 的目测推理任务上超越 GPT-5 达 10%,这是首次视频生成模型在通用推理基准上击败主流 LLM。

2. 范式转变的背景

2.1 推理范式演化

范式推理媒介代表方法局限
直接推理(Direct)单步输出GPT-3.5无中间步骤
文本思维链(CoT)文本Chain-of-Thought符号化推理,难以处理视觉
图像思维链(CoI)静态图像MM-CoT缺乏时序维度
工具增强思维链工具调用ReAct、Toolformer工具集固定
视频思维链(CoV)生成视频Thinking with Video视频生成质量受限

2.2 核心洞察

论文提出三个核心洞察:

洞察一:视频帧保留 3D 几何信息

文本符号难以表达”旋转 90 度后的样子”,但生成一帧旋转后的图像是 trivial 的:

洞察二:视频生成模型已学会因果物理直觉

大规模视频生成模型在训练中隐式学习了物理规律(重力、碰撞、流体),这使其在物理推理任务上具有天然优势:

洞察三:视频是”思维链”的物理形式

视频生成 = 物理世界中的多步思维链。每一帧 = 一个推理步骤:

\text{CoT:} \quad s_1 \to s_2 \to \ldots \to s_n \quad (\text{符号步骤})$$

\text{CoV:} \quad v_{t_1} \to v_{t_2} \to \ldots \to v_{t_n} \quad (\text{视频步骤})

## 3. 方法框架 ### 3.1 基本流程 "Thinking with Video" 的核心流程: ``` 问题 q(含图像) ↓ [视频生成模型] 想象推理过程 ↓ 生成的视频 v = (v_1, v_2, ..., v_T) ↓ [视频理解模型] 提取答案 ↓ 最终答案 A ``` ### 3.2 形式化定义 给定输入 $x$(可能包含图像)与问题 $q$,模型生成:

v = G_\theta(x, q), \quad A = f_\phi(v, q)

其中 $G_\theta$ 是视频生成模型,$f_\phi$ 是视频理解模型。 关键问题:生成的视频 $v$ 如何"编码"推理过程? 论文提出**三层编码**: 1. **空间层**:每一帧表达一个空间状态 2. **时序层**:帧间时序对应推理步骤 3. **符号层**:视频中的物体标注对应问题中的实体 ### 3.3 与传统 CoT 的对比 ```python # 传统 CoT chain_of_thought = [ "The cube has 6 faces.", "If I rotate it 90° around x-axis...", "The top face becomes the front face.", "So the answer is: ..." ] answer = "the front face" # Thinking with Video generated_video = [ frame_0: # 立方体初始状态 " ┌───┐\n │ │\n └───┘", frame_1: # 旋转 45° " ┌───┐\n │ ╱│\n └╲──┘", frame_2: # 旋转 90° " ┌───┐\n │───│\n └───┘", ] answer = "the top face (now rotated)" ``` ## 4. VideoThinkBench 基准 ### 4.1 基准设计动机 现有视频推理基准主要评估**理解能力**(给定视频,回答问题),而非**生成能力**(生成视频来推理)。VideoThinkBench 填补这一空白。 ### 4.2 任务分类 VideoThinkBench 包含三大类任务: **类别一:Eyeballing Puzzles(目测推理)** 不借助工具估计长度、角度、数量。 | 任务 | 示例 | |------|------| | 长度估计 | "比较线段 A 和线段 B 的长度" | | 角度估计 | "估计扇形的圆心角" | | 数量估计 | "图中大约有多少只鸟" | **类别二:Mental Rotation(心理旋转)** 3D 形状在 2D 投影间的旋转。 | 任务 | 示例 | |------|------| | 形状匹配 | "图 1 是否可通过旋转得到图 2" | | 旋转方向 | "需要顺时针还是逆时针旋转" | | 旋转角度 | "需要旋转多少度" | **类别三:Dynamic Reasoning(动态推理)** 基于运动轨迹的预测与因果推理。 | 任务 | 示例 | |------|------| | 轨迹预测 | "球将落到哪里" | | 物理推理 | "水会怎么流" | | 因果推理 | "如果去掉支点会怎样" | ### 4.3 评估指标 - **准确率**:答案正确率 - **生成质量**:视频质量(FID、FVD) - **推理一致性**:生成视频的物理合理性 ## 5. 关键实验结果 ### 5.1 总体性能对比 | 模型 | Eyeballing Puzzles | MMMU | VideoThinkBench 总体 | |------|-------------------|------|---------------------| | GPT-3.5 | 35% | 65% | 48% | | GPT-4 | 55% | 75% | 62% | | GPT-5 | 65% | 81% | 71% | | Claude-4 | 60% | 79% | 68% | | **Sora-2** | **75%** | 75% | **73%** | | Veo-2 | 71% | 73% | 71% | | Human | 82% | 87% | 85% | ### 5.2 任务级分析 **Eyeballing Puzzles**: Sora-2 的优势来源于: - **空间表征**:视频生成天然保留精确空间关系 - **细粒度感知**:能识别像素级差异 - **物理直觉**:估计时利用了训练中的物理知识 **Mental Rotation**: Sora-2 vs GPT-5 的对比: | 子任务 | GPT-5 | Sora-2 | 差异 | |--------|-------|--------|------| | 立方体旋转 | 78% | 92% | +14% | | 复杂多面体 | 52% | 71% | +19% | | 旋转方向判断 | 71% | 78% | +7% | | 旋转角度估计 | 58% | 65% | +7% | **Dynamic Reasoning**: Sora-2 在物理推理上有显著优势,特别在: - 流体行为预测 - 碰撞结果预测 - 重力影响分析 ### 5.3 失败案例 尽管 Sora-2 表现优秀,但仍存在以下失败: 1. **复杂几何推理**(27%):多步骤几何问题 2. **抽象符号推理**(22%):需要符号运算的问题 3. **长视频生成**(18%):长视频生成质量下降 4. **多物体交互**(15%):超过 3 个物体的交互 5. **反事实推理**(12%):违反物理常识的假设 6. **其他**(6%) ## 6. 理论分析 ### 6.1 为什么视频生成能进行推理? **解释一:空间表征的连续性** 视频帧是连续的 2D 像素场,包含丰富的空间信息。相比之下,文本是离散的符号:

\text{Information}(v_i) \gg \text{Information}(\text{text token})

\text{CoT}_{\text{text}} = (s_1, s_2, \ldots, s_n), \quad s_i \in \text{text}$$

每帧 编码了第 步推理的完整视觉状态。

6.2 信息论视角

从信息论角度,视频作为推理媒介的信息容量:

其中 是中间推理状态, 是视频, 是答案。

视频包含的中间状态信息 通常远大于文本包含的。

6.3 与世界模型的联系

“Thinking with Video” 与世界模型(World Models)有深刻联系:

  • 世界模型:预测下一帧 → 视频生成
  • Thinking with Video:生成”应该”的下一帧 → 推理

两者都涉及”在物理世界中想象下一步”的能力。

7. 实现细节

7.1 视频生成模型选择

实验中使用的视频生成模型:

模型参数视频长度质量
Sora-2~10B10-30s
Veo-2~8B8-60s
Kling-1.5~12B5-10s中高
可灵的 1.6~10B5-10s中高

7.2 Prompt Engineering

针对推理任务的 prompt 设计:

prompt_template = """
请观看以下图像,然后通过想象一段推理视频来回答问题:
 
图像:{image_description}
问题:{question}
 
要求:
1. 想象一个完整的推理过程视频
2. 每一步推理应该清晰可见
3. 最后生成的视频应该展示问题的答案
 
请生成推理视频。
"""

7.3 视频理解模型

生成视频后,使用视频理解模型提取答案:

def extract_answer(generated_video, question):
    # 使用 GPT-4V 或 InternVideo2 理解生成的视频
    understanding = video_understanding_model(
        video=generated_video,
        question=question
    )
    return understanding.answer

8. 应用场景

8.1 STEM 教育

适用于:

  • 几何推理(旋转、对称、变换)
  • 物理直觉(运动、力学)
  • 化学反应可视化
  • 数学证明可视化

8.2 机器人规划

在机器人任务规划中,“Thinking with Video” 可用于:

  • 想象动作的执行过程
  • 预测动作的结果
  • 选择最优动作序列

8.3 创意设计

  • 建筑设计可视化
  • 产品概念可视化
  • 艺术创作过程

8.4 科学研究

  • 假设可视化
  • 实验结果预测
  • 复杂系统行为理解

9. 与相关工作的比较

9.1 与 Video-Thinker 对比

维度Video-ThinkerThinking with Video
推理媒介工具调用生成视频
适用范围长视频中短视频
计算成本中(工具调用)高(视频生成)
可解释性高(显式推理链)中(视频即推理)
物理推理

9.2 与世界模型对比

维度世界模型Thinking with Video
目标预测真实下一帧生成”应该”的下一帧
训练数据真实视频真实视频
推理能力隐式显式
应用决策、规划推理、可视化

9.3 与符号推理对比

维度符号推理Thinking with Video
推理媒介形式化符号视频帧
精确性
适用范围数学、逻辑物理、空间
可验证性

10. 局限性与挑战

10.1 当前局限

  1. 视频生成成本高:生成 10 秒视频需要 ~10 秒 GPU 时间(vs LLM 的 0.1 秒)
  2. 视频质量限制:生成质量直接影响推理质量
  3. 难以处理抽象:符号推理任务(如数学证明)仍需文本
  4. 评估困难:生成视频的”推理正确性”难以自动评估

10.2 未来方向

  1. 高效视频生成:更快的视频生成模型
  2. 混合推理:视频推理 + 文本推理结合
  3. 抽象视频生成:生成抽象符号视频
  4. 因果可控生成:精确控制视频中的因果关系

11. 与现有 Wiki 内容联系

  • 基础[[../multimodal-reasoning/thinking-with-videos-survey|Thinking with Videos 综述]] - 同类方法对比
  • 生成模型[[../machine-learning/diffusion-model|扩散模型]] - 视频生成的基础技术
  • 世界模型[[../machine-learning/world-models|世界模型]] - 视频生成与世界模型联系
  • CoT[[../machine-learning/chain-of-thought-reasoning|链式思维推理]] - 文本 CoT 基础
  • 空间推理[[spatial-reasoning-llm|空间推理 LLM]] - 空间推理任务

12. 参考文献

Footnotes

  1. Tong J., Mou Y., Li H., et al. “Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm.” CVPR 2026. arXiv:2511.04570

  2. 项目页与代码:thinking-with-video.github.io · github.com/tongjingqi/Thinking-with-Video