Thinking with Video:视频生成作为推理范式
1. 概述
复旦大学、上海创智学院、哈尔滨工业大学、中国香港中文大学联合团队在 CVPR 2026 提出一个颠覆性观点:
这一观点打破了”推理必须是文本符号”的传统假设。在许多视觉推理任务中(如空间旋转、心理旋转、物理直觉),生成中间视频比生成中间文本更自然、更有效。
最令人震惊的实验结果是:Sora-2 在 VideoThinkBench 的目测推理任务上超越 GPT-5 达 10%,这是首次视频生成模型在通用推理基准上击败主流 LLM。
2. 范式转变的背景
2.1 推理范式演化
| 范式 | 推理媒介 | 代表方法 | 局限 |
|---|---|---|---|
| 直接推理(Direct) | 单步输出 | GPT-3.5 | 无中间步骤 |
| 文本思维链(CoT) | 文本 | Chain-of-Thought | 符号化推理,难以处理视觉 |
| 图像思维链(CoI) | 静态图像 | MM-CoT | 缺乏时序维度 |
| 工具增强思维链 | 工具调用 | ReAct、Toolformer | 工具集固定 |
| 视频思维链(CoV) | 生成视频 | Thinking with Video | 视频生成质量受限 |
2.2 核心洞察
论文提出三个核心洞察:
洞察一:视频帧保留 3D 几何信息
文本符号难以表达”旋转 90 度后的样子”,但生成一帧旋转后的图像是 trivial 的:
洞察二:视频生成模型已学会因果物理直觉
大规模视频生成模型在训练中隐式学习了物理规律(重力、碰撞、流体),这使其在物理推理任务上具有天然优势:
洞察三:视频是”思维链”的物理形式
视频生成 = 物理世界中的多步思维链。每一帧 = 一个推理步骤:
\text{CoT:} \quad s_1 \to s_2 \to \ldots \to s_n \quad (\text{符号步骤})$$\text{CoV:} \quad v_{t_1} \to v_{t_2} \to \ldots \to v_{t_n} \quad (\text{视频步骤})
## 3. 方法框架 ### 3.1 基本流程 "Thinking with Video" 的核心流程: ``` 问题 q(含图像) ↓ [视频生成模型] 想象推理过程 ↓ 生成的视频 v = (v_1, v_2, ..., v_T) ↓ [视频理解模型] 提取答案 ↓ 最终答案 A ``` ### 3.2 形式化定义 给定输入 $x$(可能包含图像)与问题 $q$,模型生成:v = G_\theta(x, q), \quad A = f_\phi(v, q)
其中 $G_\theta$ 是视频生成模型,$f_\phi$ 是视频理解模型。 关键问题:生成的视频 $v$ 如何"编码"推理过程? 论文提出**三层编码**: 1. **空间层**:每一帧表达一个空间状态 2. **时序层**:帧间时序对应推理步骤 3. **符号层**:视频中的物体标注对应问题中的实体 ### 3.3 与传统 CoT 的对比 ```python # 传统 CoT chain_of_thought = [ "The cube has 6 faces.", "If I rotate it 90° around x-axis...", "The top face becomes the front face.", "So the answer is: ..." ] answer = "the front face" # Thinking with Video generated_video = [ frame_0: # 立方体初始状态 " ┌───┐\n │ │\n └───┘", frame_1: # 旋转 45° " ┌───┐\n │ ╱│\n └╲──┘", frame_2: # 旋转 90° " ┌───┐\n │───│\n └───┘", ] answer = "the top face (now rotated)" ``` ## 4. VideoThinkBench 基准 ### 4.1 基准设计动机 现有视频推理基准主要评估**理解能力**(给定视频,回答问题),而非**生成能力**(生成视频来推理)。VideoThinkBench 填补这一空白。 ### 4.2 任务分类 VideoThinkBench 包含三大类任务: **类别一:Eyeballing Puzzles(目测推理)** 不借助工具估计长度、角度、数量。 | 任务 | 示例 | |------|------| | 长度估计 | "比较线段 A 和线段 B 的长度" | | 角度估计 | "估计扇形的圆心角" | | 数量估计 | "图中大约有多少只鸟" | **类别二:Mental Rotation(心理旋转)** 3D 形状在 2D 投影间的旋转。 | 任务 | 示例 | |------|------| | 形状匹配 | "图 1 是否可通过旋转得到图 2" | | 旋转方向 | "需要顺时针还是逆时针旋转" | | 旋转角度 | "需要旋转多少度" | **类别三:Dynamic Reasoning(动态推理)** 基于运动轨迹的预测与因果推理。 | 任务 | 示例 | |------|------| | 轨迹预测 | "球将落到哪里" | | 物理推理 | "水会怎么流" | | 因果推理 | "如果去掉支点会怎样" | ### 4.3 评估指标 - **准确率**:答案正确率 - **生成质量**:视频质量(FID、FVD) - **推理一致性**:生成视频的物理合理性 ## 5. 关键实验结果 ### 5.1 总体性能对比 | 模型 | Eyeballing Puzzles | MMMU | VideoThinkBench 总体 | |------|-------------------|------|---------------------| | GPT-3.5 | 35% | 65% | 48% | | GPT-4 | 55% | 75% | 62% | | GPT-5 | 65% | 81% | 71% | | Claude-4 | 60% | 79% | 68% | | **Sora-2** | **75%** | 75% | **73%** | | Veo-2 | 71% | 73% | 71% | | Human | 82% | 87% | 85% | ### 5.2 任务级分析 **Eyeballing Puzzles**: Sora-2 的优势来源于: - **空间表征**:视频生成天然保留精确空间关系 - **细粒度感知**:能识别像素级差异 - **物理直觉**:估计时利用了训练中的物理知识 **Mental Rotation**: Sora-2 vs GPT-5 的对比: | 子任务 | GPT-5 | Sora-2 | 差异 | |--------|-------|--------|------| | 立方体旋转 | 78% | 92% | +14% | | 复杂多面体 | 52% | 71% | +19% | | 旋转方向判断 | 71% | 78% | +7% | | 旋转角度估计 | 58% | 65% | +7% | **Dynamic Reasoning**: Sora-2 在物理推理上有显著优势,特别在: - 流体行为预测 - 碰撞结果预测 - 重力影响分析 ### 5.3 失败案例 尽管 Sora-2 表现优秀,但仍存在以下失败: 1. **复杂几何推理**(27%):多步骤几何问题 2. **抽象符号推理**(22%):需要符号运算的问题 3. **长视频生成**(18%):长视频生成质量下降 4. **多物体交互**(15%):超过 3 个物体的交互 5. **反事实推理**(12%):违反物理常识的假设 6. **其他**(6%) ## 6. 理论分析 ### 6.1 为什么视频生成能进行推理? **解释一:空间表征的连续性** 视频帧是连续的 2D 像素场,包含丰富的空间信息。相比之下,文本是离散的符号:\text{Information}(v_i) \gg \text{Information}(\text{text token})
\text{CoT}_{\text{text}} = (s_1, s_2, \ldots, s_n), \quad s_i \in \text{text}$$
每帧 编码了第 步推理的完整视觉状态。
6.2 信息论视角
从信息论角度,视频作为推理媒介的信息容量:
其中 是中间推理状态, 是视频, 是答案。
视频包含的中间状态信息 通常远大于文本包含的。
6.3 与世界模型的联系
“Thinking with Video” 与世界模型(World Models)有深刻联系:
- 世界模型:预测下一帧 → 视频生成
- Thinking with Video:生成”应该”的下一帧 → 推理
两者都涉及”在物理世界中想象下一步”的能力。
7. 实现细节
7.1 视频生成模型选择
实验中使用的视频生成模型:
| 模型 | 参数 | 视频长度 | 质量 |
|---|---|---|---|
| Sora-2 | ~10B | 10-30s | 高 |
| Veo-2 | ~8B | 8-60s | 高 |
| Kling-1.5 | ~12B | 5-10s | 中高 |
| 可灵的 1.6 | ~10B | 5-10s | 中高 |
7.2 Prompt Engineering
针对推理任务的 prompt 设计:
prompt_template = """
请观看以下图像,然后通过想象一段推理视频来回答问题:
图像:{image_description}
问题:{question}
要求:
1. 想象一个完整的推理过程视频
2. 每一步推理应该清晰可见
3. 最后生成的视频应该展示问题的答案
请生成推理视频。
"""7.3 视频理解模型
生成视频后,使用视频理解模型提取答案:
def extract_answer(generated_video, question):
# 使用 GPT-4V 或 InternVideo2 理解生成的视频
understanding = video_understanding_model(
video=generated_video,
question=question
)
return understanding.answer8. 应用场景
8.1 STEM 教育
适用于:
- 几何推理(旋转、对称、变换)
- 物理直觉(运动、力学)
- 化学反应可视化
- 数学证明可视化
8.2 机器人规划
在机器人任务规划中,“Thinking with Video” 可用于:
- 想象动作的执行过程
- 预测动作的结果
- 选择最优动作序列
8.3 创意设计
- 建筑设计可视化
- 产品概念可视化
- 艺术创作过程
8.4 科学研究
- 假设可视化
- 实验结果预测
- 复杂系统行为理解
9. 与相关工作的比较
9.1 与 Video-Thinker 对比
| 维度 | Video-Thinker | Thinking with Video |
|---|---|---|
| 推理媒介 | 工具调用 | 生成视频 |
| 适用范围 | 长视频 | 中短视频 |
| 计算成本 | 中(工具调用) | 高(视频生成) |
| 可解释性 | 高(显式推理链) | 中(视频即推理) |
| 物理推理 | 弱 | 强 |
9.2 与世界模型对比
| 维度 | 世界模型 | Thinking with Video |
|---|---|---|
| 目标 | 预测真实下一帧 | 生成”应该”的下一帧 |
| 训练数据 | 真实视频 | 真实视频 |
| 推理能力 | 隐式 | 显式 |
| 应用 | 决策、规划 | 推理、可视化 |
9.3 与符号推理对比
| 维度 | 符号推理 | Thinking with Video |
|---|---|---|
| 推理媒介 | 形式化符号 | 视频帧 |
| 精确性 | 高 | 中 |
| 适用范围 | 数学、逻辑 | 物理、空间 |
| 可验证性 | 高 | 中 |
10. 局限性与挑战
10.1 当前局限
- 视频生成成本高:生成 10 秒视频需要 ~10 秒 GPU 时间(vs LLM 的 0.1 秒)
- 视频质量限制:生成质量直接影响推理质量
- 难以处理抽象:符号推理任务(如数学证明)仍需文本
- 评估困难:生成视频的”推理正确性”难以自动评估
10.2 未来方向
- 高效视频生成:更快的视频生成模型
- 混合推理:视频推理 + 文本推理结合
- 抽象视频生成:生成抽象符号视频
- 因果可控生成:精确控制视频中的因果关系
11. 与现有 Wiki 内容联系
- 基础:
[[../multimodal-reasoning/thinking-with-videos-survey|Thinking with Videos 综述]]- 同类方法对比 - 生成模型:
[[../machine-learning/diffusion-model|扩散模型]]- 视频生成的基础技术 - 世界模型:
[[../machine-learning/world-models|世界模型]]- 视频生成与世界模型联系 - CoT:
[[../machine-learning/chain-of-thought-reasoning|链式思维推理]]- 文本 CoT 基础 - 空间推理:
[[spatial-reasoning-llm|空间推理 LLM]]- 空间推理任务
12. 参考文献
Footnotes
-
Tong J., Mou Y., Li H., et al. “Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm.” CVPR 2026. arXiv:2511.04570 ↩
-
项目页与代码:thinking-with-video.github.io · github.com/tongjingqi/Thinking-with-Video ↩