“Thinking with Videos” 多模态视频推理范式综述

1. 概述

2026 年初，ICLR 2026 与 CVPR 2026 出现了一系列以 “Thinking with Videos” 为核心的视频推理工作，标志着多模态大语言模型（MLLM）的视频理解从”被动感知”向”主动推理”的范式转变。¹²³⁴

与传统的”图像思维链（Chain-of-Images）“或”思维文本（Thinking with Text）“不同，“Thinking with Videos” 强调：

以视频片段作为推理中间步骤：模型将推理过程物化为可解释的视频子序列
主动帧采样与定位：模型学会”看哪一帧”而非”看全部帧”
工具增强推理：结合外部工具（检测器、跟踪器、视频生成模型）形成 Agentic 推理

本综述系统梳理 2025-2026 年间该方向的三类代表性工作：

工作	会议	核心范式
Video-Thinker	ICLR 2026	强化学习驱动 “Thinking with Videos”
Thinking With Videos	CVPR 2026	多模态工具增强的强化学习长视频推理
Thinking with Video	CVPR 2026	视频生成作为推理范式（Sora-2 vs GPT-5）
VideoThinker	ICLR 2026	LLM 引导工具推理的 Agentic VideoLLM

2. 视频推理的问题形式化

2.1 基本定义

给定视频 $V = {v_{1}, v_{2}, \dots, v_{T}}$ 与自然语言问题 $Q$ ，视频推理的目标是生成答案 $A$ 。传统 MLLM 的方式：

A = f_{MLLM} (Q, Encode (V))

其中 $Encode$ 通常是对所有帧进行稠密采样后编码，导致 长视频 O(T) 内存瓶颈。

2.2 “Thinking with Videos” 形式化

“Thinking with Videos” 范式引入推理中间步骤（intermediate reasoning steps）：

A = f_{MLLM} (Q, T (V)), T (V) = {(t_{1}, s_{1}), (t_{2}, s_{2}), \dots, (t_{k}, s_{k})}

其中 $T (V)$ 是模型自主选择的关键视频片段集合，每个 $(t_{i}, s_{i})$ 表示时刻 $t_{i}$ 的子片段 $s_{i}$ （可包含时空标注）。

这一形式化引入了三个关键设计决策：

采样策略（Where to look）：如何在视频中选择关键帧
推理操作（How to reason）：如何基于采样片段进行多步推理
答案生成（When to answer）：何时停止推理并输出答案

2.3 与图像思维链的区别

维度	图像思维链（CoI）	视频思维链（CoV）
推理单元	单张图像或子图	视频片段（多帧）
时序建模	不需要	需要（因果、时序关系）
采样复杂度	2D 空间	3D 时空
训练信号	静态 SFT	RL + 工具调用
代表方法	MM-CoT、Visual-CoT	Video-Thinker、Thinking With Videos

3. Video-Thinker：RL 驱动 “Thinking with Videos”

3.1 动机

Video-Thinker 由 Wang 等人（Xiaohongshu + Monash + 东南大学）于 2025 年 10 月提出（ICLR 2026 接收）。¹⁵ 其核心问题：

如何让 MLLM 自主决定”在视频的什么位置思考”？

传统方法的局限：

稠密采样：处理所有帧 → 计算昂贵
任务特定工具：依赖人工设计 → 缺乏泛化
静态推理：不利用视频的时序特性

3.2 方法框架

Video-Thinker 采用两阶段训练：

阶段一：工具学习 SFT（Tool Learning SFT）

模型学习基础工具调用能力：

# Video-Thinker 的工具集
tools = {
    "frame_sampler": "根据 query 从视频中采样关键帧",
    "temporal_localizer": "定位 query 相关的时序区间",
    "object_tracker": "跟踪目标物体在视频中的轨迹",
    "action_recognizer": "识别特定时段的视频内容",
}

训练数据由 GPT-4o 与人工标注协同构造，包含（视频、问题、工具调用链、答案）四元组。

阶段二：强化学习（GRPO）

采用 Group Relative Policy Optimization（GRPO）作为 RL 算法：

L_{GRPO} (θ) = - E_{(q, a) \sim D, {o_{i}}_{i = 1}^{G} \sim π_{θ} (\cdot ∣ q)} [\frac{1}{G} i = 1 \sum G min (\frac{π _{θ} ( o _{i} ∣ q )}{π _{θ_{old}} ( o _{i} ∣ q )} A_{i}, clip (\frac{π _{θ} ( o _{i} ∣ q )}{π _{θ_{old}} ( o _{i} ∣ q )}, 1 - ϵ, 1 + ϵ) A_{i})]

其中优势 $A_{i}$ 通过组内归一化计算：

A_{i} = \frac{r _{i} - mean ({ r _{1} , \dots , r _{G} })}{std ({ r _{1} , \dots , r _{G} })}

奖励函数 $r_{i}$ 综合考虑：

答案正确性：与 ground truth 匹配
工具调用效率：避免冗余调用
推理链长度：鼓励简洁

3.3 关键设计：自包含推理

Video-Thinker 提出”自包含推理（Self-Contained Reasoning）“——视频内容即推理证据，无需依赖外部知识：

P (A ∣ Q, V) = T \sum P (A ∣ Q, T) P (T ∣ Q, V)

这一设计使模型在视频证据充分时无需幻觉，在证据不足时主动拒绝。

3.4 实验结果

在 Video-MME、MLVU、LongVideoBench、EgoSchema 等基准上的主要结果：

方法	Video-MME	MLVU	LongVideoBench	EgoSchema
GPT-4o (基线)	71.9	64.6	66.7	63.4
Video-Thinker-7B	67.2	65.4	64.0	67.9
Video-Thinker-72B	74.8	70.3	69.5	72.8

特别在长视频推理上，Video-Thinker 展现出显著优势，说明 RL 训练的时序定位能力有效。

4. Thinking With Videos：多模态工具增强的 RL 长视频推理

4.1 动机

Zhang 等人（清华大学 + 字节跳动，CVPR 2026）提出 Thinking With Videos。²⁶ 与 Video-Thinker 的差异：

Video-Thinker：自主推理，工具调用作为推理手段
Thinking With Videos：工具是推理的外部依赖，模型主动寻找证据

核心问题：

当视频长达数小时、问题需要长程依赖时，模型如何高效整合分散在视频各处的证据？

4.2 框架：Tool-Augmented RL

定义工具集：

视觉定位工具（Visual Localization）：返回 query 相关的时空片段
证据提取工具（Evidence Extraction）：从片段中抽取关键视觉信息
跨片段推理工具（Cross-clip Reasoning）：整合多个片段的证据

训练采用 PPO + 工具使用奖励：

r_{total} = r_{answer} + α \cdot r_{tool} + β \cdot r_{efficiency}

其中：

$r_{answer}$ ：答案准确度奖励
$r_{tool}$ ：工具调用正确性奖励
$r_{efficiency}$ ：推理步骤压缩奖励

4.3 多模态工具调用协议

Thinking With Videos 提出标准化的多模态工具调用协议：

{
  "thought": "我需要先定位 Gregs Microscope 出现的时段",
  "tool_call": {
    "name": "visual_localizer",
    "arguments": {"query": "Gregs Microscope", "video_id": "v_001"}
  },
  "tool_response": {
    "segments": [
      {"start": 1234.5, "end": 1456.7, "confidence": 0.92},
      {"start": 5678.9, "end": 5890.1, "confidence": 0.87}
    ]
  },
  "next_thought": "..."
}

4.4 与 Video-Thinker 的对比

维度	Video-Thinker	Thinking With Videos
工具定位	内置推理操作	外部工具调用
训练算法	GRPO	PPO + 工具奖励
推理长度	相对较短（5-8 步）	可变长（动态调整）
适用场景	中等视频（分钟级）	长视频（小时级）

5. Thinking with Video：视频生成作为推理范式

5.1 范式转变

Tong 等人（复旦大学 + 上海创智学院，CVPR 2026）提出一个大胆的范式：

视频生成模型本身可以作为推理模型——让模型”想象”出推理过程。³⁷

这一观点挑战了”推理必须是文本”的传统假设。在某些视觉推理任务（如空间旋转、心理旋转）中，生成中间视频 比 生成中间文本 更自然。

5.2 关键发现：Sora-2 vs GPT-5

论文最引人注目的发现是 VideoThinkBench（新提出基准）上的结果：

模型	Eyeballing Puzzles	MMMU	VideoThinkBench 总体
GPT-5	65%	81%	71%
Sora-2	75%	75%	73%
Claude-4	60%	79%	68%
Human	82%	87%	85%

Sora-2 在”目测推理”任务上超越 GPT-5 达 10%，这是首次视频生成模型在通用推理基准上击败主流 LLM。

5.3 理论解释

为什么视频生成能进行推理？论文给出三点理论解释：

空间表征的连续性：视频帧天然保留 3D 几何信息，文本符号难以表达
时序推理的内置能力：视频生成模型已学会因果、物理直觉
多模态思维链的物理实现：视频是”思维链”的物理形式

5.4 VideoThinkBench 设计

为系统评估”视频生成作为推理”的范式，作者提出 VideoThinkBench，包含三类任务：

Eyeballing Puzzles：目测推理（不借助工具估计长度/角度）
Mental Rotation：心理旋转（3D 形状在 2D 投影间的旋转）
Dynamic Reasoning：动态推理（基于运动轨迹的预测）

6. VideoThinker：LLM 引导的 Agentic VideoLLM

6.1 核心思想

Li 等人（浙江大学 + 复旦大学 + 上海 AI Lab，ICLR 2026）提出 VideoThinker。⁴⁸ 与前三者的区别：

Video-Thinker：RL 训练的单 MLLM
Thinking With Videos：工具增强的 MLLM
Thinking with Video：视频生成模型
VideoThinker：LLM 引导 + Agentic 工具调度的混合架构

6.2 架构

VideoThinker 采用分层架构：

┌─────────────────────────────────────────┐
│  Controller LLM (GPT-4o / Claude)        │ ← 顶层决策
└─────────────┬───────────────────────────┘
              │
   ┌──────────┴──────────┐
   ▼                     ▼
[Frame Sampler]   [Tool Reasoner]
   │                     │
   ▼                     ▼
[Visual Encoder]   [Tool Set]
   │                     │
   └──────────┬──────────┘
              ▼
         [Aggregator] → Answer

6.3 LLM 引导的工具推理

Controller LLM 通过 chain-of-thought 决定：

是否需要更多帧采样 → 调用 Frame Sampler
是否需要调用外部工具 → 调用 Tool Reasoner
当前信息是否足够 → 决定是否终止推理

这避免了纯 RL 训练的不稳定性，借用了 LLM 强大的 planning 能力。

7. 评估基准与方法对比

7.1 主要基准

基准	长度	任务类型	评估指标
Video-MME	中（11-60 分钟）	多模态理解	准确率
MLVU	长（2-7 小时）	多任务理解	准确率
LongVideoBench	长	长程依赖	准确率
EgoSchema	长（3 分钟-100 小时）	第一人称视频	准确率
VideoThinkBench	短（10-30 秒）	视觉推理	准确率

7.2 方法对比

方法	工具调用	RL 训练	视频生成	适用长度
Video-Thinker	✅ 内部	✅ GRPO	❌	中长
Thinking With Videos	✅ 外部	✅ PPO	❌	长
Thinking with Video	❌	❌	✅	短中
VideoThinker	✅ 混合	部分	❌	中长

8. 关键挑战与未来方向

8.1 当前挑战

推理效率：RL 训练的推理链通常较长，单次推理需要 5-15 个工具调用
工具错误传播：单个工具失败可能级联影响整个推理链
奖励稀疏：长视频推理的奖励信号稀疏，RL 训练不稳定
跨任务泛化：训练于特定工具集的模型难以迁移

8.2 未来方向

多模态工具融合：将视频生成、文本推理、符号推理统一为多模态工具
元推理能力：让模型学会”何时停止推理”的元认知
跨模态思维链：视频 + 文本 + 音频的异构思维链
实时推理：面向流式视频的在线推理

9. 与现有 Wiki 内容联系

基础：[[multimodal-chain-of-thought-survey|多模态思维链综述]] - 文本为主的多模态 CoT 综述
基准：[[multimodal-reasoning-benchmarks|多模态推理基准]] - 已有基准的详细分析
空间推理：[[spatial-reasoning-llm|空间推理 LLM]] - 视频推理的空间维度
视觉规划：[[visual-planning-paradigm|视觉规划范式]] - Agentic 视觉规划

10. 参考文献

Wang S., Jin J., Wang X., et al. “Video-Thinker: Sparking ‘Thinking with Videos’ via Reinforcement Learning.” ICLR 2026. arXiv:2510.23473 ↩ ↩²
Zhang H., Gu X., Li J., et al. “Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning.” CVPR 2026. arXiv:2508.04416 ↩ ↩²
Tong J., Mou Y., Li H., et al. “Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm.” CVPR 2026. arXiv:2511.04570 ↩ ↩²
Li C., Chen Q., Han F., et al. “VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning.” ICLR 2026. arXiv:2601.15724 ↩ ↩²
Video-Thinker 代码与模型：github.com/shijian2001/Video-Thinker ↩
“Thinking With Videos” 项目页：CVPR 2026 Open Access ↩
“Thinking with Video” 项目页：thinking-with-video.github.io ↩
VideoThinker 代码：github.com/open-lm-engine/lm-engine ↩

Metaphor

探索

Thinking with Videos 多模态视频推理范式综述

“Thinking with Videos” 多模态视频推理范式综述

1. 概述

2. 视频推理的问题形式化

2.1 基本定义

2.2 “Thinking with Videos” 形式化

2.3 与图像思维链的区别

3. Video-Thinker：RL 驱动 “Thinking with Videos”

3.1 动机

3.2 方法框架

3.3 关键设计：自包含推理

3.4 实验结果

4. Thinking With Videos：多模态工具增强的 RL 长视频推理

4.1 动机

4.2 框架：Tool-Augmented RL

4.3 多模态工具调用协议

4.4 与 Video-Thinker 的对比

5. Thinking with Video：视频生成作为推理范式

5.1 范式转变

5.2 关键发现：Sora-2 vs GPT-5

5.3 理论解释

5.4 VideoThinkBench 设计

6. VideoThinker：LLM 引导的 Agentic VideoLLM

6.1 核心思想

6.2 架构

6.3 LLM 引导的工具推理

7. 评估基准与方法对比

7.1 主要基准

7.2 方法对比

8. 关键挑战与未来方向

8.1 当前挑战

8.2 未来方向

9. 与现有 Wiki 内容联系

10. 参考文献

关系图谱

目录

Metaphor

探索

Thinking with Videos 多模态视频推理范式综述

“Thinking with Videos” 多模态视频推理范式综述

1. 概述

2. 视频推理的问题形式化

2.1 基本定义

2.2 “Thinking with Videos” 形式化

2.3 与图像思维链的区别

3. Video-Thinker：RL 驱动 “Thinking with Videos”

3.1 动机

3.2 方法框架

3.3 关键设计：自包含推理

3.4 实验结果

4. Thinking With Videos：多模态工具增强的 RL 长视频推理

4.1 动机

4.2 框架：Tool-Augmented RL

4.3 多模态工具调用协议

4.4 与 Video-Thinker 的对比

5. Thinking with Video：视频生成作为推理范式

5.1 范式转变

5.2 关键发现：Sora-2 vs GPT-5

5.3 理论解释

5.4 VideoThinkBench 设计

6. VideoThinker：LLM 引导的 Agentic VideoLLM

6.1 核心思想

6.2 架构

6.3 LLM 引导的工具推理

7. 评估基准与方法对比

7.1 主要基准

7.2 方法对比

8. 关键挑战与未来方向

8.1 当前挑战

8.2 未来方向

9. 与现有 Wiki 内容联系

10. 参考文献

Footnotes

关系图谱

目录