“Thinking with Videos” 多模态视频推理范式综述
1. 概述
2026 年初,ICLR 2026 与 CVPR 2026 出现了一系列以 “Thinking with Videos” 为核心的视频推理工作,标志着多模态大语言模型(MLLM)的视频理解从”被动感知”向”主动推理”的范式转变。1234
与传统的”图像思维链(Chain-of-Images)“或”思维文本(Thinking with Text)“不同,“Thinking with Videos” 强调:
- 以视频片段作为推理中间步骤:模型将推理过程物化为可解释的视频子序列
- 主动帧采样与定位:模型学会”看哪一帧”而非”看全部帧”
- 工具增强推理:结合外部工具(检测器、跟踪器、视频生成模型)形成 Agentic 推理
本综述系统梳理 2025-2026 年间该方向的三类代表性工作:
| 工作 | 会议 | 核心范式 |
|---|---|---|
| Video-Thinker | ICLR 2026 | 强化学习驱动 “Thinking with Videos” |
| Thinking With Videos | CVPR 2026 | 多模态工具增强的强化学习长视频推理 |
| Thinking with Video | CVPR 2026 | 视频生成作为推理范式(Sora-2 vs GPT-5) |
| VideoThinker | ICLR 2026 | LLM 引导工具推理的 Agentic VideoLLM |
2. 视频推理的问题形式化
2.1 基本定义
给定视频 与自然语言问题 ,视频推理的目标是生成答案 。传统 MLLM 的方式:
其中 通常是对所有帧进行稠密采样后编码,导致 长视频 O(T) 内存瓶颈。
2.2 “Thinking with Videos” 形式化
“Thinking with Videos” 范式引入推理中间步骤(intermediate reasoning steps):
其中 是模型自主选择的关键视频片段集合,每个 表示时刻 的子片段 (可包含时空标注)。
这一形式化引入了三个关键设计决策:
- 采样策略(Where to look):如何在视频中选择关键帧
- 推理操作(How to reason):如何基于采样片段进行多步推理
- 答案生成(When to answer):何时停止推理并输出答案
2.3 与图像思维链的区别
| 维度 | 图像思维链(CoI) | 视频思维链(CoV) |
|---|---|---|
| 推理单元 | 单张图像或子图 | 视频片段(多帧) |
| 时序建模 | 不需要 | 需要(因果、时序关系) |
| 采样复杂度 | 2D 空间 | 3D 时空 |
| 训练信号 | 静态 SFT | RL + 工具调用 |
| 代表方法 | MM-CoT、Visual-CoT | Video-Thinker、Thinking With Videos |
3. Video-Thinker:RL 驱动 “Thinking with Videos”
3.1 动机
Video-Thinker 由 Wang 等人(Xiaohongshu + Monash + 东南大学)于 2025 年 10 月提出(ICLR 2026 接收)。15 其核心问题:
如何让 MLLM 自主决定”在视频的什么位置思考”?
传统方法的局限:
- 稠密采样:处理所有帧 → 计算昂贵
- 任务特定工具:依赖人工设计 → 缺乏泛化
- 静态推理:不利用视频的时序特性
3.2 方法框架
Video-Thinker 采用两阶段训练:
阶段一:工具学习 SFT(Tool Learning SFT)
模型学习基础工具调用能力:
# Video-Thinker 的工具集
tools = {
"frame_sampler": "根据 query 从视频中采样关键帧",
"temporal_localizer": "定位 query 相关的时序区间",
"object_tracker": "跟踪目标物体在视频中的轨迹",
"action_recognizer": "识别特定时段的视频内容",
}训练数据由 GPT-4o 与人工标注协同构造,包含(视频、问题、工具调用链、答案)四元组。
阶段二:强化学习(GRPO)
采用 Group Relative Policy Optimization(GRPO)作为 RL 算法:
其中优势 通过组内归一化计算:
奖励函数 综合考虑:
- 答案正确性:与 ground truth 匹配
- 工具调用效率:避免冗余调用
- 推理链长度:鼓励简洁
3.3 关键设计:自包含推理
Video-Thinker 提出”自包含推理(Self-Contained Reasoning)“——视频内容即推理证据,无需依赖外部知识:
这一设计使模型在视频证据充分时无需幻觉,在证据不足时主动拒绝。
3.4 实验结果
在 Video-MME、MLVU、LongVideoBench、EgoSchema 等基准上的主要结果:
| 方法 | Video-MME | MLVU | LongVideoBench | EgoSchema |
|---|---|---|---|---|
| GPT-4o (基线) | 71.9 | 64.6 | 66.7 | 63.4 |
| Video-Thinker-7B | 67.2 | 65.4 | 64.0 | 67.9 |
| Video-Thinker-72B | 74.8 | 70.3 | 69.5 | 72.8 |
特别在长视频推理上,Video-Thinker 展现出显著优势,说明 RL 训练的时序定位能力有效。
4. Thinking With Videos:多模态工具增强的 RL 长视频推理
4.1 动机
Zhang 等人(清华大学 + 字节跳动,CVPR 2026)提出 Thinking With Videos。26 与 Video-Thinker 的差异:
- Video-Thinker:自主推理,工具调用作为推理手段
- Thinking With Videos:工具是推理的外部依赖,模型主动寻找证据
核心问题:
当视频长达数小时、问题需要长程依赖时,模型如何高效整合分散在视频各处的证据?
4.2 框架:Tool-Augmented RL
定义工具集:
- 视觉定位工具(Visual Localization):返回 query 相关的时空片段
- 证据提取工具(Evidence Extraction):从片段中抽取关键视觉信息
- 跨片段推理工具(Cross-clip Reasoning):整合多个片段的证据
训练采用 PPO + 工具使用奖励:
其中:
- :答案准确度奖励
- :工具调用正确性奖励
- :推理步骤压缩奖励
4.3 多模态工具调用协议
Thinking With Videos 提出标准化的多模态工具调用协议:
{
"thought": "我需要先定位 Gregs Microscope 出现的时段",
"tool_call": {
"name": "visual_localizer",
"arguments": {"query": "Gregs Microscope", "video_id": "v_001"}
},
"tool_response": {
"segments": [
{"start": 1234.5, "end": 1456.7, "confidence": 0.92},
{"start": 5678.9, "end": 5890.1, "confidence": 0.87}
]
},
"next_thought": "..."
}4.4 与 Video-Thinker 的对比
| 维度 | Video-Thinker | Thinking With Videos |
|---|---|---|
| 工具定位 | 内置推理操作 | 外部工具调用 |
| 训练算法 | GRPO | PPO + 工具奖励 |
| 推理长度 | 相对较短(5-8 步) | 可变长(动态调整) |
| 适用场景 | 中等视频(分钟级) | 长视频(小时级) |
5. Thinking with Video:视频生成作为推理范式
5.1 范式转变
Tong 等人(复旦大学 + 上海创智学院,CVPR 2026)提出一个大胆的范式:
这一观点挑战了”推理必须是文本”的传统假设。在某些视觉推理任务(如空间旋转、心理旋转)中,生成中间视频 比 生成中间文本 更自然。
5.2 关键发现:Sora-2 vs GPT-5
论文最引人注目的发现是 VideoThinkBench(新提出基准)上的结果:
| 模型 | Eyeballing Puzzles | MMMU | VideoThinkBench 总体 |
|---|---|---|---|
| GPT-5 | 65% | 81% | 71% |
| Sora-2 | 75% | 75% | 73% |
| Claude-4 | 60% | 79% | 68% |
| Human | 82% | 87% | 85% |
Sora-2 在”目测推理”任务上超越 GPT-5 达 10%,这是首次视频生成模型在通用推理基准上击败主流 LLM。
5.3 理论解释
为什么视频生成能进行推理?论文给出三点理论解释:
- 空间表征的连续性:视频帧天然保留 3D 几何信息,文本符号难以表达
- 时序推理的内置能力:视频生成模型已学会因果、物理直觉
- 多模态思维链的物理实现:视频是”思维链”的物理形式
5.4 VideoThinkBench 设计
为系统评估”视频生成作为推理”的范式,作者提出 VideoThinkBench,包含三类任务:
- Eyeballing Puzzles:目测推理(不借助工具估计长度/角度)
- Mental Rotation:心理旋转(3D 形状在 2D 投影间的旋转)
- Dynamic Reasoning:动态推理(基于运动轨迹的预测)
6. VideoThinker:LLM 引导的 Agentic VideoLLM
6.1 核心思想
Li 等人(浙江大学 + 复旦大学 + 上海 AI Lab,ICLR 2026)提出 VideoThinker。48 与前三者的区别:
- Video-Thinker:RL 训练的单 MLLM
- Thinking With Videos:工具增强的 MLLM
- Thinking with Video:视频生成模型
- VideoThinker:LLM 引导 + Agentic 工具调度的混合架构
6.2 架构
VideoThinker 采用分层架构:
┌─────────────────────────────────────────┐
│ Controller LLM (GPT-4o / Claude) │ ← 顶层决策
└─────────────┬───────────────────────────┘
│
┌──────────┴──────────┐
▼ ▼
[Frame Sampler] [Tool Reasoner]
│ │
▼ ▼
[Visual Encoder] [Tool Set]
│ │
└──────────┬──────────┘
▼
[Aggregator] → Answer
6.3 LLM 引导的工具推理
Controller LLM 通过 chain-of-thought 决定:
- 是否需要更多帧采样 → 调用 Frame Sampler
- 是否需要调用外部工具 → 调用 Tool Reasoner
- 当前信息是否足够 → 决定是否终止推理
这避免了纯 RL 训练的不稳定性,借用了 LLM 强大的 planning 能力。
7. 评估基准与方法对比
7.1 主要基准
| 基准 | 长度 | 任务类型 | 评估指标 |
|---|---|---|---|
| Video-MME | 中(11-60 分钟) | 多模态理解 | 准确率 |
| MLVU | 长(2-7 小时) | 多任务理解 | 准确率 |
| LongVideoBench | 长 | 长程依赖 | 准确率 |
| EgoSchema | 长(3 分钟-100 小时) | 第一人称视频 | 准确率 |
| VideoThinkBench | 短(10-30 秒) | 视觉推理 | 准确率 |
7.2 方法对比
| 方法 | 工具调用 | RL 训练 | 视频生成 | 适用长度 |
|---|---|---|---|---|
| Video-Thinker | ✅ 内部 | ✅ GRPO | ❌ | 中长 |
| Thinking With Videos | ✅ 外部 | ✅ PPO | ❌ | 长 |
| Thinking with Video | ❌ | ❌ | ✅ | 短中 |
| VideoThinker | ✅ 混合 | 部分 | ❌ | 中长 |
8. 关键挑战与未来方向
8.1 当前挑战
- 推理效率:RL 训练的推理链通常较长,单次推理需要 5-15 个工具调用
- 工具错误传播:单个工具失败可能级联影响整个推理链
- 奖励稀疏:长视频推理的奖励信号稀疏,RL 训练不稳定
- 跨任务泛化:训练于特定工具集的模型难以迁移
8.2 未来方向
- 多模态工具融合:将视频生成、文本推理、符号推理统一为多模态工具
- 元推理能力:让模型学会”何时停止推理”的元认知
- 跨模态思维链:视频 + 文本 + 音频的异构思维链
- 实时推理:面向流式视频的在线推理
9. 与现有 Wiki 内容联系
- 基础:
[[multimodal-chain-of-thought-survey|多模态思维链综述]]- 文本为主的多模态 CoT 综述 - 基准:
[[multimodal-reasoning-benchmarks|多模态推理基准]]- 已有基准的详细分析 - 空间推理:
[[spatial-reasoning-llm|空间推理 LLM]]- 视频推理的空间维度 - 视觉规划:
[[visual-planning-paradigm|视觉规划范式]]- Agentic 视觉规划
10. 参考文献
Footnotes
-
Wang S., Jin J., Wang X., et al. “Video-Thinker: Sparking ‘Thinking with Videos’ via Reinforcement Learning.” ICLR 2026. arXiv:2510.23473 ↩ ↩2
-
Zhang H., Gu X., Li J., et al. “Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning.” CVPR 2026. arXiv:2508.04416 ↩ ↩2
-
Tong J., Mou Y., Li H., et al. “Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm.” CVPR 2026. arXiv:2511.04570 ↩ ↩2
-
Li C., Chen Q., Han F., et al. “VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning.” ICLR 2026. arXiv:2601.15724 ↩ ↩2
-
Video-Thinker 代码与模型:github.com/shijian2001/Video-Thinker ↩
-
“Thinking With Videos” 项目页:CVPR 2026 Open Access ↩
-
“Thinking with Video” 项目页:thinking-with-video.github.io ↩
-
VideoThinker 代码:github.com/open-lm-engine/lm-engine ↩