“Thinking with Videos” 多模态视频推理范式综述

1. 概述

2026 年初,ICLR 2026 与 CVPR 2026 出现了一系列以 “Thinking with Videos” 为核心的视频推理工作,标志着多模态大语言模型(MLLM)的视频理解从”被动感知”向”主动推理”的范式转变。1234

与传统的”图像思维链(Chain-of-Images)“或”思维文本(Thinking with Text)“不同,“Thinking with Videos” 强调:

  1. 以视频片段作为推理中间步骤:模型将推理过程物化为可解释的视频子序列
  2. 主动帧采样与定位:模型学会”看哪一帧”而非”看全部帧”
  3. 工具增强推理:结合外部工具(检测器、跟踪器、视频生成模型)形成 Agentic 推理

本综述系统梳理 2025-2026 年间该方向的三类代表性工作:

工作会议核心范式
Video-ThinkerICLR 2026强化学习驱动 “Thinking with Videos”
Thinking With VideosCVPR 2026多模态工具增强的强化学习长视频推理
Thinking with VideoCVPR 2026视频生成作为推理范式(Sora-2 vs GPT-5)
VideoThinkerICLR 2026LLM 引导工具推理的 Agentic VideoLLM

2. 视频推理的问题形式化

2.1 基本定义

给定视频 与自然语言问题 ,视频推理的目标是生成答案 。传统 MLLM 的方式:

其中 通常是对所有帧进行稠密采样后编码,导致 长视频 O(T) 内存瓶颈

2.2 “Thinking with Videos” 形式化

“Thinking with Videos” 范式引入推理中间步骤(intermediate reasoning steps):

其中 是模型自主选择的关键视频片段集合,每个 表示时刻 的子片段 (可包含时空标注)。

这一形式化引入了三个关键设计决策:

  1. 采样策略(Where to look):如何在视频中选择关键帧
  2. 推理操作(How to reason):如何基于采样片段进行多步推理
  3. 答案生成(When to answer):何时停止推理并输出答案

2.3 与图像思维链的区别

维度图像思维链(CoI)视频思维链(CoV)
推理单元单张图像或子图视频片段(多帧)
时序建模不需要需要(因果、时序关系)
采样复杂度2D 空间3D 时空
训练信号静态 SFTRL + 工具调用
代表方法MM-CoT、Visual-CoTVideo-Thinker、Thinking With Videos

3. Video-Thinker:RL 驱动 “Thinking with Videos”

3.1 动机

Video-Thinker 由 Wang 等人(Xiaohongshu + Monash + 东南大学)于 2025 年 10 月提出(ICLR 2026 接收)。15 其核心问题:

如何让 MLLM 自主决定”在视频的什么位置思考”?

传统方法的局限:

  • 稠密采样:处理所有帧 → 计算昂贵
  • 任务特定工具:依赖人工设计 → 缺乏泛化
  • 静态推理:不利用视频的时序特性

3.2 方法框架

Video-Thinker 采用两阶段训练:

阶段一:工具学习 SFT(Tool Learning SFT)

模型学习基础工具调用能力:

# Video-Thinker 的工具集
tools = {
    "frame_sampler": "根据 query 从视频中采样关键帧",
    "temporal_localizer": "定位 query 相关的时序区间",
    "object_tracker": "跟踪目标物体在视频中的轨迹",
    "action_recognizer": "识别特定时段的视频内容",
}

训练数据由 GPT-4o 与人工标注协同构造,包含(视频、问题、工具调用链、答案)四元组。

阶段二:强化学习(GRPO)

采用 Group Relative Policy Optimization(GRPO)作为 RL 算法:

其中优势 通过组内归一化计算:

奖励函数 综合考虑:

  • 答案正确性:与 ground truth 匹配
  • 工具调用效率:避免冗余调用
  • 推理链长度:鼓励简洁

3.3 关键设计:自包含推理

Video-Thinker 提出”自包含推理(Self-Contained Reasoning)“——视频内容即推理证据,无需依赖外部知识:

这一设计使模型在视频证据充分时无需幻觉,在证据不足时主动拒绝。

3.4 实验结果

在 Video-MME、MLVU、LongVideoBench、EgoSchema 等基准上的主要结果:

方法Video-MMEMLVULongVideoBenchEgoSchema
GPT-4o (基线)71.964.666.763.4
Video-Thinker-7B67.265.464.067.9
Video-Thinker-72B74.870.369.572.8

特别在长视频推理上,Video-Thinker 展现出显著优势,说明 RL 训练的时序定位能力有效。

4. Thinking With Videos:多模态工具增强的 RL 长视频推理

4.1 动机

Zhang 等人(清华大学 + 字节跳动,CVPR 2026)提出 Thinking With Videos。26 与 Video-Thinker 的差异:

  • Video-Thinker:自主推理,工具调用作为推理手段
  • Thinking With Videos:工具是推理的外部依赖,模型主动寻找证据

核心问题:

当视频长达数小时、问题需要长程依赖时,模型如何高效整合分散在视频各处的证据?

4.2 框架:Tool-Augmented RL

定义工具集:

  • 视觉定位工具(Visual Localization):返回 query 相关的时空片段
  • 证据提取工具(Evidence Extraction):从片段中抽取关键视觉信息
  • 跨片段推理工具(Cross-clip Reasoning):整合多个片段的证据

训练采用 PPO + 工具使用奖励:

其中:

  • :答案准确度奖励
  • :工具调用正确性奖励
  • :推理步骤压缩奖励

4.3 多模态工具调用协议

Thinking With Videos 提出标准化的多模态工具调用协议:

{
  "thought": "我需要先定位 Gregs Microscope 出现的时段",
  "tool_call": {
    "name": "visual_localizer",
    "arguments": {"query": "Gregs Microscope", "video_id": "v_001"}
  },
  "tool_response": {
    "segments": [
      {"start": 1234.5, "end": 1456.7, "confidence": 0.92},
      {"start": 5678.9, "end": 5890.1, "confidence": 0.87}
    ]
  },
  "next_thought": "..."
}

4.4 与 Video-Thinker 的对比

维度Video-ThinkerThinking With Videos
工具定位内置推理操作外部工具调用
训练算法GRPOPPO + 工具奖励
推理长度相对较短(5-8 步)可变长(动态调整)
适用场景中等视频(分钟级)长视频(小时级)

5. Thinking with Video:视频生成作为推理范式

5.1 范式转变

Tong 等人(复旦大学 + 上海创智学院,CVPR 2026)提出一个大胆的范式:

视频生成模型本身可以作为推理模型——让模型”想象”出推理过程。37

这一观点挑战了”推理必须是文本”的传统假设。在某些视觉推理任务(如空间旋转、心理旋转)中,生成中间视频生成中间文本 更自然。

5.2 关键发现:Sora-2 vs GPT-5

论文最引人注目的发现是 VideoThinkBench(新提出基准)上的结果:

模型Eyeballing PuzzlesMMMUVideoThinkBench 总体
GPT-565%81%71%
Sora-275%75%73%
Claude-460%79%68%
Human82%87%85%

Sora-2 在”目测推理”任务上超越 GPT-5 达 10%,这是首次视频生成模型在通用推理基准上击败主流 LLM。

5.3 理论解释

为什么视频生成能进行推理?论文给出三点理论解释:

  1. 空间表征的连续性:视频帧天然保留 3D 几何信息,文本符号难以表达
  2. 时序推理的内置能力:视频生成模型已学会因果、物理直觉
  3. 多模态思维链的物理实现:视频是”思维链”的物理形式

5.4 VideoThinkBench 设计

为系统评估”视频生成作为推理”的范式,作者提出 VideoThinkBench,包含三类任务:

  • Eyeballing Puzzles:目测推理(不借助工具估计长度/角度)
  • Mental Rotation:心理旋转(3D 形状在 2D 投影间的旋转)
  • Dynamic Reasoning:动态推理(基于运动轨迹的预测)

6. VideoThinker:LLM 引导的 Agentic VideoLLM

6.1 核心思想

Li 等人(浙江大学 + 复旦大学 + 上海 AI Lab,ICLR 2026)提出 VideoThinker。48 与前三者的区别:

  • Video-Thinker:RL 训练的单 MLLM
  • Thinking With Videos:工具增强的 MLLM
  • Thinking with Video:视频生成模型
  • VideoThinkerLLM 引导 + Agentic 工具调度的混合架构

6.2 架构

VideoThinker 采用分层架构:

┌─────────────────────────────────────────┐
│  Controller LLM (GPT-4o / Claude)        │ ← 顶层决策
└─────────────┬───────────────────────────┘
              │
   ┌──────────┴──────────┐
   ▼                     ▼
[Frame Sampler]   [Tool Reasoner]
   │                     │
   ▼                     ▼
[Visual Encoder]   [Tool Set]
   │                     │
   └──────────┬──────────┘
              ▼
         [Aggregator] → Answer

6.3 LLM 引导的工具推理

Controller LLM 通过 chain-of-thought 决定:

  1. 是否需要更多帧采样 → 调用 Frame Sampler
  2. 是否需要调用外部工具 → 调用 Tool Reasoner
  3. 当前信息是否足够 → 决定是否终止推理

这避免了纯 RL 训练的不稳定性,借用了 LLM 强大的 planning 能力。

7. 评估基准与方法对比

7.1 主要基准

基准长度任务类型评估指标
Video-MME中(11-60 分钟)多模态理解准确率
MLVU长(2-7 小时)多任务理解准确率
LongVideoBench长程依赖准确率
EgoSchema长(3 分钟-100 小时)第一人称视频准确率
VideoThinkBench短(10-30 秒)视觉推理准确率

7.2 方法对比

方法工具调用RL 训练视频生成适用长度
Video-Thinker✅ 内部✅ GRPO中长
Thinking With Videos✅ 外部✅ PPO
Thinking with Video短中
VideoThinker✅ 混合部分中长

8. 关键挑战与未来方向

8.1 当前挑战

  1. 推理效率:RL 训练的推理链通常较长,单次推理需要 5-15 个工具调用
  2. 工具错误传播:单个工具失败可能级联影响整个推理链
  3. 奖励稀疏:长视频推理的奖励信号稀疏,RL 训练不稳定
  4. 跨任务泛化:训练于特定工具集的模型难以迁移

8.2 未来方向

  1. 多模态工具融合:将视频生成、文本推理、符号推理统一为多模态工具
  2. 元推理能力:让模型学会”何时停止推理”的元认知
  3. 跨模态思维链:视频 + 文本 + 音频的异构思维链
  4. 实时推理:面向流式视频的在线推理

9. 与现有 Wiki 内容联系

  • 基础[[multimodal-chain-of-thought-survey|多模态思维链综述]] - 文本为主的多模态 CoT 综述
  • 基准[[multimodal-reasoning-benchmarks|多模态推理基准]] - 已有基准的详细分析
  • 空间推理[[spatial-reasoning-llm|空间推理 LLM]] - 视频推理的空间维度
  • 视觉规划[[visual-planning-paradigm|视觉规划范式]] - Agentic 视觉规划

10. 参考文献

Footnotes

  1. Wang S., Jin J., Wang X., et al. “Video-Thinker: Sparking ‘Thinking with Videos’ via Reinforcement Learning.” ICLR 2026. arXiv:2510.23473 2

  2. Zhang H., Gu X., Li J., et al. “Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning.” CVPR 2026. arXiv:2508.04416 2

  3. Tong J., Mou Y., Li H., et al. “Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm.” CVPR 2026. arXiv:2511.04570 2

  4. Li C., Chen Q., Han F., et al. “VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning.” ICLR 2026. arXiv:2601.15724 2

  5. Video-Thinker 代码与模型:github.com/shijian2001/Video-Thinker

  6. “Thinking With Videos” 项目页:CVPR 2026 Open Access

  7. “Thinking with Video” 项目页:thinking-with-video.github.io

  8. VideoThinker 代码:github.com/open-lm-engine/lm-engine