“Thinking with Videos” 前沿索引

1. 概述

2026 年 ICLR 与 CVPR 集中爆发的 “Thinking with Videos” 范式，标志着多模态视频推理从”被动感知”到”主动推理”的范式转变。本索引系统整理该方向的核心工作、学习路径与对比关系。

2. 核心工作一览

2.1 四大代表性工作

工作	会议	核心范式	推理媒介
Video-Thinker	ICLR 2026	RL 驱动自主推理	工具调用链
Thinking With Videos	CVPR 2026	多模态工具增强 RL	外部工具调用
Thinking with Video	CVPR 2026	视频生成作为推理	生成视频
VideoThinker	ICLR 2026	LLM 引导 Agentic 推理	LLM 规划 + 工具

2.2 其他相关工作

工作	来源	关注点
VideoThinker (去偏)	CVPR 2026	因果启发的去偏优化
Insight-V++	NeurIPS 2026	长链视觉推理
REVISOR	CVPR 2026	多模态内省推理
Native Active Perception	2026	主动感知推理
Watch-Remember-Reason	2026	第一人称视频理解
MM-CoT 综述	arXiv 2024	多模态思维链基础

3. 详细文档导航

3.1 综述与对比

[[thinking-with-videos-survey|Thinking with Videos 综述]] - 系统对比四大工作
[[multimodal-chain-of-thought-survey|多模态思维链综述]] - 文本/图像 CoT 基础
[[multimodal-reasoning-benchmarks|多模态推理基准]] - 评估基准

3.2 各工作详解

[[videothinker-agentic-videollm|VideoThinker Agentic]] - LLM 引导工具推理
[[thinking-with-video-generation-paradigm|Thinking with Video]] - 视频生成作为推理
[[causal-debiasing-video-reasoning|因果去偏视频推理]] - 因果启发去偏

3.3 相关领域

[[spatial-reasoning-llm|空间推理 LLM]] - 空间维度推理
[[visual-planning-paradigm|视觉规划范式]] - 视觉规划基础
[[../machine-learning/world-models|世界模型]] - 视频生成与世界模型
[[../machine-learning/agentic-ai-fundamentals|Agentic AI 基础]] - Agentic 系统基础

4. 学习路径

4.1 初学者路径（建议 1-2 周）

基础铺垫：阅读 [[multimodal-chain-of-thought-survey|多模态 CoT]]
核心论文：阅读 Video-Thinker 论文
基准理解：阅读 [[multimodal-reasoning-benchmarks|基准文档]]
入门实验：复现 Video-Thinker 的简单版本

4.2 进阶路径（建议 3-4 周）

完成初学者路径
阅读 Thinking With Videos 论文，理解工具增强 RL
阅读 VideoThinker 论文，理解 LLM 引导架构
横向对比：在统一基准上评估三种范式

4.3 研究者路径（建议 1-2 月）

完成进阶路径
阅读 Thinking with Video 论文，理解视频生成作为推理
阅读因果去偏论文，理解鲁棒性问题
思考新方向：跨模态融合、元推理等

5. 核心概念速查

5.1 推理范式

范式	定义	代表工作
被动感知	处理所有视频帧后回答	早期 MLLM
工具增强推理	调用外部工具辅助	Thinking With Videos
自主推理	模型决定何时调用何种工具	Video-Thinker
生成式推理	生成中间视频作为推理	Thinking with Video
规划式推理	LLM 引导的多步推理	VideoThinker

5.2 训练方法

方法	特点	代表工作
GRPO	组内相对策略优化	Video-Thinker
PPO + 工具奖励	强化学习 + 工具使用奖励	Thinking With Videos
SFT + 协同训练	监督微调 + 模块化联合训练	VideoThinker
因果干预	因果模型去偏	因果去偏 VideoThinker

5.3 关键基准

基准	视频长度	适用任务
Video-MME	中（11-60 分钟）	多模态理解
MLVU	长（2-7 小时）	多任务
LongVideoBench	长	长程依赖
EgoSchema	长	第一人称
VideoThinkBench	短	视觉推理
Counterfactual VideoQA	中	去偏评估

6. 主要会议时间线

时间	事件
2025-09	Video-Thinker 在 arXiv 发布
2025-08	Thinking With Videos 在 arXiv 发布
2025-11	Thinking with Video 在 arXiv 发布
2026-01	VideoThinker 在 arXiv 发布
2026-03	因果去偏 VideoThinker 在 arXiv 发布
2026-04	ICLR 2026 接收 Video-Thinker, VideoThinker
2026-06	CVPR 2026 接收 Thinking With Videos, Thinking with Video, 因果去偏 VideoThinker

7. 关键趋势

7.1 范式层面

从被动感知到主动推理：模型学会”看哪一帧”
从单模态到跨模态推理：视频 + 文本 + 音频的融合
从工具到 Agent：推理系统 Agent 化

7.2 技术层面

RL 训练成为主流：GRPO 等方法广泛使用
LLM 引导架构兴起：分层规划 + 模块化执行
生成模型参与推理：视频生成作为推理媒介

7.3 应用层面

长视频理解：小时级视频问答成为可能
实时推理：流式视频处理
多模态 Agent：视频推理成为 Agent 核心能力

8. 与其他方向的关系

8.1 与世界模型的关系

世界模型：预测未来 → 生成视频
视频推理：生成”应该”的视频 → 推理
两者共享”在物理世界中想象下一步”的能力

8.2 与多模态基础模型的关系

多模态基础模型：训练通用 MLLM
视频推理：在 MLLM 之上构建推理能力
视频推理是多模态基础模型的应用层

8.3 与 Agentic AI 的关系

Agentic AI：自主决策系统
视频推理 Agent：视频场景下的 Agentic 系统
VideoThinker 是 Agentic AI 在视频领域的应用

9. 资源汇总

9.1 代码与模型

工作	代码
Video-Thinker	github.com/shijian2001/Video-Thinker
Thinking with Video	github.com/tongjingqi/Thinking-with-Video
因果去偏 VideoThinker	github.com/falonss703/VideoThinker
VideoThinker (LLM引导)	github.com/open-lm-engine/lm-engine

9.2 论文链接

工作	arXiv
Video-Thinker	arXiv:2510.23473
Thinking With Videos	arXiv:2508.04416
Thinking with Video	arXiv:2511.04570
VideoThinker (ICLR 2026)	arXiv:2601.15724
因果去偏 VideoThinker	arXiv:2605.01324

9.3 项目页

Thinking with Video
VideoThinker 项目页（待补充）

10. 未来研究方向

10.1 短期（6-12 月）

统一框架：融合四大范式的优势
更大基准：建立更全面的评估
开源生态：代码、模型、数据集开放

10.2 中期（1-2 年）

元推理能力：模型学会评估自身推理
跨模态推理：视频 + 音频 + 触觉
实时推理：流式视频处理

10.3 长期（3+ 年）

通用视频智能：接近人类水平的视频理解
视频推理与具身 AI 结合：机器人视频推理
视频理解与生成统一：推理即生成，生成即推理

11. 相关 Wiki 主题

[[../machine-learning/llm-inference-acceleration-2025|LLM 推理加速]]
[[../machine-learning/long-context-video-world-models|长上下文视频世界模型]]
[[../machine-learning/world-model-planning-reasoning-fusion|世界模型规划推理融合]]
[[../multimodal-learning/index|多模态学习索引]]

12. 维护与更新

本索引文档应随领域发展持续更新。建议每 6 个月检查一次：

是否有新的代表性工作
评估基准是否有更新
关键趋势是否变化

Last updated: 2026-06-21