“Thinking with Videos” 前沿索引
1. 概述
2026 年 ICLR 与 CVPR 集中爆发的 “Thinking with Videos” 范式,标志着多模态视频推理从”被动感知”到”主动推理”的范式转变。本索引系统整理该方向的核心工作、学习路径与对比关系。
2. 核心工作一览
2.1 四大代表性工作
| 工作 | 会议 | 核心范式 | 推理媒介 |
|---|
| Video-Thinker | ICLR 2026 | RL 驱动自主推理 | 工具调用链 |
| Thinking With Videos | CVPR 2026 | 多模态工具增强 RL | 外部工具调用 |
| Thinking with Video | CVPR 2026 | 视频生成作为推理 | 生成视频 |
| VideoThinker | ICLR 2026 | LLM 引导 Agentic 推理 | LLM 规划 + 工具 |
2.2 其他相关工作
| 工作 | 来源 | 关注点 |
|---|
| VideoThinker (去偏) | CVPR 2026 | 因果启发的去偏优化 |
| Insight-V++ | NeurIPS 2026 | 长链视觉推理 |
| REVISOR | CVPR 2026 | 多模态内省推理 |
| Native Active Perception | 2026 | 主动感知推理 |
| Watch-Remember-Reason | 2026 | 第一人称视频理解 |
| MM-CoT 综述 | arXiv 2024 | 多模态思维链基础 |
3. 详细文档导航
3.1 综述与对比
[[thinking-with-videos-survey|Thinking with Videos 综述]] - 系统对比四大工作
[[multimodal-chain-of-thought-survey|多模态思维链综述]] - 文本/图像 CoT 基础
[[multimodal-reasoning-benchmarks|多模态推理基准]] - 评估基准
3.2 各工作详解
[[videothinker-agentic-videollm|VideoThinker Agentic]] - LLM 引导工具推理
[[thinking-with-video-generation-paradigm|Thinking with Video]] - 视频生成作为推理
[[causal-debiasing-video-reasoning|因果去偏视频推理]] - 因果启发去偏
3.3 相关领域
[[spatial-reasoning-llm|空间推理 LLM]] - 空间维度推理
[[visual-planning-paradigm|视觉规划范式]] - 视觉规划基础
[[../machine-learning/world-models|世界模型]] - 视频生成与世界模型
[[../machine-learning/agentic-ai-fundamentals|Agentic AI 基础]] - Agentic 系统基础
4. 学习路径
4.1 初学者路径(建议 1-2 周)
- 基础铺垫:阅读
[[multimodal-chain-of-thought-survey|多模态 CoT]]
- 核心论文:阅读 Video-Thinker 论文
- 基准理解:阅读
[[multimodal-reasoning-benchmarks|基准文档]]
- 入门实验:复现 Video-Thinker 的简单版本
4.2 进阶路径(建议 3-4 周)
- 完成初学者路径
- 阅读 Thinking With Videos 论文,理解工具增强 RL
- 阅读 VideoThinker 论文,理解 LLM 引导架构
- 横向对比:在统一基准上评估三种范式
4.3 研究者路径(建议 1-2 月)
- 完成进阶路径
- 阅读 Thinking with Video 论文,理解视频生成作为推理
- 阅读因果去偏论文,理解鲁棒性问题
- 思考新方向:跨模态融合、元推理等
5. 核心概念速查
5.1 推理范式
| 范式 | 定义 | 代表工作 |
|---|
| 被动感知 | 处理所有视频帧后回答 | 早期 MLLM |
| 工具增强推理 | 调用外部工具辅助 | Thinking With Videos |
| 自主推理 | 模型决定何时调用何种工具 | Video-Thinker |
| 生成式推理 | 生成中间视频作为推理 | Thinking with Video |
| 规划式推理 | LLM 引导的多步推理 | VideoThinker |
5.2 训练方法
| 方法 | 特点 | 代表工作 |
|---|
| GRPO | 组内相对策略优化 | Video-Thinker |
| PPO + 工具奖励 | 强化学习 + 工具使用奖励 | Thinking With Videos |
| SFT + 协同训练 | 监督微调 + 模块化联合训练 | VideoThinker |
| 因果干预 | 因果模型去偏 | 因果去偏 VideoThinker |
5.3 关键基准
| 基准 | 视频长度 | 适用任务 |
|---|
| Video-MME | 中(11-60 分钟) | 多模态理解 |
| MLVU | 长(2-7 小时) | 多任务 |
| LongVideoBench | 长 | 长程依赖 |
| EgoSchema | 长 | 第一人称 |
| VideoThinkBench | 短 | 视觉推理 |
| Counterfactual VideoQA | 中 | 去偏评估 |
6. 主要会议时间线
| 时间 | 事件 |
|---|
| 2025-09 | Video-Thinker 在 arXiv 发布 |
| 2025-08 | Thinking With Videos 在 arXiv 发布 |
| 2025-11 | Thinking with Video 在 arXiv 发布 |
| 2026-01 | VideoThinker 在 arXiv 发布 |
| 2026-03 | 因果去偏 VideoThinker 在 arXiv 发布 |
| 2026-04 | ICLR 2026 接收 Video-Thinker, VideoThinker |
| 2026-06 | CVPR 2026 接收 Thinking With Videos, Thinking with Video, 因果去偏 VideoThinker |
7. 关键趋势
7.1 范式层面
- 从被动感知到主动推理:模型学会”看哪一帧”
- 从单模态到跨模态推理:视频 + 文本 + 音频的融合
- 从工具到 Agent:推理系统 Agent 化
7.2 技术层面
- RL 训练成为主流:GRPO 等方法广泛使用
- LLM 引导架构兴起:分层规划 + 模块化执行
- 生成模型参与推理:视频生成作为推理媒介
7.3 应用层面
- 长视频理解:小时级视频问答成为可能
- 实时推理:流式视频处理
- 多模态 Agent:视频推理成为 Agent 核心能力
8. 与其他方向的关系
8.1 与世界模型的关系
- 世界模型:预测未来 → 生成视频
- 视频推理:生成”应该”的视频 → 推理
- 两者共享”在物理世界中想象下一步”的能力
8.2 与多模态基础模型的关系
- 多模态基础模型:训练通用 MLLM
- 视频推理:在 MLLM 之上构建推理能力
- 视频推理是多模态基础模型的应用层
8.3 与 Agentic AI 的关系
- Agentic AI:自主决策系统
- 视频推理 Agent:视频场景下的 Agentic 系统
- VideoThinker 是 Agentic AI 在视频领域的应用
9. 资源汇总
9.1 代码与模型
9.2 论文链接
9.3 项目页
10. 未来研究方向
10.1 短期(6-12 月)
- 统一框架:融合四大范式的优势
- 更大基准:建立更全面的评估
- 开源生态:代码、模型、数据集开放
10.2 中期(1-2 年)
- 元推理能力:模型学会评估自身推理
- 跨模态推理:视频 + 音频 + 触觉
- 实时推理:流式视频处理
10.3 长期(3+ 年)
- 通用视频智能:接近人类水平的视频理解
- 视频推理与具身 AI 结合:机器人视频推理
- 视频理解与生成统一:推理即生成,生成即推理
11. 相关 Wiki 主题
[[../machine-learning/llm-inference-acceleration-2025|LLM 推理加速]]
[[../machine-learning/long-context-video-world-models|长上下文视频世界模型]]
[[../machine-learning/world-model-planning-reasoning-fusion|世界模型规划推理融合]]
[[../multimodal-learning/index|多模态学习索引]]
12. 维护与更新
本索引文档应随领域发展持续更新。建议每 6 个月检查一次:
- 是否有新的代表性工作
- 评估基准是否有更新
- 关键趋势是否变化
Last updated: 2026-06-21