“Thinking with Videos” 前沿索引

1. 概述

2026 年 ICLR 与 CVPR 集中爆发的 “Thinking with Videos” 范式,标志着多模态视频推理从”被动感知”到”主动推理”的范式转变。本索引系统整理该方向的核心工作、学习路径与对比关系。

2. 核心工作一览

2.1 四大代表性工作

工作会议核心范式推理媒介
Video-ThinkerICLR 2026RL 驱动自主推理工具调用链
Thinking With VideosCVPR 2026多模态工具增强 RL外部工具调用
Thinking with VideoCVPR 2026视频生成作为推理生成视频
VideoThinkerICLR 2026LLM 引导 Agentic 推理LLM 规划 + 工具

2.2 其他相关工作

工作来源关注点
VideoThinker (去偏)CVPR 2026因果启发的去偏优化
Insight-V++NeurIPS 2026长链视觉推理
REVISORCVPR 2026多模态内省推理
Native Active Perception2026主动感知推理
Watch-Remember-Reason2026第一人称视频理解
MM-CoT 综述arXiv 2024多模态思维链基础

3. 详细文档导航

3.1 综述与对比

  • [[thinking-with-videos-survey|Thinking with Videos 综述]] - 系统对比四大工作
  • [[multimodal-chain-of-thought-survey|多模态思维链综述]] - 文本/图像 CoT 基础
  • [[multimodal-reasoning-benchmarks|多模态推理基准]] - 评估基准

3.2 各工作详解

  • [[videothinker-agentic-videollm|VideoThinker Agentic]] - LLM 引导工具推理
  • [[thinking-with-video-generation-paradigm|Thinking with Video]] - 视频生成作为推理
  • [[causal-debiasing-video-reasoning|因果去偏视频推理]] - 因果启发去偏

3.3 相关领域

  • [[spatial-reasoning-llm|空间推理 LLM]] - 空间维度推理
  • [[visual-planning-paradigm|视觉规划范式]] - 视觉规划基础
  • [[../machine-learning/world-models|世界模型]] - 视频生成与世界模型
  • [[../machine-learning/agentic-ai-fundamentals|Agentic AI 基础]] - Agentic 系统基础

4. 学习路径

4.1 初学者路径(建议 1-2 周)

  1. 基础铺垫:阅读 [[multimodal-chain-of-thought-survey|多模态 CoT]]
  2. 核心论文:阅读 Video-Thinker 论文
  3. 基准理解:阅读 [[multimodal-reasoning-benchmarks|基准文档]]
  4. 入门实验:复现 Video-Thinker 的简单版本

4.2 进阶路径(建议 3-4 周)

  1. 完成初学者路径
  2. 阅读 Thinking With Videos 论文,理解工具增强 RL
  3. 阅读 VideoThinker 论文,理解 LLM 引导架构
  4. 横向对比:在统一基准上评估三种范式

4.3 研究者路径(建议 1-2 月)

  1. 完成进阶路径
  2. 阅读 Thinking with Video 论文,理解视频生成作为推理
  3. 阅读因果去偏论文,理解鲁棒性问题
  4. 思考新方向:跨模态融合、元推理等

5. 核心概念速查

5.1 推理范式

范式定义代表工作
被动感知处理所有视频帧后回答早期 MLLM
工具增强推理调用外部工具辅助Thinking With Videos
自主推理模型决定何时调用何种工具Video-Thinker
生成式推理生成中间视频作为推理Thinking with Video
规划式推理LLM 引导的多步推理VideoThinker

5.2 训练方法

方法特点代表工作
GRPO组内相对策略优化Video-Thinker
PPO + 工具奖励强化学习 + 工具使用奖励Thinking With Videos
SFT + 协同训练监督微调 + 模块化联合训练VideoThinker
因果干预因果模型去偏因果去偏 VideoThinker

5.3 关键基准

基准视频长度适用任务
Video-MME中(11-60 分钟)多模态理解
MLVU长(2-7 小时)多任务
LongVideoBench长程依赖
EgoSchema第一人称
VideoThinkBench视觉推理
Counterfactual VideoQA去偏评估

6. 主要会议时间线

时间事件
2025-09Video-Thinker 在 arXiv 发布
2025-08Thinking With Videos 在 arXiv 发布
2025-11Thinking with Video 在 arXiv 发布
2026-01VideoThinker 在 arXiv 发布
2026-03因果去偏 VideoThinker 在 arXiv 发布
2026-04ICLR 2026 接收 Video-Thinker, VideoThinker
2026-06CVPR 2026 接收 Thinking With Videos, Thinking with Video, 因果去偏 VideoThinker

7. 关键趋势

7.1 范式层面

  1. 从被动感知到主动推理:模型学会”看哪一帧”
  2. 从单模态到跨模态推理:视频 + 文本 + 音频的融合
  3. 从工具到 Agent:推理系统 Agent 化

7.2 技术层面

  1. RL 训练成为主流:GRPO 等方法广泛使用
  2. LLM 引导架构兴起:分层规划 + 模块化执行
  3. 生成模型参与推理:视频生成作为推理媒介

7.3 应用层面

  1. 长视频理解:小时级视频问答成为可能
  2. 实时推理:流式视频处理
  3. 多模态 Agent:视频推理成为 Agent 核心能力

8. 与其他方向的关系

8.1 与世界模型的关系

  • 世界模型:预测未来 → 生成视频
  • 视频推理:生成”应该”的视频 → 推理
  • 两者共享”在物理世界中想象下一步”的能力

8.2 与多模态基础模型的关系

  • 多模态基础模型:训练通用 MLLM
  • 视频推理:在 MLLM 之上构建推理能力
  • 视频推理是多模态基础模型的应用层

8.3 与 Agentic AI 的关系

  • Agentic AI:自主决策系统
  • 视频推理 Agent:视频场景下的 Agentic 系统
  • VideoThinker 是 Agentic AI 在视频领域的应用

9. 资源汇总

9.1 代码与模型

9.2 论文链接

工作arXiv
Video-ThinkerarXiv:2510.23473
Thinking With VideosarXiv:2508.04416
Thinking with VideoarXiv:2511.04570
VideoThinker (ICLR 2026)arXiv:2601.15724
因果去偏 VideoThinkerarXiv:2605.01324

9.3 项目页

10. 未来研究方向

10.1 短期(6-12 月)

  1. 统一框架:融合四大范式的优势
  2. 更大基准:建立更全面的评估
  3. 开源生态:代码、模型、数据集开放

10.2 中期(1-2 年)

  1. 元推理能力:模型学会评估自身推理
  2. 跨模态推理:视频 + 音频 + 触觉
  3. 实时推理:流式视频处理

10.3 长期(3+ 年)

  1. 通用视频智能:接近人类水平的视频理解
  2. 视频推理与具身 AI 结合:机器人视频推理
  3. 视频理解与生成统一:推理即生成,生成即推理

11. 相关 Wiki 主题

  • [[../machine-learning/llm-inference-acceleration-2025|LLM 推理加速]]
  • [[../machine-learning/long-context-video-world-models|长上下文视频世界模型]]
  • [[../machine-learning/world-model-planning-reasoning-fusion|世界模型规划推理融合]]
  • [[../multimodal-learning/index|多模态学习索引]]

12. 维护与更新

本索引文档应随领域发展持续更新。建议每 6 个月检查一次:

  • 是否有新的代表性工作
  • 评估基准是否有更新
  • 关键趋势是否变化

Last updated: 2026-06-21