VideoThinker:LLM 引导工具推理的 Agentic VideoLLM
1. 概述
VideoThinker 是浙江大学、复旦大学、上海 AI Lab 联合团队在 ICLR 2026 提出的 Agentic VideoLLM 框架。12 与 Video-Thinker 的”单 MLLM + RL”范式不同,VideoThinker 采用分层 LLM 引导架构:
Controller LLM (强 LLM)
↓ 决策
Frame Sampler + Tool Reasoner (可训练模块)
↓ 反馈
Aggregator → 最终答案
核心思想:将复杂的视频推理任务分解为高层规划(由强 LLM 完成)和底层执行(由专门模块完成),从而避免纯 RL 训练的不稳定性,同时保留 LLM 的规划能力。
2. 动机与背景
2.1 现有方法的局限
| 方法 | 问题 |
|---|---|
| 稠密采样 MLLM | 长视频 O(T) 内存 |
| 工具增强 MLLM | 工具调度能力依赖 RL 训练 |
| 链式思维 CoT | 推理步骤不可控 |
| 视频生成 | 仅适用于视觉可生成的任务 |
2.2 关键洞察
VideoThinker 的作者观察到:
- 强 LLM(GPT-4o、Claude)已具备良好的视频推理规划能力,但缺乏直接处理长视频的效率
- 专门工具(采样器、检测器、跟踪器)已成熟,但需要合适的调度策略
- 将”规划”与”执行”解耦,可以利用两者各自的优势
2.3 形式化
给定视频 和问题 ,目标是最小化:
其中:
- :模型预测答案
- :真实答案
- :推理步数
- :惩罚过多推理步骤
3. 架构详解
3.1 整体架构
VideoThinker 由四个核心组件构成:
┌─────────────────────────────────────────────┐
│ Controller LLM │
│ (GPT-4o / Claude / 强 MLLM) │
└──────────┬───────────────────────┬────────────┘
│ plan │ decide
▼ ▼
┌──────────────────┐ ┌────────────────┐
│ Frame Sampler │ │ Tool Reasoner │
│ (可学习) │ │ (可学习) │
└────────┬─────────┘ └────────┬────────┘
│ │
▼ ▼
┌──────────────────┐ ┌────────────────┐
│ Visual Encoder │ │ Tool Set │
│ (冻结) │ │ (冻结) │
└────────┬─────────┘ └────────┬────────┘
│ │
└──────────┬────────────┘
▼
┌─────────────────┐
│ Aggregator │
│ → Final Answer │
└─────────────────┘
3.2 Controller LLM
Controller 是顶层决策模块,通常使用 GPT-4o 或 Claude。其输入:
- 问题
- 当前推理状态 (已收集的证据)
- 可用工具集
输出:
- 规划:下一步应该调用哪个工具
- 决策:是否已有足够信息生成答案
Controller 通过 in-context learning 学习工具使用规范:
controller_prompt = f"""
你是一个视频推理 Agent。可用工具:
1. frame_sampler(query, top_k): 根据 query 采样视频中 top-k 关键帧
2. temporal_localizer(query): 返回 query 相关的时序区间
3. object_tracker(object_name): 跟踪目标在视频中的轨迹
4. action_recognizer(segment): 识别特定时段的视频内容
当前状态:
- 已收集证据:{state.evidence}
- 已调用工具:{state.tool_calls}
- 已生成推理步骤:{len(state.steps)}
问题:{query}
请决定下一步行动(调用工具或生成最终答案)。
"""3.3 Frame Sampler
Frame Sampler 是一个可学习的神经网络,给定 query 返回视频中关键帧的索引:
其中 是 frame-query 相关性评分函数。
训练数据由 Controller LLM 与人工标注协同构造:
# 训练数据格式
training_samples = [
{
"video_id": "v_001",
"query": "What is the person doing at 2:30?",
"relevant_frames": [150, 152, 155, 158],
"irrelevant_frames": [0, 50, 100, 200]
},
...
]损失函数:
3.4 Tool Reasoner
Tool Reasoner 是另一个可学习模块,负责:
- 选择要调用的工具
- 生成工具调用的参数
- 解析工具返回的结果
实现为一个轻量级的 LLM(参数量 ~7B),通过 SFT 训练:
# Tool Reasoner 的 SFT 数据
{
"input": "Question: ... State: ...",
"output": {
"thought": "I need to track the red ball",
"tool_call": {"name": "object_tracker", "args": {"object": "red ball"}},
"next_action": "wait_for_response"
}
}3.5 Aggregator
Aggregator 整合所有工具调用的结果,生成最终答案:
其中 是第 步的工具响应, 是对应的推理状态。
通常实现为:
- 简单的 prompt-based aggregation(当证据充分时)
- 微调的 LLM aggregation(当需要复杂整合时)
4. 训练流程
4.1 三阶段训练
阶段一:工具能力 SFT(Tool Capability SFT)
# Frame Sampler SFT
for sample in frame_sampler_data:
loss = cross_entropy(predicted_relevance, true_relevance)
# Tool Reasoner SFT
for sample in tool_reasoner_data:
loss = cross_entropy(predicted_tool_call, true_tool_call)阶段二:Controller 引导(Controller Guidance)
使用 GPT-4o 作为 Controller 标注训练数据:
# 标注流程
for sample in (video, query):
trajectory = gpt4o_controller.run(video, query)
# trajectory = [(tool_call_1, response_1), ..., (final_answer)]
save(trajectory)阶段三:协同微调(Joint Fine-tuning)
联合微调 Frame Sampler 和 Tool Reasoner,使用 Controller 的轨迹作为监督:
4.2 关键训练技巧
- 轨迹回放(Trajectory Replay):训练时回放 Controller 的轨迹,避免推理时与训练时的分布差异
- 工具失败恢复(Tool Failure Recovery):注入工具失败的训练样本,让模型学会应对
- 早停推理(Early Stopping):训练模型识别”证据充分”的信号,避免冗余调用
5. 实验结果
5.1 主要基准
在以下基准上评估:
| 基准 | 视频长度 | 任务类型 |
|---|---|---|
| Video-MME | 中(11-60 分钟) | 多模态理解 |
| MLVU | 长(2-7 小时) | 多任务 |
| LongVideoBench | 长 | 长程依赖 |
| EgoSchema | 长(3 分钟-100 小时) | 第一人称 |
| TempCompass | 中 | 时序推理 |
5.2 主要结果
| 方法 | Video-MME | MLVU | LongVideoBench | EgoSchema | 平均 |
|---|---|---|---|---|---|
| GPT-4o (基线) | 71.9 | 64.6 | 66.7 | 63.4 | 66.7 |
| Video-LLaVA | 56.4 | 47.2 | 51.3 | 53.7 | 52.2 |
| LongVA | 64.3 | 56.5 | 58.9 | 58.2 | 59.5 |
| Video-Thinker-7B | 67.2 | 65.4 | 64.0 | 67.9 | 66.1 |
| VideoThinker | 73.5 | 68.9 | 68.2 | 71.6 | 70.6 |
5.3 推理效率
| 方法 | 平均推理步数 | 推理时间(秒) | GPU 内存(GB) |
|---|---|---|---|
| GPT-4o 稠密采样 | 1 | 12.3 | 8.5 |
| Video-Thinker | 5-8 | 18.7 | 12.3 |
| VideoThinker | 3-5 | 11.4 | 9.1 |
VideoThinker 在保持精度的同时,推理效率提升 35-40%。
6. 消融实验
6.1 各组件贡献
| 组件 | Video-MME 增益 |
|---|---|
| Frame Sampler | +3.2 |
| Tool Reasoner | +2.1 |
| Aggregator | +1.4 |
| Controller LLM | +2.8 |
| 全部 | +9.5 |
6.2 Controller 选择的影响
| Controller | Video-MME | 推理时间 |
|---|---|---|
| GPT-3.5 | 67.2 | 8.2 |
| GPT-4o | 73.5 | 11.4 |
| Claude-4 | 73.1 | 12.1 |
| GPT-5 | 74.0 | 13.8 |
6.3 失败案例分析
主要失败类型:
- Controller 决策错误(38%):错误判断证据是否充分
- 工具调用失败(27%):Frame Sampler 采样到无关帧
- Aggregator 整合错误(22%):多源证据整合时丢失信息
- 问题理解错误(13%):初始 query 解析错误
7. 与相关方法的比较
7.1 与 Video-Thinker 对比
| 维度 | Video-Thinker | VideoThinker |
|---|---|---|
| 范式 | 单 MLLM + RL | LLM 引导 + 模块化 |
| 规划能力 | 内置(通过 RL 学习) | 外置(Controller LLM) |
| 训练稳定性 | 一般(RL 不稳定) | 较好(SFT 为主) |
| 推理效率 | 中 | 较好 |
| 可解释性 | 一般 | 较好(显式工具调用) |
7.2 与 Thinking With Videos 对比
| 维度 | Thinking With Videos | VideoThinker |
|---|---|---|
| 工具调度 | 通过 RL 学习 | 通过 LLM 规划 |
| 工具集 | 固定 | 动态扩展 |
| 长视频 | 擅长 | 擅长 |
| 泛化性 | 一般 | 较好(Controller 泛化) |
8. 关键创新点
8.1 理论贡献
- 规划-执行分离原则:将视频推理的认知层面(规划)与感知层面(执行)解耦
- LLM 引导的可学习工具:结合 LLM 的零样本规划能力与专门工具的高效执行
- 协同训练范式:避免纯 RL 的不稳定性,同时获得 RL 的工具使用能力
8.2 工程贡献
- 标准化工具调用协议:JSON 格式的多模态工具调用规范
- 轨迹回放机制:减少训练-推理分布差异
- 失败恢复训练:增强系统鲁棒性
9. 应用场景
9.1 长视频问答
# 推理流程示例
video = load_video("movie.mp4") # 2 小时电影
question = "Why did Alice betray Bob?"
# VideoThinker 推理
state = initial_state(question)
while not state.is_final:
if state.needs_more_frames:
frames = frame_sampler(query=question, video=video, top_k=8)
state.add_evidence(frames)
if state.needs_localization:
segment = temporal_localizer(query=question, video=video)
state.add_evidence(segment)
decision = controller.decide(state)
if decision == "answer":
state.is_final = True
return aggregator.generate(state)9.2 教育视频分析
适用于:
- 自动解题步骤生成
- 知识图谱构建
- 学习路径推荐
9.3 安防视频分析
- 异常事件检测与解释
- 多摄像头协同推理
- 长时行为分析
10. 局限性与未来方向
10.1 当前局限
- 依赖强 Controller LLM:Controller 性能决定系统上限
- 工具集固定:需要预先定义可用工具集
- 跨模态融合有限:主要处理视觉信息,音频/语音整合有限
- 推理延迟:分层架构引入额外延迟
10.2 未来方向
- 自适应工具集:模型动态发现和注册新工具
- 多 Controller 协同:多个 LLM 协同决策
- 流式视频推理:面向直播视频的实时推理
- 元认知能力:让模型学会评估自己的推理质量
11. 与现有 Wiki 内容联系
- 基础:
[[../multimodal-reasoning/thinking-with-videos-survey|Thinking with Videos 综述]]- 同类方法系统对比 - 规划:
[[../multimodal-reasoning/visual-planning-paradigm|视觉规划范式]]- Agentic 视觉规划基础 - Agent:
[[../machine-learning/agentic-ai-fundamentals|Agentic AI 基础]]- Agentic 系统的理论基础 - 工具调用:
[[../machine-learning/agent-architecture-patterns|Agent 架构模式]]- 工具调用模式
12. 参考文献
Footnotes
-
Li C., Chen Q., Han F., et al. “VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning.” ICLR 2026. arXiv:2601.15724 ↩
-
VideoThinker 项目与代码:github.com/open-lm-engine/lm-engine ↩