VideoThinker：LLM 引导工具推理的 Agentic VideoLLM

1. 概述

VideoThinker 是浙江大学、复旦大学、上海 AI Lab 联合团队在 ICLR 2026 提出的 Agentic VideoLLM 框架。¹² 与 Video-Thinker 的”单 MLLM + RL”范式不同，VideoThinker 采用分层 LLM 引导架构：

Controller LLM (强 LLM)
    ↓ 决策
Frame Sampler + Tool Reasoner (可训练模块)
    ↓ 反馈
Aggregator → 最终答案

核心思想：将复杂的视频推理任务分解为高层规划（由强 LLM 完成）和底层执行（由专门模块完成），从而避免纯 RL 训练的不稳定性，同时保留 LLM 的规划能力。

2. 动机与背景

2.1 现有方法的局限

方法	问题
稠密采样 MLLM	长视频 O(T) 内存
工具增强 MLLM	工具调度能力依赖 RL 训练
链式思维 CoT	推理步骤不可控
视频生成	仅适用于视觉可生成的任务

2.2 关键洞察

VideoThinker 的作者观察到：

强 LLM（GPT-4o、Claude）已具备良好的视频推理规划能力，但缺乏直接处理长视频的效率
专门工具（采样器、检测器、跟踪器）已成熟，但需要合适的调度策略
将”规划”与”执行”解耦，可以利用两者各自的优势

2.3 形式化

给定视频 $V$ 和问题 $Q$ ，目标是最小化：

L = E_{V, Q} [L_{answer} (\hat{A}, A^{*}) + λ L_{efficiency} (N_{steps})]

其中：

$\hat{A}$ ：模型预测答案
$A^{*}$ ：真实答案
$N_{steps}$ ：推理步数
$L_{efficiency}$ ：惩罚过多推理步骤

3. 架构详解

3.1 整体架构

VideoThinker 由四个核心组件构成：

┌─────────────────────────────────────────────┐
│           Controller LLM                      │
│   (GPT-4o / Claude / 强 MLLM)               │
└──────────┬───────────────────────┬────────────┘
           │ plan                  │ decide
           ▼                       ▼
   ┌──────────────────┐    ┌────────────────┐
   │ Frame Sampler    │    │ Tool Reasoner   │
   │ (可学习)          │    │ (可学习)        │
   └────────┬─────────┘    └────────┬────────┘
            │                       │
            ▼                       ▼
   ┌──────────────────┐    ┌────────────────┐
   │ Visual Encoder   │    │ Tool Set       │
   │ (冻结)            │    │ (冻结)          │
   └────────┬─────────┘    └────────┬────────┘
            │                       │
            └──────────┬────────────┘
                       ▼
              ┌─────────────────┐
              │ Aggregator      │
              │ → Final Answer  │
              └─────────────────┘

3.2 Controller LLM

Controller 是顶层决策模块，通常使用 GPT-4o 或 Claude。其输入：

问题 $Q$
当前推理状态 $S_{t}$ （已收集的证据）
可用工具集 $T$

输出：

规划：下一步应该调用哪个工具
决策：是否已有足够信息生成答案

Controller 通过 in-context learning 学习工具使用规范：

controller_prompt = f"""
你是一个视频推理 Agent。可用工具：
1. frame_sampler(query, top_k): 根据 query 采样视频中 top-k 关键帧
2. temporal_localizer(query): 返回 query 相关的时序区间
3. object_tracker(object_name): 跟踪目标在视频中的轨迹
4. action_recognizer(segment): 识别特定时段的视频内容
 
当前状态：
- 已收集证据：{state.evidence}
- 已调用工具：{state.tool_calls}
- 已生成推理步骤：{len(state.steps)}
 
问题：{query}
请决定下一步行动（调用工具或生成最终答案）。
"""

3.3 Frame Sampler

Frame Sampler 是一个可学习的神经网络，给定 query 返回视频中关键帧的索引：

indices = ar g top-k_{i \in [1, T]} f_{θ} (v_{i}, Q)

其中 $f_{θ}$ 是 frame-query 相关性评分函数。

训练数据由 Controller LLM 与人工标注协同构造：

# 训练数据格式
training_samples = [
    {
        "video_id": "v_001",
        "query": "What is the person doing at 2:30?",
        "relevant_frames": [150, 152, 155, 158],
        "irrelevant_frames": [0, 50, 100, 200]
    },
    ...
]

损失函数：

L_{sampler} = - i \in rel \sum lo g \frac{exp ( f _{θ} ( v _{i} , Q ))}{\sum _{j} exp ( f _{θ} ( v _{j} , Q ))} + λ i \in irrel \sum max (0, f_{θ} (v_{i}, Q) - margin)

3.4 Tool Reasoner

Tool Reasoner 是另一个可学习模块，负责：

选择要调用的工具
生成工具调用的参数
解析工具返回的结果

实现为一个轻量级的 LLM（参数量 ~7B），通过 SFT 训练：

# Tool Reasoner 的 SFT 数据
{
    "input": "Question: ... State: ...",
    "output": {
        "thought": "I need to track the red ball",
        "tool_call": {"name": "object_tracker", "args": {"object": "red ball"}},
        "next_action": "wait_for_response"
    }
}

3.5 Aggregator

Aggregator 整合所有工具调用的结果，生成最终答案：

A = Aggregator ({(r_{i}, s_{i})}_{i = 1}^{N}, Q)

其中 $r_{i}$ 是第 $i$ 步的工具响应， $s_{i}$ 是对应的推理状态。

通常实现为：

简单的 prompt-based aggregation（当证据充分时）
微调的 LLM aggregation（当需要复杂整合时）

4. 训练流程

4.1 三阶段训练

阶段一：工具能力 SFT（Tool Capability SFT）

# Frame Sampler SFT
for sample in frame_sampler_data:
    loss = cross_entropy(predicted_relevance, true_relevance)
 
# Tool Reasoner SFT
for sample in tool_reasoner_data:
    loss = cross_entropy(predicted_tool_call, true_tool_call)

阶段二：Controller 引导（Controller Guidance）

使用 GPT-4o 作为 Controller 标注训练数据：

# 标注流程
for sample in (video, query):
    trajectory = gpt4o_controller.run(video, query)
    # trajectory = [(tool_call_1, response_1), ..., (final_answer)]
    save(trajectory)

阶段三：协同微调（Joint Fine-tuning）

联合微调 Frame Sampler 和 Tool Reasoner，使用 Controller 的轨迹作为监督：

L_{joint} = L_{sampler} + α L_{reasoner} + β L_{aggregator}

4.2 关键训练技巧

轨迹回放（Trajectory Replay）：训练时回放 Controller 的轨迹，避免推理时与训练时的分布差异
工具失败恢复（Tool Failure Recovery）：注入工具失败的训练样本，让模型学会应对
早停推理（Early Stopping）：训练模型识别”证据充分”的信号，避免冗余调用

5. 实验结果

5.1 主要基准

在以下基准上评估：

基准	视频长度	任务类型
Video-MME	中（11-60 分钟）	多模态理解
MLVU	长（2-7 小时）	多任务
LongVideoBench	长	长程依赖
EgoSchema	长（3 分钟-100 小时）	第一人称
TempCompass	中	时序推理

5.2 主要结果

方法	Video-MME	MLVU	LongVideoBench	EgoSchema	平均
GPT-4o (基线)	71.9	64.6	66.7	63.4	66.7
Video-LLaVA	56.4	47.2	51.3	53.7	52.2
LongVA	64.3	56.5	58.9	58.2	59.5
Video-Thinker-7B	67.2	65.4	64.0	67.9	66.1
VideoThinker	73.5	68.9	68.2	71.6	70.6

5.3 推理效率

方法	平均推理步数	推理时间（秒）	GPU 内存（GB）
GPT-4o 稠密采样	1	12.3	8.5
Video-Thinker	5-8	18.7	12.3
VideoThinker	3-5	11.4	9.1

VideoThinker 在保持精度的同时，推理效率提升 35-40%。

6. 消融实验

6.1 各组件贡献

组件	Video-MME 增益
Frame Sampler	+3.2
Tool Reasoner	+2.1
Aggregator	+1.4
Controller LLM	+2.8
全部	+9.5

6.2 Controller 选择的影响

Controller	Video-MME	推理时间
GPT-3.5	67.2	8.2
GPT-4o	73.5	11.4
Claude-4	73.1	12.1
GPT-5	74.0	13.8

6.3 失败案例分析

主要失败类型：

Controller 决策错误（38%）：错误判断证据是否充分
工具调用失败（27%）：Frame Sampler 采样到无关帧
Aggregator 整合错误（22%）：多源证据整合时丢失信息
问题理解错误（13%）：初始 query 解析错误

7. 与相关方法的比较

7.1 与 Video-Thinker 对比

维度	Video-Thinker	VideoThinker
范式	单 MLLM + RL	LLM 引导 + 模块化
规划能力	内置（通过 RL 学习）	外置（Controller LLM）
训练稳定性	一般（RL 不稳定）	较好（SFT 为主）
推理效率	中	较好
可解释性	一般	较好（显式工具调用）

7.2 与 Thinking With Videos 对比

维度	Thinking With Videos	VideoThinker
工具调度	通过 RL 学习	通过 LLM 规划
工具集	固定	动态扩展
长视频	擅长	擅长
泛化性	一般	较好（Controller 泛化）

8. 关键创新点

8.1 理论贡献

规划-执行分离原则：将视频推理的认知层面（规划）与感知层面（执行）解耦
LLM 引导的可学习工具：结合 LLM 的零样本规划能力与专门工具的高效执行
协同训练范式：避免纯 RL 的不稳定性，同时获得 RL 的工具使用能力

8.2 工程贡献

标准化工具调用协议：JSON 格式的多模态工具调用规范
轨迹回放机制：减少训练-推理分布差异
失败恢复训练：增强系统鲁棒性

9. 应用场景

9.1 长视频问答

# 推理流程示例
video = load_video("movie.mp4")  # 2 小时电影
question = "Why did Alice betray Bob?"
 
# VideoThinker 推理
state = initial_state(question)
while not state.is_final:
    if state.needs_more_frames:
        frames = frame_sampler(query=question, video=video, top_k=8)
        state.add_evidence(frames)
    if state.needs_localization:
        segment = temporal_localizer(query=question, video=video)
        state.add_evidence(segment)
    decision = controller.decide(state)
    if decision == "answer":
        state.is_final = True
        return aggregator.generate(state)

9.2 教育视频分析

适用于：

自动解题步骤生成
知识图谱构建
学习路径推荐

9.3 安防视频分析

异常事件检测与解释
多摄像头协同推理
长时行为分析

10. 局限性与未来方向

10.1 当前局限

依赖强 Controller LLM：Controller 性能决定系统上限
工具集固定：需要预先定义可用工具集
跨模态融合有限：主要处理视觉信息，音频/语音整合有限
推理延迟：分层架构引入额外延迟

10.2 未来方向

自适应工具集：模型动态发现和注册新工具
多 Controller 协同：多个 LLM 协同决策
流式视频推理：面向直播视频的实时推理
元认知能力：让模型学会评估自己的推理质量

11. 与现有 Wiki 内容联系

基础：[[../multimodal-reasoning/thinking-with-videos-survey|Thinking with Videos 综述]] - 同类方法系统对比
规划：[[../multimodal-reasoning/visual-planning-paradigm|视觉规划范式]] - Agentic 视觉规划基础
Agent：[[../machine-learning/agentic-ai-fundamentals|Agentic AI 基础]] - Agentic 系统的理论基础
工具调用：[[../machine-learning/agent-architecture-patterns|Agent 架构模式]] - 工具调用模式

12. 参考文献

Li C., Chen Q., Han F., et al. “VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning.” ICLR 2026. arXiv:2601.15724 ↩
VideoThinker 项目与代码：github.com/open-lm-engine/lm-engine ↩

Metaphor

探索

VideoThinker：LLM 引导工具推理的 Agentic VideoLLM

VideoThinker：LLM 引导工具推理的 Agentic VideoLLM

1. 概述

2. 动机与背景

2.1 现有方法的局限

2.2 关键洞察

2.3 形式化

3. 架构详解

3.1 整体架构

3.2 Controller LLM

3.3 Frame Sampler

3.4 Tool Reasoner

3.5 Aggregator

4. 训练流程

4.1 三阶段训练

4.2 关键训练技巧

5. 实验结果

5.1 主要基准

5.2 主要结果

5.3 推理效率

6. 消融实验

6.1 各组件贡献

6.2 Controller 选择的影响

6.3 失败案例分析

7. 与相关方法的比较

7.1 与 Video-Thinker 对比

7.2 与 Thinking With Videos 对比

8. 关键创新点

8.1 理论贡献

8.2 工程贡献

9. 应用场景

9.1 长视频问答

9.2 教育视频分析

9.3 安防视频分析

10. 局限性与未来方向

10.1 当前局限

10.2 未来方向

11. 与现有 Wiki 内容联系

12. 参考文献

Footnotes

关系图谱

目录