VideoThinker:LLM 引导工具推理的 Agentic VideoLLM

1. 概述

VideoThinker 是浙江大学、复旦大学、上海 AI Lab 联合团队在 ICLR 2026 提出的 Agentic VideoLLM 框架。12 与 Video-Thinker 的”单 MLLM + RL”范式不同,VideoThinker 采用分层 LLM 引导架构

Controller LLM (强 LLM)
    ↓ 决策
Frame Sampler + Tool Reasoner (可训练模块)
    ↓ 反馈
Aggregator → 最终答案

核心思想:将复杂的视频推理任务分解为高层规划(由强 LLM 完成)和底层执行(由专门模块完成),从而避免纯 RL 训练的不稳定性,同时保留 LLM 的规划能力。

2. 动机与背景

2.1 现有方法的局限

方法问题
稠密采样 MLLM长视频 O(T) 内存
工具增强 MLLM工具调度能力依赖 RL 训练
链式思维 CoT推理步骤不可控
视频生成仅适用于视觉可生成的任务

2.2 关键洞察

VideoThinker 的作者观察到:

  1. 强 LLM(GPT-4o、Claude)已具备良好的视频推理规划能力,但缺乏直接处理长视频的效率
  2. 专门工具(采样器、检测器、跟踪器)已成熟,但需要合适的调度策略
  3. 将”规划”与”执行”解耦,可以利用两者各自的优势

2.3 形式化

给定视频 和问题 ,目标是最小化:

其中:

  • :模型预测答案
  • :真实答案
  • :推理步数
  • :惩罚过多推理步骤

3. 架构详解

3.1 整体架构

VideoThinker 由四个核心组件构成:

┌─────────────────────────────────────────────┐
│           Controller LLM                      │
│   (GPT-4o / Claude / 强 MLLM)               │
└──────────┬───────────────────────┬────────────┘
           │ plan                  │ decide
           ▼                       ▼
   ┌──────────────────┐    ┌────────────────┐
   │ Frame Sampler    │    │ Tool Reasoner   │
   │ (可学习)          │    │ (可学习)        │
   └────────┬─────────┘    └────────┬────────┘
            │                       │
            ▼                       ▼
   ┌──────────────────┐    ┌────────────────┐
   │ Visual Encoder   │    │ Tool Set       │
   │ (冻结)            │    │ (冻结)          │
   └────────┬─────────┘    └────────┬────────┘
            │                       │
            └──────────┬────────────┘
                       ▼
              ┌─────────────────┐
              │ Aggregator      │
              │ → Final Answer  │
              └─────────────────┘

3.2 Controller LLM

Controller 是顶层决策模块,通常使用 GPT-4o 或 Claude。其输入:

  • 问题
  • 当前推理状态 (已收集的证据)
  • 可用工具集

输出:

  • 规划:下一步应该调用哪个工具
  • 决策:是否已有足够信息生成答案

Controller 通过 in-context learning 学习工具使用规范:

controller_prompt = f"""
你是一个视频推理 Agent。可用工具:
1. frame_sampler(query, top_k): 根据 query 采样视频中 top-k 关键帧
2. temporal_localizer(query): 返回 query 相关的时序区间
3. object_tracker(object_name): 跟踪目标在视频中的轨迹
4. action_recognizer(segment): 识别特定时段的视频内容
 
当前状态:
- 已收集证据:{state.evidence}
- 已调用工具:{state.tool_calls}
- 已生成推理步骤:{len(state.steps)}
 
问题:{query}
请决定下一步行动(调用工具或生成最终答案)。
"""

3.3 Frame Sampler

Frame Sampler 是一个可学习的神经网络,给定 query 返回视频中关键帧的索引:

其中 是 frame-query 相关性评分函数。

训练数据由 Controller LLM 与人工标注协同构造:

# 训练数据格式
training_samples = [
    {
        "video_id": "v_001",
        "query": "What is the person doing at 2:30?",
        "relevant_frames": [150, 152, 155, 158],
        "irrelevant_frames": [0, 50, 100, 200]
    },
    ...
]

损失函数:

3.4 Tool Reasoner

Tool Reasoner 是另一个可学习模块,负责:

  1. 选择要调用的工具
  2. 生成工具调用的参数
  3. 解析工具返回的结果

实现为一个轻量级的 LLM(参数量 ~7B),通过 SFT 训练:

# Tool Reasoner 的 SFT 数据
{
    "input": "Question: ... State: ...",
    "output": {
        "thought": "I need to track the red ball",
        "tool_call": {"name": "object_tracker", "args": {"object": "red ball"}},
        "next_action": "wait_for_response"
    }
}

3.5 Aggregator

Aggregator 整合所有工具调用的结果,生成最终答案:

其中 是第 步的工具响应, 是对应的推理状态。

通常实现为:

  • 简单的 prompt-based aggregation(当证据充分时)
  • 微调的 LLM aggregation(当需要复杂整合时)

4. 训练流程

4.1 三阶段训练

阶段一:工具能力 SFT(Tool Capability SFT)

# Frame Sampler SFT
for sample in frame_sampler_data:
    loss = cross_entropy(predicted_relevance, true_relevance)
 
# Tool Reasoner SFT
for sample in tool_reasoner_data:
    loss = cross_entropy(predicted_tool_call, true_tool_call)

阶段二:Controller 引导(Controller Guidance)

使用 GPT-4o 作为 Controller 标注训练数据:

# 标注流程
for sample in (video, query):
    trajectory = gpt4o_controller.run(video, query)
    # trajectory = [(tool_call_1, response_1), ..., (final_answer)]
    save(trajectory)

阶段三:协同微调(Joint Fine-tuning)

联合微调 Frame Sampler 和 Tool Reasoner,使用 Controller 的轨迹作为监督:

4.2 关键训练技巧

  1. 轨迹回放(Trajectory Replay):训练时回放 Controller 的轨迹,避免推理时与训练时的分布差异
  2. 工具失败恢复(Tool Failure Recovery):注入工具失败的训练样本,让模型学会应对
  3. 早停推理(Early Stopping):训练模型识别”证据充分”的信号,避免冗余调用

5. 实验结果

5.1 主要基准

在以下基准上评估:

基准视频长度任务类型
Video-MME中(11-60 分钟)多模态理解
MLVU长(2-7 小时)多任务
LongVideoBench长程依赖
EgoSchema长(3 分钟-100 小时)第一人称
TempCompass时序推理

5.2 主要结果

方法Video-MMEMLVULongVideoBenchEgoSchema平均
GPT-4o (基线)71.964.666.763.466.7
Video-LLaVA56.447.251.353.752.2
LongVA64.356.558.958.259.5
Video-Thinker-7B67.265.464.067.966.1
VideoThinker73.568.968.271.670.6

5.3 推理效率

方法平均推理步数推理时间(秒)GPU 内存(GB)
GPT-4o 稠密采样112.38.5
Video-Thinker5-818.712.3
VideoThinker3-511.49.1

VideoThinker 在保持精度的同时,推理效率提升 35-40%

6. 消融实验

6.1 各组件贡献

组件Video-MME 增益
Frame Sampler+3.2
Tool Reasoner+2.1
Aggregator+1.4
Controller LLM+2.8
全部+9.5

6.2 Controller 选择的影响

ControllerVideo-MME推理时间
GPT-3.567.28.2
GPT-4o73.511.4
Claude-473.112.1
GPT-574.013.8

6.3 失败案例分析

主要失败类型:

  1. Controller 决策错误(38%):错误判断证据是否充分
  2. 工具调用失败(27%):Frame Sampler 采样到无关帧
  3. Aggregator 整合错误(22%):多源证据整合时丢失信息
  4. 问题理解错误(13%):初始 query 解析错误

7. 与相关方法的比较

7.1 与 Video-Thinker 对比

维度Video-ThinkerVideoThinker
范式单 MLLM + RLLLM 引导 + 模块化
规划能力内置(通过 RL 学习)外置(Controller LLM)
训练稳定性一般(RL 不稳定)较好(SFT 为主)
推理效率较好
可解释性一般较好(显式工具调用)

7.2 与 Thinking With Videos 对比

维度Thinking With VideosVideoThinker
工具调度通过 RL 学习通过 LLM 规划
工具集固定动态扩展
长视频擅长擅长
泛化性一般较好(Controller 泛化)

8. 关键创新点

8.1 理论贡献

  1. 规划-执行分离原则:将视频推理的认知层面(规划)与感知层面(执行)解耦
  2. LLM 引导的可学习工具:结合 LLM 的零样本规划能力与专门工具的高效执行
  3. 协同训练范式:避免纯 RL 的不稳定性,同时获得 RL 的工具使用能力

8.2 工程贡献

  1. 标准化工具调用协议:JSON 格式的多模态工具调用规范
  2. 轨迹回放机制:减少训练-推理分布差异
  3. 失败恢复训练:增强系统鲁棒性

9. 应用场景

9.1 长视频问答

# 推理流程示例
video = load_video("movie.mp4")  # 2 小时电影
question = "Why did Alice betray Bob?"
 
# VideoThinker 推理
state = initial_state(question)
while not state.is_final:
    if state.needs_more_frames:
        frames = frame_sampler(query=question, video=video, top_k=8)
        state.add_evidence(frames)
    if state.needs_localization:
        segment = temporal_localizer(query=question, video=video)
        state.add_evidence(segment)
    decision = controller.decide(state)
    if decision == "answer":
        state.is_final = True
        return aggregator.generate(state)

9.2 教育视频分析

适用于:

  • 自动解题步骤生成
  • 知识图谱构建
  • 学习路径推荐

9.3 安防视频分析

  • 异常事件检测与解释
  • 多摄像头协同推理
  • 长时行为分析

10. 局限性与未来方向

10.1 当前局限

  1. 依赖强 Controller LLM:Controller 性能决定系统上限
  2. 工具集固定:需要预先定义可用工具集
  3. 跨模态融合有限:主要处理视觉信息,音频/语音整合有限
  4. 推理延迟:分层架构引入额外延迟

10.2 未来方向

  1. 自适应工具集:模型动态发现和注册新工具
  2. 多 Controller 协同:多个 LLM 协同决策
  3. 流式视频推理:面向直播视频的实时推理
  4. 元认知能力:让模型学会评估自己的推理质量

11. 与现有 Wiki 内容联系

  • 基础[[../multimodal-reasoning/thinking-with-videos-survey|Thinking with Videos 综述]] - 同类方法系统对比
  • 规划[[../multimodal-reasoning/visual-planning-paradigm|视觉规划范式]] - Agentic 视觉规划基础
  • Agent[[../machine-learning/agentic-ai-fundamentals|Agentic AI 基础]] - Agentic 系统的理论基础
  • 工具调用[[../machine-learning/agent-architecture-patterns|Agent 架构模式]] - 工具调用模式

12. 参考文献

Footnotes

  1. Li C., Chen Q., Han F., et al. “VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning.” ICLR 2026. arXiv:2601.15724

  2. VideoThinker 项目与代码:github.com/open-lm-engine/lm-engine