概述

VideoWorld是字节跳动Seed团队提出的一个自回归视频生成模型,首次系统性地探索了仅从无标签视频中学习复杂知识的可能性。该论文被CVPR 2025录用12

与当前主流的多模态大模型(如Sora、DALL-E、Midjourney)依赖语言模型不同,VideoWorld让机器仅通过视觉观察就能掌握复杂的世界知识和技能。这一范式与人婴儿通过观察环境学习的方式类似——无需明确的指令或奖励,仅通过”看”就能理解世界的运作规律。

核心贡献

  1. 证明了视频生成模型可以学习复杂规则(如围棋),无需奖励信号
  2. 提出潜在动力学模型(Latent Dynamics Model, LDM),将视觉变化压缩为信息丰富的潜在编码
  3. 在围棋和机器人操作任务上验证了纯视觉学习的有效性

研究动机

为什么从无标签视频学习?

传统的知识获取方式主要依赖:

学习方式数据要求局限性
强化学习需要大量交互和奖励信号样本效率低,难以处理稀疏奖励
语言模型需要大规模文本语料依赖语言描述,可能存在幻觉
监督学习需要标注数据标注成本高,难以覆盖长尾知识

视频数据则具有独特的优势:

  • 无处不在:互联网上存在海量无标签视频
  • 信息丰富:包含动作、因果关系、物理规律等丰富信息
  • 无需人工标注:大幅降低数据获取成本

与人类婴儿学习的类比

人类婴儿通过观察而非明确的指令来学习大量知识:

  • 观察物体运动 → 理解物理规律(重力、碰撞)
  • 观察他人行为 → 习得社会技能
  • 观察结果反馈 → 建立因果关联

VideoWorld正是试图在机器学习中复现这一过程,让模型通过”看”视频来构建对世界的理解。


核心架构

整体框架

VideoWorld采用自回归视频生成模型作为骨干,其核心架构包含两个关键组件:

┌─────────────────────────────────────────────────────────────┐
│                    VideoWorld 架构                           │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  ┌─────────────┐    ┌─────────────┐    ┌─────────────┐     │
│  │  视频输入   │ -> │  Visual     │ -> │  Latent     │     │
│  │  (原始帧)   │    │  Encoder    │    │  Dynamics    │     │
│  └─────────────┘    └─────────────┘    │  Model (LDM)│     │
│                                        └──────┬──────┘     │
│                                               │            │
│                                               v            │
│  ┌─────────────┐    ┌─────────────┐    ┌─────────────┐     │
│  │  动作预测   │ <- │  自回归     │ <- │  潜在状态   │     │
│  │  /决策     │    │  Transformer│    │  序列       │     │
│  └─────────────┘    └─────────────┘    └─────────────┘     │
│                                                             │
└─────────────────────────────────────────────────────────────┘

潜在动力学模型(Latent Dynamics Model)

LDM是VideoWorld的核心创新点,其作用是将多步视觉变化压缩为紧凑的潜在编码

其中:

  • 表示从时刻 的视频片段
  • 是压缩后的潜在状态表示

为什么需要LDM?

  1. 减少序列长度:原始视频帧数庞大,直接建模计算成本高
  2. 提取关键变化:过滤冗余信息,保留有意义的视觉变化
  3. 增强知识学习:紧凑表示使得模型更容易捕捉底层规则

自回归生成

VideoWorld通过自回归方式生成视频帧:

模型根据已观察的视频片段和潜在状态序列,预测未来的视觉变化。


知识获取能力

从视觉输入学习复杂规则

VideoWorld展示了模型能够从纯视觉输入中推断出底层规则

围棋任务

在围棋任务中,模型仅通过观察棋盘视频(黑白棋子的放置和移动),就能:

  • 学习围棋的基本规则(吃子、围空)
  • 掌握一些高级策略
  • 达到业余爱好者水平

这一结果令人惊讶,因为围棋通常被认为需要明确学习规则和大量对弈才能掌握。

关键洞察

  1. 观察即学习:仅通过观察棋局演变,模型就能推断出隐含的规则
  2. 视觉模式识别:模型学会了识别与有效决策相关的视觉模式
  3. 无需奖励信号:与强化学习不同,模型不需要”赢棋”的奖励来指导学习

任务级别的知识迁移

VideoWorld学到的视觉表示具有跨任务泛化能力

  • 统一的视觉表示可以应用于不同任务
  • 同一模型可以处理围棋、机器人操作等不同领域
  • 比纯任务特定的强化学习方法具有更好的泛化性

实验验证

围棋实验

指标结果
学习方式仅观察围棋视频(无规则说明、无对弈奖励)
棋力水平业余中级水平
泛化能力可处理未见过的棋局

机器人操作实验

VideoWorld在两个标准机器人基准上进行了评估:

CALVIN基准

CALVIN(Commonsense Language-Annotated Robotic Manipulation)是一个模拟机器人操作任务的数据集。VideoWorld的表现:

  • 达到了接近oracle模型的性能
  • 展示了从视频中学到的技能可迁移到真实机器人控制

RLBench基准

RLBench是一个更复杂的机器人操作基准,包含多种任务:

  • 零样本技能执行
  • 长期任务规划
  • 复杂物体操作

VideoWorld在这些任务上均展示了有效性。

实验结论

  1. 纯观察学习是可行的:仅通过视频观察,模型可以学习有用的技能
  2. LDM是关键:潜在表示压缩显著提升了学习效率
  3. 零样本能力:学到的表示可以泛化到未见过的任务

与现有世界模型对比

优势

方面VideoWorld传统方法
数据源无标签视频需要标注/奖励数据
泛化能力统一视觉表示,多任务通用任务特定
知识类型隐式规则学习显式奖励优化
部署成本低(无需交互收集数据)高(需要大量交互)

局限性

  1. 视觉感知的局限:复杂物理交互可能需要更精细的视觉特征
  2. 长期规划能力:视频预测误差可能累积
  3. 具身交互缺失:纯观察无法获取触觉、力反馈等信息

与相关工作的关系

VideoWorld属于视频扩散世界模型的范畴,但更强调知识获取而非单纯的视频生成质量。相关工作包括:


结论与启示

主要贡献

  1. 范式创新:首次系统证明了视频生成模型可以从无标签数据中学习复杂知识
  2. 技术突破:提出LDM架构,有效压缩视觉变化信息
  3. 实践验证:在围棋和机器人操作上验证了方法的有效性

对世界模型研究的意义

VideoWorld为世界模型研究提供了新的视角:

核心洞察:视频生成模型不仅仅是”生成视频”,其内部表示可以编码对世界的深层理解。

这一发现启示我们:

  • 数据即知识:海量无标签视频可能蕴含丰富的世界知识
  • 表示学习的重要性:如何从视频中提取有用的表示是关键
  • 类比人类学习:为理解人类认知提供计算模型

未来方向

  1. 更长程的规划:扩展到更复杂的任务
  2. 多模态融合:结合语言、触觉等更多信息
  3. 真实世界部署:将纯视觉学习应用于实际机器人

参考资源


Footnotes

  1. Ren, Z., Wei, Y., Guo, X., Zhao, Y., Kang, B., Feng, J., & Jin, X. (2025). VideoWorld: Exploring Knowledge Learning from Unlabeled Videos. CVPR 2025.

  2. 字节跳动Seed团队、北京交通大学、中国科学技术大学联合研究。