概述
VideoWorld是字节跳动Seed团队提出的一个自回归视频生成模型,首次系统性地探索了仅从无标签视频中学习复杂知识的可能性。该论文被CVPR 2025录用12。
与当前主流的多模态大模型(如Sora、DALL-E、Midjourney)依赖语言模型不同,VideoWorld让机器仅通过视觉观察就能掌握复杂的世界知识和技能。这一范式与人婴儿通过观察环境学习的方式类似——无需明确的指令或奖励,仅通过”看”就能理解世界的运作规律。
核心贡献:
- 证明了视频生成模型可以学习复杂规则(如围棋),无需奖励信号
- 提出潜在动力学模型(Latent Dynamics Model, LDM),将视觉变化压缩为信息丰富的潜在编码
- 在围棋和机器人操作任务上验证了纯视觉学习的有效性
研究动机
为什么从无标签视频学习?
传统的知识获取方式主要依赖:
视频数据则具有独特的优势:
- 无处不在:互联网上存在海量无标签视频
- 信息丰富:包含动作、因果关系、物理规律等丰富信息
- 无需人工标注:大幅降低数据获取成本
与人类婴儿学习的类比
人类婴儿通过观察而非明确的指令来学习大量知识:
- 观察物体运动 → 理解物理规律(重力、碰撞)
- 观察他人行为 → 习得社会技能
- 观察结果反馈 → 建立因果关联
VideoWorld正是试图在机器学习中复现这一过程,让模型通过”看”视频来构建对世界的理解。
核心架构
整体框架
VideoWorld采用自回归视频生成模型作为骨干,其核心架构包含两个关键组件:
┌─────────────────────────────────────────────────────────────┐
│ VideoWorld 架构 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ 视频输入 │ -> │ Visual │ -> │ Latent │ │
│ │ (原始帧) │ │ Encoder │ │ Dynamics │ │
│ └─────────────┘ └─────────────┘ │ Model (LDM)│ │
│ └──────┬──────┘ │
│ │ │
│ v │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ 动作预测 │ <- │ 自回归 │ <- │ 潜在状态 │ │
│ │ /决策 │ │ Transformer│ │ 序列 │ │
│ └─────────────┘ └─────────────┘ └─────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
潜在动力学模型(Latent Dynamics Model)
LDM是VideoWorld的核心创新点,其作用是将多步视觉变化压缩为紧凑的潜在编码:
其中:
- 表示从时刻 到 的视频片段
- 是压缩后的潜在状态表示
为什么需要LDM?
- 减少序列长度:原始视频帧数庞大,直接建模计算成本高
- 提取关键变化:过滤冗余信息,保留有意义的视觉变化
- 增强知识学习:紧凑表示使得模型更容易捕捉底层规则
自回归生成
VideoWorld通过自回归方式生成视频帧:
模型根据已观察的视频片段和潜在状态序列,预测未来的视觉变化。
知识获取能力
从视觉输入学习复杂规则
VideoWorld展示了模型能够从纯视觉输入中推断出底层规则:
围棋任务
在围棋任务中,模型仅通过观察棋盘视频(黑白棋子的放置和移动),就能:
- 学习围棋的基本规则(吃子、围空)
- 掌握一些高级策略
- 达到业余爱好者水平
这一结果令人惊讶,因为围棋通常被认为需要明确学习规则和大量对弈才能掌握。
关键洞察
- 观察即学习:仅通过观察棋局演变,模型就能推断出隐含的规则
- 视觉模式识别:模型学会了识别与有效决策相关的视觉模式
- 无需奖励信号:与强化学习不同,模型不需要”赢棋”的奖励来指导学习
任务级别的知识迁移
VideoWorld学到的视觉表示具有跨任务泛化能力:
- 统一的视觉表示可以应用于不同任务
- 同一模型可以处理围棋、机器人操作等不同领域
- 比纯任务特定的强化学习方法具有更好的泛化性
实验验证
围棋实验
| 指标 | 结果 |
|---|---|
| 学习方式 | 仅观察围棋视频(无规则说明、无对弈奖励) |
| 棋力水平 | 业余中级水平 |
| 泛化能力 | 可处理未见过的棋局 |
机器人操作实验
VideoWorld在两个标准机器人基准上进行了评估:
CALVIN基准
CALVIN(Commonsense Language-Annotated Robotic Manipulation)是一个模拟机器人操作任务的数据集。VideoWorld的表现:
- 达到了接近oracle模型的性能
- 展示了从视频中学到的技能可迁移到真实机器人控制
RLBench基准
RLBench是一个更复杂的机器人操作基准,包含多种任务:
- 零样本技能执行
- 长期任务规划
- 复杂物体操作
VideoWorld在这些任务上均展示了有效性。
实验结论
- 纯观察学习是可行的:仅通过视频观察,模型可以学习有用的技能
- LDM是关键:潜在表示压缩显著提升了学习效率
- 零样本能力:学到的表示可以泛化到未见过的任务
与现有世界模型对比
优势
| 方面 | VideoWorld | 传统方法 |
|---|---|---|
| 数据源 | 无标签视频 | 需要标注/奖励数据 |
| 泛化能力 | 统一视觉表示,多任务通用 | 任务特定 |
| 知识类型 | 隐式规则学习 | 显式奖励优化 |
| 部署成本 | 低(无需交互收集数据) | 高(需要大量交互) |
局限性
- 视觉感知的局限:复杂物理交互可能需要更精细的视觉特征
- 长期规划能力:视频预测误差可能累积
- 具身交互缺失:纯观察无法获取触觉、力反馈等信息
与相关工作的关系
VideoWorld属于视频扩散世界模型的范畴,但更强调知识获取而非单纯的视频生成质量。相关工作包括:
结论与启示
主要贡献
- 范式创新:首次系统证明了视频生成模型可以从无标签数据中学习复杂知识
- 技术突破:提出LDM架构,有效压缩视觉变化信息
- 实践验证:在围棋和机器人操作上验证了方法的有效性
对世界模型研究的意义
VideoWorld为世界模型研究提供了新的视角:
核心洞察:视频生成模型不仅仅是”生成视频”,其内部表示可以编码对世界的深层理解。
这一发现启示我们:
- 数据即知识:海量无标签视频可能蕴含丰富的世界知识
- 表示学习的重要性:如何从视频中提取有用的表示是关键
- 类比人类学习:为理解人类认知提供计算模型
未来方向
- 更长程的规划:扩展到更复杂的任务
- 多模态融合:结合语言、触觉等更多信息
- 真实世界部署:将纯视觉学习应用于实际机器人
参考资源
- 论文:VideoWorld: Exploring Knowledge Learning from Unlabeled Videos (CVPR 2025)
- 代码:ByteDance-Seed/VideoWorld
- 项目主页:VideoWorld Project Page