VideoWorld：探索从无标签视频中学习知识

概述

VideoWorld是字节跳动Seed团队提出的一个自回归视频生成模型，首次系统性地探索了仅从无标签视频中学习复杂知识的可能性。该论文被CVPR 2025录用¹²。

与当前主流的多模态大模型（如Sora、DALL-E、Midjourney）依赖语言模型不同，VideoWorld让机器仅通过视觉观察就能掌握复杂的世界知识和技能。这一范式与人婴儿通过观察环境学习的方式类似——无需明确的指令或奖励，仅通过”看”就能理解世界的运作规律。

核心贡献：

证明了视频生成模型可以学习复杂规则（如围棋），无需奖励信号
提出潜在动力学模型（Latent Dynamics Model, LDM），将视觉变化压缩为信息丰富的潜在编码
在围棋和机器人操作任务上验证了纯视觉学习的有效性

研究动机

为什么从无标签视频学习？

传统的知识获取方式主要依赖：

学习方式	数据要求	局限性
强化学习	需要大量交互和奖励信号	样本效率低，难以处理稀疏奖励
语言模型	需要大规模文本语料	依赖语言描述，可能存在幻觉
监督学习	需要标注数据	标注成本高，难以覆盖长尾知识

视频数据则具有独特的优势：

无处不在：互联网上存在海量无标签视频
信息丰富：包含动作、因果关系、物理规律等丰富信息
无需人工标注：大幅降低数据获取成本

与人类婴儿学习的类比

人类婴儿通过观察而非明确的指令来学习大量知识：

观察物体运动 → 理解物理规律（重力、碰撞）
观察他人行为 → 习得社会技能
观察结果反馈 → 建立因果关联

VideoWorld正是试图在机器学习中复现这一过程，让模型通过”看”视频来构建对世界的理解。

核心架构

整体框架

VideoWorld采用自回归视频生成模型作为骨干，其核心架构包含两个关键组件：

┌─────────────────────────────────────────────────────────────┐
│                    VideoWorld 架构                           │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  ┌─────────────┐    ┌─────────────┐    ┌─────────────┐     │
│  │  视频输入   │ -> │  Visual     │ -> │  Latent     │     │
│  │  (原始帧)   │    │  Encoder    │    │  Dynamics    │     │
│  └─────────────┘    └─────────────┘    │  Model (LDM)│     │
│                                        └──────┬──────┘     │
│                                               │            │
│                                               v            │
│  ┌─────────────┐    ┌─────────────┐    ┌─────────────┐     │
│  │  动作预测   │ <- │  自回归     │ <- │  潜在状态   │     │
│  │  /决策     │    │  Transformer│    │  序列       │     │
│  └─────────────┘    └─────────────┘    └─────────────┘     │
│                                                             │
└─────────────────────────────────────────────────────────────┘

潜在动力学模型（Latent Dynamics Model）

LDM是VideoWorld的核心创新点，其作用是将多步视觉变化压缩为紧凑的潜在编码：

z_{t} = LDM (x_{t : t + Δ t})

其中：

$x_{t : t + Δ t}$ 表示从时刻 $t$ 到 $t + Δ t$ 的视频片段
$z_{t}$ 是压缩后的潜在状态表示

为什么需要LDM？

减少序列长度：原始视频帧数庞大，直接建模计算成本高
提取关键变化：过滤冗余信息，保留有意义的视觉变化
增强知识学习：紧凑表示使得模型更容易捕捉底层规则

自回归生成

VideoWorld通过自回归方式生成视频帧：

P (x_{t + 1 : T} ∣ x_{1 : t}) = t = 1 \prod T P (x_{t + 1} ∣ x_{1 : t}, z_{< t})

模型根据已观察的视频片段和潜在状态序列，预测未来的视觉变化。

知识获取能力

从视觉输入学习复杂规则

VideoWorld展示了模型能够从纯视觉输入中推断出底层规则：

围棋任务

在围棋任务中，模型仅通过观察棋盘视频（黑白棋子的放置和移动），就能：

学习围棋的基本规则（吃子、围空）
掌握一些高级策略
达到业余爱好者水平

这一结果令人惊讶，因为围棋通常被认为需要明确学习规则和大量对弈才能掌握。

关键洞察

观察即学习：仅通过观察棋局演变，模型就能推断出隐含的规则
视觉模式识别：模型学会了识别与有效决策相关的视觉模式
无需奖励信号：与强化学习不同，模型不需要”赢棋”的奖励来指导学习

任务级别的知识迁移

VideoWorld学到的视觉表示具有跨任务泛化能力：

统一的视觉表示可以应用于不同任务
同一模型可以处理围棋、机器人操作等不同领域
比纯任务特定的强化学习方法具有更好的泛化性

实验验证

围棋实验

指标	结果
学习方式	仅观察围棋视频（无规则说明、无对弈奖励）
棋力水平	业余中级水平
泛化能力	可处理未见过的棋局

机器人操作实验

VideoWorld在两个标准机器人基准上进行了评估：

CALVIN基准

CALVIN（Commonsense Language-Annotated Robotic Manipulation）是一个模拟机器人操作任务的数据集。VideoWorld的表现：

达到了接近oracle模型的性能
展示了从视频中学到的技能可迁移到真实机器人控制

RLBench基准

RLBench是一个更复杂的机器人操作基准，包含多种任务：

零样本技能执行
长期任务规划
复杂物体操作

VideoWorld在这些任务上均展示了有效性。

实验结论

纯观察学习是可行的：仅通过视频观察，模型可以学习有用的技能
LDM是关键：潜在表示压缩显著提升了学习效率
零样本能力：学到的表示可以泛化到未见过的任务

与现有世界模型对比

优势

方面	VideoWorld	传统方法
数据源	无标签视频	需要标注/奖励数据
泛化能力	统一视觉表示，多任务通用	任务特定
知识类型	隐式规则学习	显式奖励优化
部署成本	低（无需交互收集数据）	高（需要大量交互）

局限性

视觉感知的局限：复杂物理交互可能需要更精细的视觉特征
长期规划能力：视频预测误差可能累积
具身交互缺失：纯观察无法获取触觉、力反馈等信息

与相关工作的关系

VideoWorld属于视频扩散世界模型的范畴，但更强调知识获取而非单纯的视频生成质量。相关工作包括：

Genie-3：Google的世界模型
视频世界模型：基于视频生成的动作规划
具身AI世界模型：强调物理交互的世界模型

结论与启示

主要贡献

范式创新：首次系统证明了视频生成模型可以从无标签数据中学习复杂知识
技术突破：提出LDM架构，有效压缩视觉变化信息
实践验证：在围棋和机器人操作上验证了方法的有效性

对世界模型研究的意义

VideoWorld为世界模型研究提供了新的视角：

核心洞察：视频生成模型不仅仅是”生成视频”，其内部表示可以编码对世界的深层理解。

这一发现启示我们：

数据即知识：海量无标签视频可能蕴含丰富的世界知识
表示学习的重要性：如何从视频中提取有用的表示是关键
类比人类学习：为理解人类认知提供计算模型

未来方向

更长程的规划：扩展到更复杂的任务
多模态融合：结合语言、触觉等更多信息
真实世界部署：将纯视觉学习应用于实际机器人

参考资源

论文：VideoWorld: Exploring Knowledge Learning from Unlabeled Videos (CVPR 2025)
代码：ByteDance-Seed/VideoWorld
项目主页：VideoWorld Project Page

Ren, Z., Wei, Y., Guo, X., Zhao, Y., Kang, B., Feng, J., & Jin, X. (2025). VideoWorld: Exploring Knowledge Learning from Unlabeled Videos. CVPR 2025. ↩
字节跳动Seed团队、北京交通大学、中国科学技术大学联合研究。 ↩

Metaphor

探索

VideoWorld：探索从无标签视频中学习知识

概述

研究动机

为什么从无标签视频学习？

与人类婴儿学习的类比

核心架构

整体框架

潜在动力学模型（Latent Dynamics Model）

自回归生成

知识获取能力

从视觉输入学习复杂规则

围棋任务

关键洞察

任务级别的知识迁移

实验验证

围棋实验

机器人操作实验

CALVIN基准

RLBench基准

实验结论

与现有世界模型对比

优势

局限性

与相关工作的关系

结论与启示

主要贡献

对世界模型研究的意义

未来方向

参考资源

关系图谱

目录

Metaphor

探索

VideoWorld：探索从无标签视频中学习知识

概述

研究动机

为什么从无标签视频学习？

与人类婴儿学习的类比

核心架构

整体框架

潜在动力学模型（Latent Dynamics Model）

自回归生成

知识获取能力

从视觉输入学习复杂规则

围棋任务

关键洞察

任务级别的知识迁移

实验验证

围棋实验

机器人操作实验

CALVIN基准

RLBench基准

实验结论

与现有世界模型对比

优势

局限性

与相关工作的关系

结论与启示

主要贡献

对世界模型研究的意义

未来方向

参考资源

Footnotes

关系图谱

目录