概述
VideoWorld 2 是由字节跳动 Seed 团队于 2026 年 2 月发布的最新工作,提出从原始真实世界视频中直接学习可迁移知识,并将其泛化到全新环境中12。该工作是 VideoWorld 的扩展,首次系统性地探索了仅通过”观看”原始视频来掌握复杂、长时域真实世界知识并泛化技能的可能性1。
智能体从无标注视频数据中学习可迁移知识,并将其应用于新环境,是通用人工智能的基础能力之一。然而,真实世界视频与模拟环境在视觉外观、物体材质、光照条件等方面存在巨大差异,直接从真实视频中学习世界知识面临严峻挑战1。
VideoWorld 2 在具有挑战性的真实世界手工制作任务(handcraft making tasks)上进行了评估,实验表明此前的视频生成模型和隐动态模型在这些任务上均难以可靠运行,而 VideoWorld 2 显著提升了任务成功率1。
核心创新:dLDM
VideoWorld 2 的核心创新在于提出了 Dynamics-enhanced Latent Dynamics Model(dLDM)——一种将动作动态与视觉外观解耦的隐动态模型12。
传统的视频生成模型和隐动态模型在处理真实世界视频时,容易被丰富的视觉外观变化(光照、纹理、背景干扰等)所主导,导致学习到的隐表示包含大量与任务无关的外观信息,而真正影响决策的动作动态信息被稀释1。dLDM 的设计正是为了解决这一根本矛盾。
dLDM 的核心思想是:将视觉外观建模与动作动态学习分离。具体而言:
- 视觉外观层:使用预训练的视频扩散模型(video diffusion model)负责高质量地建模视觉外观,捕捉场景的整体纹理、光照和物体外观13。
- 动作动态层:dLDM 专注于学习紧凑且有意义的任务相关动态(task-relevant dynamics),即将视频帧之间的视觉变化压缩为紧凑的隐码(latent codes)12。
这种解耦设计使得 dLDM 能够抑制外观变化(appearance variation),直接捕获与任务相关的视觉动态,从而生成适合复杂任务执行的表示1。
动作动态与视觉解耦
动作动态与视觉外观的解耦是 VideoWorld 2 的关键设计思想。真实世界视频中的外观变化来源多样,包括但不限于:光照变化、相机运动、物体纹理差异以及背景干扰等。这些变化虽然不影响物理规律本身,但会严重干扰模型的表示学习1。
解耦的必要性
- 表示纯度:解耦后的隐码专注于编码动作引起的状态变化,而非冗余的外观信息。
- 泛化能力:当知识迁移到新环境时,新环境可能有完全不同的视觉外观(不同的光照、背景、物体颜色),但底层的动作动态规律是相通的。解耦使得模型能够抓住这一不变性。
- 长时域推理:紧凑的隐动态表示降低了时序推理的复杂度,有助于支持长时域任务的规划与执行。
实现方式
dLDM 利用预训练视频扩散模型的强大生成能力来处理复杂的外观建模,从而解放 dLDM 本身,使其专门负责动态建模3。这种”各司其职”的设计避免了单一模型同时兼顾外观和动态时可能出现的表示纠缠问题。
可迁移知识学习
VideoWorld 2 的核心目标是从真实世界视频中学习可迁移知识,并在未见过的环境中成功执行任务。
学习范式
整个框架包含两个主要阶段:
- 隐动态建模阶段:dLDM 将视频帧之间的视觉变化压缩为紧凑的隐码序列,这些隐码编码了任务执行过程中的关键状态变化。
- 自回归策略学习阶段:基于压缩得到的隐码序列,使用 Transformer 进行自回归建模,学习任务策略,支持长时域推理4。
知识迁移机制
在 VideoWorld 中,知识来源于模拟环境数据;而 VideoWorld 2 的创新之处在于将知识来源扩展到原始真实世界视频。通过 dLDM 对动作动态的显式建模,模型能够从真实视频中提取出独立于特定视觉外观的一般化动作规律,这些规律在不同环境中具有较强的可迁移性。
实验表明,VideoWorld 2 能够在全新的环境中应用从真实视频中学到的技能,显著提升了长时域任务的成功率,最高提升幅度达 70%2。
技术细节
模型架构
dLDM 的架构分为两个核心组件:
| 组件 | 功能 | 技术选型 |
|---|---|---|
| 外观建模器 | 负责视觉外观的高质量建模与重建 | 预训练视频扩散模型 |
| 隐动态编码器 | 将帧间视觉变化压缩为紧凑隐码 | 可学习的神经网络 |
| 时序推理器 | 基于隐码序列进行自回归建模 | Transformer |
dLDM 将每一帧到其后 帧的视觉变化压缩为紧凑的隐码,这些隐码随后由 Transformer 以自回归方式进行建模4。
训练方法
- 两阶段训练策略:第一阶段训练外观建模器(通常采用大规模视频扩散模型预训练);第二阶段固定外观建模器,单独优化 dLDM 的动态编码器。
- 无标注数据驱动:整个训练过程仅依赖无标注的真实世界视频,无需人工标注的动作标签或任务描述。
- 目标函数:动态编码器的优化目标是最小化隐码与真实状态变化之间的重建误差,同时鼓励隐码的紧凑性与可解释性。
与 VideoWorld 的关键区别
| 方面 | VideoWorld | VideoWorld 2 |
|---|---|---|
| 数据来源 | 模拟环境视频 | 原始真实世界视频 |
| 外观处理 | 隐式处理外观变化 | 显式解耦:视频扩散模型处理外观 |
| 核心模型 | Latent Dynamics Model (LDM) | Dynamics-enhanced LDM (dLDM) |
| 知识迁移 | 模拟到模拟 | 真实视频到新环境 |
| 泛化范围 | 受限于模拟环境的视觉先验 | 跨外观泛化 |
评估与实验
VideoWorld 2 在真实世界手工制作任务(handcraft making tasks)上进行了系统评估。该任务具有以下特点:
- 长时域:需要多个步骤的连贯执行
- 精细操作:涉及手部与物体的精细交互
- 视觉多样性:不同演示视频中外观差异显著
实验结果表明:
- 此前的方法(包括视频生成模型和标准隐动态模型)在这些任务上均难以可靠运行1。
- VideoWorld 2 通过 dLDM 对动作动态的显式建模,显著提升了任务成功率,最高提升达 70%2。
- 在视觉质量和任务执行两个维度上均优于此前方法。
相关研究
VideoWorld 2 的工作与以下研究方向密切相关:
- video-diffusion-world-models:视频扩散模型在世界模型中的应用
- latent-dynamics-model:隐动态模型的基本原理
- embodied-world-models-robotics-2025:具身智能中的世界模型
- world-model-agents-computer-use:世界模型驱动的智能体
- physics-informed-world-models:物理先验融入世界模型
结论与展望
VideoWorld 2 通过引入 dLDM,首次系统性地实现了从原始真实世界视频中学习可迁移世界知识的目标。dLDM 的核心贡献在于将动作动态与视觉外观解耦,使得模型能够专注于捕获任务相关的动作规律,而非被冗余的外观变化所干扰。
该工作的意义不仅在于算法层面的创新,更在于证明了无需语言先验、无需人工标注,智能体也能通过”观看”原始视频来掌握可迁移的技能知识。作者表示将开源全部代码、数据和模型,以推动该方向的进一步研究23。
未来方向
- 在更大规模、更多样化的真实世界视频数据集上验证方法的有效性
- 探索 dLDM 与多模态信息(语言、触觉等)的结合
- 将可迁移知识学习扩展到更复杂的机器人操作任务
Footnotes
-
VideoWorld 2: Learning Transferable Knowledge from Real-world Videos. arXiv:2602.10102, 2026. ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11
-
Hugging Face Papers - VideoWorld 2. https://huggingface.co/papers/2602.10102 ↩ ↩2 ↩3 ↩4 ↩5 ↩6
-
CVPR 2026 Virtual Conference - VideoWorld 2. https://cvpr.thecvf.com/virtual/2026/poster/39275 ↩ ↩2 ↩3
-
VideoWorld GitHub Repository. https://github.com/ByteDance-Seed/VideoWorld ↩ ↩2