世界模型概论

定义

世界模型(World Model) 是智能体对环境动态的内部学习表示,使智能体能够:

  • 压缩高维观测(如图像、视频)为紧凑的潜在表示
  • 预测采取动作后的下一个状态
  • 预测动作带来的奖励
  • 在潜在空间中进行「想象」和规划

形式化地说,世界模型学习一个环境动力学的近似:

其中 是状态表示, 是动作, 是奖励。

历史发展

1. 概念起源:Dyna架构

Richard Sutton 在 1991 年提出的 Dyna 架构 1 是基于模型强化学习的先驱:

┌─────────────┐     ┌─────────────┐
│   真实环境   │ ──▶ │  智能体策略  │
└─────────────┘     └─────────────┘
       │                   ▲
       │                   │
       ▼                   │
┌─────────────┐            │
│   世界模型   │────────────┘
│  (习得)     │   想象 Rollout
└─────────────┘

核心思想:在真实交互之外,通过习得的世界模型「做梦」,生成合成经验来加速学习。

2. 开创性工作:Ha & Schmidhuber (2018)

David Ha 和 Jürgen Schmidhuber 在 2018 年发表的工作2首次系统性地提出了完整的世界模型框架:

  • VAE:将观测压缩为潜在向量
  • MDN-RNN:预测潜在空间中的下一个状态
  • Controller:简单线性控制器用于动作选择

该工作展示了智能体可以在「梦中」训练控制器,显著减少真实环境交互。

3. 里程碑:Dreamer 系列 (2020-2025)

Danijar Hafner 等人开发的 Dreamer 系列3456 是世界模型领域的里程碑:

版本年份主要贡献
Dreamer V12020从像素学习潜在世界模型
Dreamer V22021KL平衡、特征重构
Dreamer V32023固定超参数、通用性
Dreamer V42025可扩展架构、Nature论文

Dreamer V4 在 Minecraft 中从零学习收集钻石,是世界模型通用性的重要证明。

核心组件

现代世界模型通常包含以下组件:

1. Encoder(编码器)

将高维原始观测 (图像、视频)编码为紧凑的潜在表示

常用架构:

  • CNN:处理图像观测
  • ViT:处理视频帧
  • VAE/VQ-VAE:学习离散潜在表示

2. Dynamics Model(动态模型)

学习环境在潜在空间中的转移:

常用架构:

  • LSTM/GRU:序列建模
  • Transformer:长程依赖
  • SSM (Mamba):高效长序列

3. Reward Predictor(奖励预测器)

预测采取动作后的即时奖励:

4. Decoder(观测重建)

可选组件,用于确保潜在表示包含足够信息:

5. Value Function(价值函数)

估计未来累积奖励的期望:

6. Policy(策略)

基于潜在状态选择动作:

完整架构图

                    ┌─────────────────────────────────────┐
                    │           World Model                 │
                    │                                      │
┌────────┐          │  ┌────────┐    ┌─────────────┐     │
│  观测  │──────────│  │Encoder │───▶│  Dynamics    │     │
│  o_t  │          │  │ E(oₜ)  │    │   Model      │     │
└────────┘          │  └────────┘    │ p(zₜ₊₁|zₜ,aₜ)│     │
       ▲            │       │        └──────┬──────┘     │
       │            │       ▼               │             │
       │            │  ┌────────┐            ▼             │
       │            │  │Decoder │    ┌─────────────┐     │
       │            │  │ D(zₜ)  │    │   Reward    │     │
       │            │  └────────┘    │  Predictor  │     │
       │            │       │        └──────┬──────┘     │
       │            │       │               │             │
       │            │       │               ▼             │
       │            │       │        ┌─────────────┐     │
       │            │       └───────▶│   Value     │     │
       │            │                │  Function   │     │
       │            │                └─────────────┘     │
       │            │                      ▲             │
       │            │                      │             │
       │            └──────────────────────┴──────────────┘
       │                          │
       ▼                          ▼
┌─────────────────────────────────────────────┐
│            Imagination Rollout                │
│                                              │
│  z₀ ──▶ z₁ ──▶ z₂ ──▶ ... ──▶ z_H           │
│  │      │      │              │             │
│  a₀     a₁     a₂              │             │
│  │      │      │              ▼             │
│  r̂₀     r̂₁     r̂₂          V(z_H)          │
│  │      │      │              │             │
│  └──────┴──────┴──────────────┘             │
│          梯度上升更新 π, V, E, D             │
└─────────────────────────────────────────────┘

世界模型 vs 无模型强化学习

维度世界模型 (Model-Based)无模型 (Model-Free)
样本效率高(可从模型生成数据)低(需要大量真实交互)
泛化能力可迁移到新任务任务特定
计算成本训练时高(需要训练模型)执行时低
最优性保证理论上可收敛到最优可能陷入局部最优
适用场景模型可学、样本珍贵环境复杂、样本丰富

样本效率对比

样本效率示意(对数坐标):

          ▲
          │    ╭───────────── 无模型RL
          │   ╱
          │  ╱
          │ ╱
          │╱
          ╱
         ╱ ╲
        ╱   ╲────────── 世界模型
       ╱     ╲
      └──────────────▶
     少样本       多样本

关键优势

1. 样本效率

世界模型可以「想象」任意数量的合成经验,大幅减少真实环境交互。

2. 想象力规划

在潜在空间中进行长-horizon 规划:

3. 反事实推理

回答「如果我做 X 会怎样?」的问题:

4. 安全探索

在模型中进行危险的探索,而不影响真实环境。

挑战与限制

挑战描述解决方案
模型误差累积误差导致规划失败集成模型、不确定性估计
复合误差长horizon预测偏移短视规划、重计划
训练困难潜在空间训练不稳定KL正则化、对比学习
泛化边界模型可能泛化失败域随机化、在线适应

参考文献

相关主题

Footnotes

  1. Sutton, R. S. “Dyna, an integrated architecture for learning, planning, and reacting”. Working Notes of the AAAI Spring Symposium. 1991.

  2. Ha, D., & Schmidhuber, J. “World Models”. arXiv:1803.10122. 2018.

  3. Hafner, D., et al. “Dream to Control: Learning Behaviors by Latent Imagination”. ICLR 2020.

  4. Hafner, D., et al. “Mastering Atari with Discrete World Models”. ICLR 2021.

  5. Hafner, D., et al. “Mastering Diverse Domains through World Models”. arXiv:2301.04104. 2023.

  6. Seq et al. “Foundation Model for World Modeling”. Nature. 2025.