世界模型概论
定义
世界模型(World Model) 是智能体对环境动态的内部学习表示,使智能体能够:
- 压缩高维观测(如图像、视频)为紧凑的潜在表示
- 预测采取动作后的下一个状态
- 预测动作带来的奖励
- 在潜在空间中进行「想象」和规划
形式化地说,世界模型学习一个环境动力学的近似:
其中 是状态表示, 是动作, 是奖励。
历史发展
1. 概念起源:Dyna架构
Richard Sutton 在 1991 年提出的 Dyna 架构 1 是基于模型强化学习的先驱:
┌─────────────┐ ┌─────────────┐
│ 真实环境 │ ──▶ │ 智能体策略 │
└─────────────┘ └─────────────┘
│ ▲
│ │
▼ │
┌─────────────┐ │
│ 世界模型 │────────────┘
│ (习得) │ 想象 Rollout
└─────────────┘
核心思想:在真实交互之外,通过习得的世界模型「做梦」,生成合成经验来加速学习。
2. 开创性工作:Ha & Schmidhuber (2018)
David Ha 和 Jürgen Schmidhuber 在 2018 年发表的工作2首次系统性地提出了完整的世界模型框架:
- VAE:将观测压缩为潜在向量
- MDN-RNN:预测潜在空间中的下一个状态
- Controller:简单线性控制器用于动作选择
该工作展示了智能体可以在「梦中」训练控制器,显著减少真实环境交互。
3. 里程碑:Dreamer 系列 (2020-2025)
Danijar Hafner 等人开发的 Dreamer 系列3456 是世界模型领域的里程碑:
| 版本 | 年份 | 主要贡献 |
|---|---|---|
| Dreamer V1 | 2020 | 从像素学习潜在世界模型 |
| Dreamer V2 | 2021 | KL平衡、特征重构 |
| Dreamer V3 | 2023 | 固定超参数、通用性 |
| Dreamer V4 | 2025 | 可扩展架构、Nature论文 |
Dreamer V4 在 Minecraft 中从零学习收集钻石,是世界模型通用性的重要证明。
核心组件
现代世界模型通常包含以下组件:
1. Encoder(编码器)
将高维原始观测 (图像、视频)编码为紧凑的潜在表示 :
常用架构:
- CNN:处理图像观测
- ViT:处理视频帧
- VAE/VQ-VAE:学习离散潜在表示
2. Dynamics Model(动态模型)
学习环境在潜在空间中的转移:
常用架构:
- LSTM/GRU:序列建模
- Transformer:长程依赖
- SSM (Mamba):高效长序列
3. Reward Predictor(奖励预测器)
预测采取动作后的即时奖励:
4. Decoder(观测重建)
可选组件,用于确保潜在表示包含足够信息:
5. Value Function(价值函数)
估计未来累积奖励的期望:
6. Policy(策略)
基于潜在状态选择动作:
完整架构图
┌─────────────────────────────────────┐
│ World Model │
│ │
┌────────┐ │ ┌────────┐ ┌─────────────┐ │
│ 观测 │──────────│ │Encoder │───▶│ Dynamics │ │
│ o_t │ │ │ E(oₜ) │ │ Model │ │
└────────┘ │ └────────┘ │ p(zₜ₊₁|zₜ,aₜ)│ │
▲ │ │ └──────┬──────┘ │
│ │ ▼ │ │
│ │ ┌────────┐ ▼ │
│ │ │Decoder │ ┌─────────────┐ │
│ │ │ D(zₜ) │ │ Reward │ │
│ │ └────────┘ │ Predictor │ │
│ │ │ └──────┬──────┘ │
│ │ │ │ │
│ │ │ ▼ │
│ │ │ ┌─────────────┐ │
│ │ └───────▶│ Value │ │
│ │ │ Function │ │
│ │ └─────────────┘ │
│ │ ▲ │
│ │ │ │
│ └──────────────────────┴──────────────┘
│ │
▼ ▼
┌─────────────────────────────────────────────┐
│ Imagination Rollout │
│ │
│ z₀ ──▶ z₁ ──▶ z₂ ──▶ ... ──▶ z_H │
│ │ │ │ │ │
│ a₀ a₁ a₂ │ │
│ │ │ │ ▼ │
│ r̂₀ r̂₁ r̂₂ V(z_H) │
│ │ │ │ │ │
│ └──────┴──────┴──────────────┘ │
│ 梯度上升更新 π, V, E, D │
└─────────────────────────────────────────────┘
世界模型 vs 无模型强化学习
| 维度 | 世界模型 (Model-Based) | 无模型 (Model-Free) |
|---|---|---|
| 样本效率 | 高(可从模型生成数据) | 低(需要大量真实交互) |
| 泛化能力 | 可迁移到新任务 | 任务特定 |
| 计算成本 | 训练时高(需要训练模型) | 执行时低 |
| 最优性保证 | 理论上可收敛到最优 | 可能陷入局部最优 |
| 适用场景 | 模型可学、样本珍贵 | 环境复杂、样本丰富 |
样本效率对比
样本效率示意(对数坐标):
▲
│ ╭───────────── 无模型RL
│ ╱
│ ╱
│ ╱
│╱
╱
╱ ╲
╱ ╲────────── 世界模型
╱ ╲
└──────────────▶
少样本 多样本
关键优势
1. 样本效率
世界模型可以「想象」任意数量的合成经验,大幅减少真实环境交互。
2. 想象力规划
在潜在空间中进行长-horizon 规划:
3. 反事实推理
回答「如果我做 X 会怎样?」的问题:
4. 安全探索
在模型中进行危险的探索,而不影响真实环境。
挑战与限制
| 挑战 | 描述 | 解决方案 |
|---|---|---|
| 模型误差 | 累积误差导致规划失败 | 集成模型、不确定性估计 |
| 复合误差 | 长horizon预测偏移 | 短视规划、重计划 |
| 训练困难 | 潜在空间训练不稳定 | KL正则化、对比学习 |
| 泛化边界 | 模型可能泛化失败 | 域随机化、在线适应 |
参考文献
相关主题
Footnotes
-
Sutton, R. S. “Dyna, an integrated architecture for learning, planning, and reacting”. Working Notes of the AAAI Spring Symposium. 1991. ↩
-
Ha, D., & Schmidhuber, J. “World Models”. arXiv:1803.10122. 2018. ↩
-
Hafner, D., et al. “Dream to Control: Learning Behaviors by Latent Imagination”. ICLR 2020. ↩
-
Hafner, D., et al. “Mastering Atari with Discrete World Models”. ICLR 2021. ↩
-
Hafner, D., et al. “Mastering Diverse Domains through World Models”. arXiv:2301.04104. 2023. ↩
-
Seq et al. “Foundation Model for World Modeling”. Nature. 2025. ↩