世界模型概论

定义

世界模型（World Model） 是智能体对环境动态的内部学习表示，使智能体能够：

压缩高维观测（如图像、视频）为紧凑的潜在表示
预测采取动作后的下一个状态
预测动作带来的奖励
在潜在空间中进行「想象」和规划

形式化地说，世界模型学习一个环境动力学的近似：

p_{θ} (s_{t + 1}, r_{t} ∣ s_{t}, a_{t})

其中 $s_{t}$ 是状态表示， $a_{t}$ 是动作， $r_{t}$ 是奖励。

历史发展

1. 概念起源：Dyna架构

Richard Sutton 在 1991 年提出的 Dyna 架构 ¹ 是基于模型强化学习的先驱：

┌─────────────┐     ┌─────────────┐
│   真实环境   │ ──▶ │  智能体策略  │
└─────────────┘     └─────────────┘
       │                   ▲
       │                   │
       ▼                   │
┌─────────────┐            │
│   世界模型   │────────────┘
│  (习得)     │   想象 Rollout
└─────────────┘

核心思想：在真实交互之外，通过习得的世界模型「做梦」，生成合成经验来加速学习。

2. 开创性工作：Ha & Schmidhuber (2018)

David Ha 和 Jürgen Schmidhuber 在 2018 年发表的工作²首次系统性地提出了完整的世界模型框架：

VAE：将观测压缩为潜在向量
MDN-RNN：预测潜在空间中的下一个状态
Controller：简单线性控制器用于动作选择

该工作展示了智能体可以在「梦中」训练控制器，显著减少真实环境交互。

3. 里程碑：Dreamer 系列 (2020-2025)

Danijar Hafner 等人开发的 Dreamer 系列³⁴⁵⁶ 是世界模型领域的里程碑：

版本	年份	主要贡献
Dreamer V1	2020	从像素学习潜在世界模型
Dreamer V2	2021	KL平衡、特征重构
Dreamer V3	2023	固定超参数、通用性
Dreamer V4	2025	可扩展架构、Nature论文

Dreamer V4 在 Minecraft 中从零学习收集钻石，是世界模型通用性的重要证明。

核心组件

现代世界模型通常包含以下组件：

1. Encoder（编码器）

将高维原始观测 $o_{t}$ （图像、视频）编码为紧凑的潜在表示 $z_{t}$ ：

z_{t} = E_{θ} (o_{t})

常用架构：

CNN：处理图像观测
ViT：处理视频帧
VAE/VQ-VAE：学习离散潜在表示

2. Dynamics Model（动态模型）

学习环境在潜在空间中的转移：

z_{t + 1} \sim p_{θ} (z_{t + 1} ∣ z_{t}, a_{t})

常用架构：

LSTM/GRU：序列建模
Transformer：长程依赖
SSM (Mamba)：高效长序列

3. Reward Predictor（奖励预测器）

预测采取动作后的即时奖励：

\overset{r}{^}_{t} = R_{θ} (z_{t}, a_{t})

4. Decoder（观测重建）

可选组件，用于确保潜在表示包含足够信息：

\overset{o}{^}_{t} = D_{θ} (z_{t})

5. Value Function（价值函数）

估计未来累积奖励的期望：

V_{ψ} (z_{t}) \approx E [t = 0 \sum \infty γ^{t} r_{t}]

6. Policy（策略）

基于潜在状态选择动作：

a_{t} \sim π_{ϕ} (a_{t} ∣ z_{t})

完整架构图

                    ┌─────────────────────────────────────┐
                    │           World Model                 │
                    │                                      │
┌────────┐          │  ┌────────┐    ┌─────────────┐     │
│  观测  │──────────│  │Encoder │───▶│  Dynamics    │     │
│  o_t  │          │  │ E(oₜ)  │    │   Model      │     │
└────────┘          │  └────────┘    │ p(zₜ₊₁|zₜ,aₜ)│     │
       ▲            │       │        └──────┬──────┘     │
       │            │       ▼               │             │
       │            │  ┌────────┐            ▼             │
       │            │  │Decoder │    ┌─────────────┐     │
       │            │  │ D(zₜ)  │    │   Reward    │     │
       │            │  └────────┘    │  Predictor  │     │
       │            │       │        └──────┬──────┘     │
       │            │       │               │             │
       │            │       │               ▼             │
       │            │       │        ┌─────────────┐     │
       │            │       └───────▶│   Value     │     │
       │            │                │  Function   │     │
       │            │                └─────────────┘     │
       │            │                      ▲             │
       │            │                      │             │
       │            └──────────────────────┴──────────────┘
       │                          │
       ▼                          ▼
┌─────────────────────────────────────────────┐
│            Imagination Rollout                │
│                                              │
│  z₀ ──▶ z₁ ──▶ z₂ ──▶ ... ──▶ z_H           │
│  │      │      │              │             │
│  a₀     a₁     a₂              │             │
│  │      │      │              ▼             │
│  r̂₀     r̂₁     r̂₂          V(z_H)          │
│  │      │      │              │             │
│  └──────┴──────┴──────────────┘             │
│          梯度上升更新 π, V, E, D             │
└─────────────────────────────────────────────┘

世界模型 vs 无模型强化学习

维度	世界模型 (Model-Based)	无模型 (Model-Free)
样本效率	高（可从模型生成数据）	低（需要大量真实交互）
泛化能力	可迁移到新任务	任务特定
计算成本	训练时高（需要训练模型）	执行时低
最优性保证	理论上可收敛到最优	可能陷入局部最优
适用场景	模型可学、样本珍贵	环境复杂、样本丰富

样本效率对比

样本效率示意（对数坐标）：

          ▲
          │    ╭───────────── 无模型RL
          │   ╱
          │  ╱
          │ ╱
          │╱
          ╱
         ╱ ╲
        ╱   ╲────────── 世界模型
       ╱     ╲
      └──────────────▶
     少样本       多样本

关键优势

1. 样本效率

世界模型可以「想象」任意数量的合成经验，大幅减少真实环境交互。

2. 想象力规划

在潜在空间中进行长-horizon 规划：

a^{*} = ar g a max t = 0 \sum H γ^{t} \overset{r}{^}_{t}

3. 反事实推理

回答「如果我做 X 会怎样？」的问题：

想象 : z_{0} a^{'} z_{1} a^{''} z_{2} \dots

4. 安全探索

在模型中进行危险的探索，而不影响真实环境。

挑战与限制

挑战	描述	解决方案
模型误差	累积误差导致规划失败	集成模型、不确定性估计
复合误差	长horizon预测偏移	短视规划、重计划
训练困难	潜在空间训练不稳定	KL正则化、对比学习
泛化边界	模型可能泛化失败	域随机化、在线适应

Metaphor

探索

世界模型概论

世界模型概论

定义

历史发展

1. 概念起源：Dyna架构

2. 开创性工作：Ha & Schmidhuber (2018)

3. 里程碑：Dreamer 系列 (2020-2025)

核心组件

1. Encoder（编码器）

2. Dynamics Model（动态模型）

3. Reward Predictor（奖励预测器）

4. Decoder（观测重建）

5. Value Function（价值函数）

6. Policy（策略）

完整架构图

世界模型 vs 无模型强化学习

样本效率对比

关键优势

1. 样本效率

2. 想象力规划

3. 反事实推理

4. 安全探索

挑战与限制

参考文献

相关主题

关系图谱

目录

Metaphor

探索

世界模型概论

世界模型概论

定义

历史发展

1. 概念起源：Dyna架构

2. 开创性工作：Ha & Schmidhuber (2018)

3. 里程碑：Dreamer 系列 (2020-2025)

核心组件

1. Encoder（编码器）

2. Dynamics Model（动态模型）

3. Reward Predictor（奖励预测器）

4. Decoder（观测重建）

5. Value Function（价值函数）

6. Policy（策略）

完整架构图

世界模型 vs 无模型强化学习

样本效率对比

关键优势

1. 样本效率

2. 想象力规划

3. 反事实推理

4. 安全探索

挑战与限制

参考文献

相关主题

Footnotes

关系图谱

目录