World Models 知识体系
世界模型(World Models)是人工智能领域的重要研究方向,旨在学习环境的通用表示,使智能体能够「想象」未来状态并进行规划。本知识体系涵盖从理论基础到最新前沿进展的完整内容。
目录结构
├── 理论基础
│ ├── [[./introduction|世界模型概论]]
│ ├── [[./model-based-rl|基于模型的强化学习]]
│ └── [[./world-model-architectures|世界模型架构]]
│
├── 核心算法
│ ├── [[./dreamer-algorithm|Dreamer 系列算法]]
│ ├── [[./video-prediction-world-models|视频生成世界模型]]
│ ├── [[./genie-series-deepmind|Genie 系列(Google DeepMind)]]
│ ├── [[./genie-3-world-model|Genie 3 最新进展]]
│ ├── [[./nvidia-cosmos-platform|NVIDIA Cosmos 平台]]
│ ├── [[./cosmos-world-foundation-model|Cosmos 世界基础模型]]
│ └── (MuZero - 规划中)
│
├── 视频扩散世界模型
│ ├── [[./video-diffusion-world-models|视频扩散世界模型]]
│ ├── [[./dreamworld-unified-world-modeling| DreamWorld 统一世界建模]]
│ ├── [[./vid2world-interactive-world-model|VID2World 交互式世界模型]]
│ └── (更多内容 - 规划中)
│
├── 3D 世界建模
│ ├── [[./fantasyworld-geometry-consistent-world-modeling|FantasyWorld 几何一致建模]]
│ ├── [[./hy-world-2-multimodal-world-model|HY-World 2.0 多模态世界模型]]
│ ├── [[./evoworld-panoramic-world-generation|EvoWorld 全景世界生成]]
│ └── [[../3d-vision/dreamfusion-score-distillation|DreamFusion 3D 生成]]
│
├── 长视频生成
│ ├── [[./long-video-generation-drift-solution|长视频 Drift 问题解决]]
│ └── [[./video-to-world-model-evolution|视频到世界模型演进]]
│
├── 具身AI世界模型
│ ├── [[./embodied-ai-world-models|具身AI世界模型]]
│ ├── [[./pan-general-interactive-world-model|PAN 交互式世界模拟]]
│ ├── [[./interactive-video-world-models|交互式视频世界模型]]
│ ├── [[./astra-autoregressive-world-model|ASTRA 自回归世界模型]]
│ ├── [[./simworld-physical-social-worlds|SimWorld 物理社交世界]]
│ └── [[./neural-motion-simulator|神经运动模拟器]]
│
├── 3D 场景重建与生成
│ ├── [[../3d-vision/3d-gaussian-splatting|3D Gaussian Splatting]]
│ ├── [[../3d-vision-video-generation/index|3D/视频生成]]
│ ├── [[../3d-vision/diffsplat-gaussian-splatting-diffusion|DiffSplat 扩散 Gaussian]]
│ └── [[../3d-vision/complete-splat-3d-scene-completion|CompleteSplat 场景补全]]
│
├── 应用场景
│ └── [[./world-models-applications|世界模型应用]]
│
├── 评估基准
│ ├── [[./world-model-benchmarks|世界模型评估基准]]
│ ├── [[./world-simbenc-evaluation-framework|WorldSimBench 评估框架]]
│ └── [[./world-in-world-closed-loop-evaluation|World-in-World 闭环评估]]
│
├── 技术演进
│ └── [[./video-generation-to-world-model-evolution|视频生成到世界模型演进]]
│
└── 前沿进展
└── [[./world-models-frontier-2026|2025-2026 最新进展]]
核心概念图
┌─────────────────────────────────────────────────────────────┐
│ World Model │
├─────────────────────────────────────────────────────────────┤
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ Encoder │───▶│ Dynamics │───▶│ Policy │ │
│ │ E(oₜ)→zₜ │ │ Model │ │ Player │ │
│ └──────────────┘ │ p(zₜ₊₁|zₜ,aₜ)│ └──────┬───────┘ │
│ ▲ └──────────────┘ │ │
│ │ ▲ ▼ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ Decoder │ │ Reward │ │ Value │ │
│ │ D(zₜ)→ôₜ │ │ Predictor │ │ Critic │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ │
└─────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────┐
│ Imagination Rollout │
│ 在潜在空间中进行规划 │
└─────────────────────────┘
知识领域关联
与强化学习的关系
世界模型是 强化学习 的重要分支,属于**基于模型的强化学习(Model-Based RL)**范畴。
与深度学习的融合
与多模态学习的关系
学习路径建议
入门路径
进阶路径
前沿路径
参考资源
论文
| 论文 | 年份 | 重要性 |
|---|---|---|
| Ha & Schmidhuber - World Models | 2018 | ⭐⭐⭐ 开创性工作 |
| Hafner et al. - Dreamer V1 | 2020 | ⭐⭐⭐ 里程碑 |
| Hafner et al. - Dreamer V2 | 2021 | ⭐⭐⭐ 改进 |
| Hafner et al. - Dreamer V3 | 2023 | ⭐⭐⭐ 通用性 |
| Seq et al. - Dreamer V4 (Nature) | 2025 | ⭐⭐⭐ 最新突破 |
开源项目
- DreamerV3 官方实现
- World Models Atlas - 论文索引
外部链接
- World Models Atlas - 4000+ 论文资源
- DeepMind MuZero
贡献者
本知识体系基于以下来源构建:
- Ha & Schmidhuber. “World Models”. 2018.
- Hafner et al. Dreamer series papers. 2020-2025.
- Video Generation Models as World Models. arXiv:2603.28489. 2026.
- World Models Atlas. https://worldmodelsatlas.site/