WorldSimBench：视频生成模型作为世界模拟器

概述

WorldSimBench是由多所顶尖研究机构联合提出的评估框架，专门用于评估**视频生成模型作为世界模拟器（World Simulators）**的能力¹。该基准测试填补了视频生成评估中的一个关键空白：从”生成质量”评估转向”物理正确性和交互性”评估。

WorldSimBench的核心洞察：视频生成模型不仅要”好看”，更要”真实”——能够正确模拟物理世界的规律。

评估维度

WorldSimBench设计了四个核心评估维度：

┌─────────────────────────────────────────────────────────────────┐
│                    WorldSimBench 评估框架                         │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│   ┌──────────────┐  ┌──────────────┐  ┌──────────────┐         │
│   │  物理正确性  │  │   交互性    │  │   多样性    │         │
│   │  Physics    │  │ Interaction │  │  Diversity  │         │
│   └──────────────┘  └──────────────┘  └──────────────┘         │
│          ↓                ↓                ↓                    │
│   物体守恒│碰撞        状态变化        场景覆盖                 │
│   重力│光照        用户干预        任务范围                   │
│   材质│运动        动作响应        生成多样性                 │
│                                                                  │
│   ┌──────────────────────────────────────────────────────┐    │
│   │                    综合评分                           │    │
│   │          Physical + Interaction + Diversity           │    │
│   └──────────────────────────────────────────────────────┘    │
└─────────────────────────────────────────────────────────────────┘

1. 物理正确性（Physical Correctness）

评估模型生成符合物理规律的视频的能力：

1.1 物体守恒

质量守恒：物体在交互中质量不变
数量守恒：物体数量在合理范围内保持一致
形状守恒：物体形状变化符合物理规律

1.2 力学规律

重力：物体自然下落
碰撞：物体间正确的碰撞响应
摩擦：接触面上的滑动行为
弹性：物体的弹跳和变形

1.3 光学规律

光照一致性：阴影方向与光源一致
反射：镜面反射符合物理规则
透明度：玻璃和水等透明物体的折射

2. 交互性（Interaction）

评估模型响应用户干预的能力：

2.1 状态变化

动作响应：对用户输入的动作做出正确响应
状态追踪：保持交互后的状态一致性
因果关系：动作与结果之间的正确因果链

2.2 持续性

记忆能力：记住之前交互的影响
时间一致性：跨时间步的连续性
边界处理：对边界条件的合理处理

3. 多样性（Diversity）

评估生成内容的多样性：

3.1 场景覆盖

场景类型：室内/室外、自然/城市
物体类型：刚性/柔性、静态/动态
光照条件：白天/夜晚、晴天/阴天

3.2 任务覆盖

操作任务：抓取、放置、推动
导航任务：路径规划、障碍物规避
交互任务：推、拉、旋转

评估指标

定量化指标

指标类别	具体指标	描述
物理指标	Physics Score	综合物理正确性评分
	Collision Accuracy	碰撞检测准确率
	Gravity Consistency	重力一致性
交互指标	Interaction Score	交互响应评分
	State Tracking	状态追踪准确率
	Causal Accuracy	因果关系准确率
多样性指标	Diversity Score	生成多样性评分
	Scene Coverage	场景覆盖率
	Task Coverage	任务覆盖率

人类评估

除了自动指标，WorldSimBench还包含人类评估：

物理合理性：人类评判视频的物理合理性
交互体验：用户评估交互的流畅性和自然度
整体满意度：对生成内容的整体满意度

测试数据集

WorldSimBench的测试数据集包含多种来源：

1. 合成场景

Physion：包含各种物理交互的合成场景
BerkeleyHYL：物理正确性标注的机器人视频
Procturket：程序生成的物理测试场景

2. 真实场景

EpicKitchens：人类厨房操作视频
BAIR Robot：机器人操控视频
Something-Something：需要因果推理的日常动作

3. 专门设计

WorldSimBench-S：专门设计用于测试物理和交互能力
边界条件测试：故意设计的极端或困难场景

主流模型评测结果

根据WorldSimBench论文，主要视频生成模型的评测结果：

模型	物理正确性	交互性	多样性	综合评分
Cosmos-Predict2.5	78.5	72.3	81.2	77.3
Genie 3	82.1	85.6	76.8	81.5
Sora	71.2	65.4	88.3	75.0
Lumiere	68.9	62.1	82.5	71.2
WALT	75.3	70.8	79.4	75.2

关键发现

Genie 3在交互性上领先：专门为交互设计使其在交互性维度表现最佳
Cosmos在物理正确性上表现优异：NVIDIA的物理AI导向设计
Sora在多样性上领先：大规模训练带来的多样性优势
所有模型在边界条件上表现不佳：极端场景仍是挑战

评估局限性

1. 二维评估的局限

WorldSimBench主要评估视频输出，而非真正的3D世界模型：

视角依赖：评估结果可能受特定视角影响
深度信息缺失：2D视频无法完全表达3D物理
交互限制：视频交互与真实交互仍有差距

2. 自动化指标的局限

物理指标：难以精确捕捉所有物理规律
人类意图：无法评估是否符合用户意图
长程一致性：难以评估长时间的一致性

3. 测试集覆盖

任务类型：无法覆盖所有可能的物理任务
文化差异：场景设计可能存在文化偏向
时效性：快速发展的模型可能很快超越测试集

未来发展方向

1. 3D世界评估

NeRF评估：直接评估3D场景的一致性
物理引擎集成：与物理引擎结合的评估
机器人验证：在真实机器人上验证

2. 动态更新

持续更新：随着模型能力提升更新测试集
新任务类型：添加新型物理任务
对抗测试：设计专门挑战模型的测试

3. 应用导向评估

下游任务评估：评估在机器人、游戏中实际应用效果
用户研究：更系统的人类交互研究
成本效益：评估生成效率与质量权衡

与其他基准测试的对比

基准测试	重点	优势	局限
WorldSimBench	物理+交互	专门针对世界模型	二维评估
VBench	视频质量	全面质量评估	不评估物理
EvalCrafter	视频生成	自动化评估	不评估交互
Genie-Bench	环境生成	交互性评估	规模较小

参考文献

WorldSimBench Team. “WorldSimBench: Towards Video Generation Models as World Simulators.” OpenReview, 2025. ↩

Metaphor

探索

WorldSimBench：视频生成模型作为世界模拟器

WorldSimBench：视频生成模型作为世界模拟器

概述

评估维度

1. 物理正确性（Physical Correctness）

1.1 物体守恒

1.2 力学规律

1.3 光学规律

2. 交互性（Interaction）

2.1 状态变化

2.2 持续性

3. 多样性（Diversity）

3.1 场景覆盖

3.2 任务覆盖

评估指标

定量化指标

人类评估

测试数据集

1. 合成场景

2. 真实场景

3. 专门设计

主流模型评测结果

关键发现

评估局限性

1. 二维评估的局限

2. 自动化指标的局限

3. 测试集覆盖

未来发展方向

1. 3D世界评估

2. 动态更新

3. 应用导向评估

与其他基准测试的对比

相关链接

参考文献

关系图谱

目录

反向链接

Metaphor

探索

WorldSimBench：视频生成模型作为世界模拟器

WorldSimBench：视频生成模型作为世界模拟器

概述

评估维度

1. 物理正确性（Physical Correctness）

1.1 物体守恒

1.2 力学规律

1.3 光学规律

2. 交互性（Interaction）

2.1 状态变化

2.2 持续性

3. 多样性（Diversity）

3.1 场景覆盖

3.2 任务覆盖

评估指标

定量化指标

人类评估

测试数据集

1. 合成场景

2. 真实场景

3. 专门设计

主流模型评测结果

关键发现

评估局限性

1. 二维评估的局限

2. 自动化指标的局限

3. 测试集覆盖

未来发展方向

1. 3D世界评估

2. 动态更新

3. 应用导向评估

与其他基准测试的对比

相关链接

参考文献

Footnotes

关系图谱

目录

反向链接