世界模型评估基准综述(2025)
概述
世界模型(World Models)的核心目标是学习环境的动态演化规律,使智能体能够「想象」未来状态并据此进行规划和决策。然而,如何系统性地评估一个世界模型的质量,至今仍是开放性难题。随着视频生成模型(如 Sora、Gen-3、Cosmos)的快速发展,评估方法从单一视觉质量逐步扩展到物理合理性、动作可控性、因果一致性等多个维度。
本综述系统梳理2025年涌现的主要世界模型评估基准,分析其设计理念、评估维度和关键发现。
┌─────────────────────────────────────────────────────────────────┐
│ 世界模型评估范式演进 │
│ │
│ 第一阶段:视觉质量 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ FID / FVD / LPIPS / SSIM │ │
│ │ 关注像素级重建质量,忽视物理和功能 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ ▼ │
│ 第二阶段:任务性能 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 下游任务成功率 / 奖励预测 / 规划性能 │ │
│ │ 关注预测对决策的价值,但缺乏过程监控 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ ▼ │
│ 第三阶段:开环+闭环综合评估 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ WorldModelBench / World-in-World │ │
│ │ 统一评估视觉质量、物理遵循、指令控制、闭环任务成功 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
1. 世界模型评估的核心挑战
1.1 评估的碎片化问题
当前世界模型评估面临严重的碎片化问题,不同研究团队使用不同的基准、指标和协议,导致:
- 跨论文比较困难:同一模型在不同评估下的结果不可直接对比
- 侧重点各异:有的关注视觉质量,有的关注物理一致性,有的关注规划能力
- 缺乏统一标准:没有类似 ImageNet 之于视觉识别的基准
# 当前碎片化评估示例
fragmented_evals = {
"视频质量": ["FID", "FVD", "VBench"],
"物理一致性": ["PhysBench", "PhyGen"],
"动作控制": ["RT-1指标", "CALVIN"],
"规划能力": ["DMLNet", "DreamBench++"],
"人类偏好": ["ELO排名", "人类打分"]
}1.2 开环评估 vs 闭环评估
这是世界模型评估中最核心的区分点:
| 维度 | 开环评估(Open-Loop) | 闭环评估(Closed-Loop) |
|---|---|---|
| 定义 | 一次生成完整预测序列 | 根据预测结果实时调整动作 |
| 类比 | 给定初始状态,让模型预测轨迹 | 实时反馈控制 |
| 优势 | 便于离线评估,可精确计算误差 | 接近真实应用场景 |
| 劣势 | 误差累积不反馈,无法体现交互性 | 评估复杂,需要在线规划器 |
| 代表基准 | WorldPrediction | World-in-World |
开环评估的数学表示:
其中 是世界模型, 是预测状态序列, 是给定的动作序列。
闭环评估的数学表示:
其中 是基于世界模型的规划/策略网络,形成「预测-动作-反馈」闭环。
1.3 视觉质量 vs 任务成功的权衡
评估中的一个重要发现是:视觉质量与任务成功并非正相关。
这一发现由 World-in-World 基准首次系统揭示:
- 视觉上更逼真的预测不一定导致更好的规划决策
- 细节渲染的提升可能掩盖了动力学建模的缺陷
- 某些「模糊」的预测反而包含更有用的任务相关信息
这种权衡可以用信息论解释:
其中 表示互信息,优秀的世界模型应最大化任务相关互信息,而非单纯追求视觉质量。
2. 主要评估基准详解
2.1 WorldModelBench(CVPR 2025 Workshop)
2.1.1 基准概述
WorldModelBench 是 NVIDIA 等机构在 CVPR 2025 Workshop 上提出的综合性世界模型评估基准1。
┌─────────────────────────────────────────────────────────────────┐
│ WorldModelBench 数据规模 │
│ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 7 个领域 × 56 个子领域 × 350 个 prompt │ │
│ │ │ │
│ │ 领域分布: │ │
│ │ ├── 机器人操作 (Robotics) │ │
│ │ ├── 自动驾驶 (Autonomous Driving) │ │
│ │ ├── 室内场景 (Indoor Environments) │ │
│ │ ├── 人物动作 (Human Motion) │ │
│ │ ├── 物体交互 (Object Interaction) │ │
│ │ ├── 自然现象 (Natural Phenomena) │ │
│ │ └── 合成场景 (Synthetic Scenarios) │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
2.1.2 评估维度
WorldModelBench 设计了三个核心评估维度:
| 维度 | 分值范围 | 评估内容 |
|---|---|---|
| 指令遵循(Instruction Following) | 是否正确响应文本指令 | |
| 常识遵循(Commonsense) | 常识性物理和社会规则 | |
| 物理遵循(Physics Adherence) | 五类物理定律的遵循程度 |
物理遵循的五大定律:
- 惯性定律:物体保持原有运动状态
- 重力定律:物体受重力影响下落
- 碰撞定律:物体碰撞产生合理响应
- 能量守恒:动能与势能相互转化
- 摩擦定律:接触面阻碍相对运动
class WorldModelBenchEvaluator:
"""
WorldModelBench 评估器
"""
def __init__(self):
# 指令遵循评判模型(67K人类标注训练)
self.instruction_judge = InstructionJudge()
# 常识评判模型
self.commonsense_judge = CommonsenseJudge()
# 物理遵循评判模型
self.physics_judge = PhysicsJudge()
def evaluate_instruction_following(self, video, instruction):
"""
评估指令遵循
输出分数: 0, 1, 2, 3
"""
score = self.instruction_judge.judge(
video=video,
instruction=instruction
)
return score # 0-3分
def evaluate_physics_adherence(self, video):
"""
评估物理遵循
输出分数: 0-5(五类定律各0-1分)
"""
scores = {
'inertia': self.physics_judge.check_inertia(video),
'gravity': self.physics_judge.check_gravity(video),
'collision': self.physics_judge.check_collision(video),
'energy': self.physics_judge.check_energy_conservation(video),
'friction': self.physics_judge.check_friction(video)
}
# 每项0-1,最终归一化到0-5
return sum(scores.values()) / 5 * 52.1.3 2B评判模型训练
WorldModelBench 的一个关键创新是使用67K人类标注训练了2B参数的评判模型:
其中 是视频, 是人类标注的分数。
2.2 World-in-World(NeurIPS 2025)
2.2.1 基准概述
World-in-World 是首个闭环世界评估平台,由多所顶尖研究机构联合提出2。其核心贡献是揭示了三个关键「surprise」:
┌─────────────────────────────────────────────────────────────────┐
│ World-in-World 三大发现 (Surprises) │
│ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ Surprise #1: 视觉质量 ≠ 任务成功 │ │
│ │ ───────────────────────────────────────────────── │ │
│ │ "Most visually realistic ≠ Most task-successful" │ │
│ │ 高视觉质量可能掩盖动力学建模缺陷 │ │
│ │ │ │
│ │ Surprise #2: 可控性比质量更重要 │ │
│ │ ───────────────────────────────────────────────── │ │
│ │ "Controllability > Visual Quality" │ │
│ │ 对动作的精确响应比渲染细节更关键 │ │
│ │ │ │
│ │ Surprise #3: 后训练比升级生成器更有效 │ │
│ │ ───────────────────────────────────────────────── │ │
│ │ "Post-training > Upgrading Generator" │ │
│ │ 对齐微调带来的提升超过架构改进 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
2.2.2 闭环评估框架
World-in-World 提供了统一的在线规划策略和标准化动作API:
class WorldInWorldEvaluator:
"""
World-in-World 闭环评估器
"""
def __init__(self):
# 标准化动作空间
self.action_space = StandardizedActionSpace()
# 在线规划器接口
self.planner = OnlinePlanner()
# 任务成功率评估
self.task_success_evaluator = TaskSuccessEvaluator()
def closed_loop_evaluation(self, world_model, tasks):
"""
闭环评估流程
闭环反馈机制:
┌────────────────────────────────────────┐
│ │
│ 世界模型 ──▶ 预测状态 ──▶ 规划器 │
│ ▲ │ │
│ │ ▼ │
│ │ 执行动作 │
│ │ │ │
│ └──────── 反馈纠正 <────┘ │
│ │
└────────────────────────────────────────┘
"""
results = []
for task in tasks:
# 初始化
obs = task.initial_observation
for step in range(task.max_steps):
# 世界模型预测
predicted_obs = world_model.imagine(obs)
# 在线规划
action = self.planner.plan(
predicted_obs,
task.goal,
world_model
)
# 执行动作(通过API)
next_obs = self.action_space.execute(
world_model, action
)
# 检查是否成功
if self.task_success_evaluator.check(next_obs, task.goal):
results.append({'task': task, 'success': True, 'steps': step})
break
obs = next_obs
else:
results.append({'task': task, 'success': False, 'steps': task.max_steps})
return results2.2.3 关键实验设计
World-in-World 的评估设计包含多个对照实验:
| 实验 | 控制变量 | 操纵变量 | 发现 |
|---|---|---|---|
| V-Q Trade-off | 任务类型相同 | 视觉质量不同 | 视觉质量不决定任务成功 |
| Controllability Test | 生成器相同 | 动作响应程度不同 | 可控性是决定性因素 |
| Post-train vs Architectures | 相同基础模型 | 后训练 vs 架构升级 | 后训练更有效 |
2.3 WorldPrediction(ICLR 2025)
2.3.1 基准概述
WorldPrediction 专注于高层次世界建模与长视野程序规划的评估3。
┌─────────────────────────────────────────────────────────────────┐
│ WorldPrediction 任务设计 │
│ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ WorldPrediction-WM (World Modeling) │ │
│ │ ───────────────────────────────────────────────── │ │
│ │ 给定初始状态,预测长视野未来状态 │ │
│ │ 评估:状态预测准确率 │ │
│ │ │ │
│ │ WorldPrediction-PP (Program Planning) │ │
│ │ ───────────────────────────────────────────────── │ │
│ │ 给定目标状态,规划动作序列实现目标 │ │
│ │ 评估:规划成功率 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
2.3.2 评估指标
WorldPrediction 使用精确的预测准确率作为核心指标:
| 任务 | 当前模型准确率 | 人类基准 |
|---|---|---|
| WorldPrediction-WM | ||
| WorldPrediction-PP |
当前模型与人类之间存在巨大差距,说明世界预测任务仍具挑战性:
2.3.3 长视野预测的挑战
长视野预测的核心挑战是误差累积:
其中 是 时刻的预测误差, 是衰减因子, 是预测视野。早期的小误差会被放大,导致长视野预测快速偏离。
2.4 WorldLens
2.4.1 基准概述
WorldLens 是驾驶世界模型的全谱评估框架4。
┌─────────────────────────────────────────────────────────────────┐
│ WorldLens 评估维度 │
│ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 维度1: 生成质量 (Generation) │ │
│ │ ├── 视觉保真度 │ │
│ │ ├── 时间一致性 │ │
│ │ └── 场景多样性 │ │
│ │ │ │
│ │ 维度2: 重建质量 (Reconstruction) │ │
│ │ ├── 像素级精度 │ │
│ │ ├── 深度估计 │ │
│ │ └── 3D一致性 │ │
│ │ │ │
│ │ 维度3: 动作遵循 (Action Following) │ │
│ │ ├── 转向响应 │ │
│ │ ├── 加速/制动 │ │
│ │ └── 车道保持 │ │
│ │ │ │
│ │ 维度4: 下游任务 (Downstream Tasks) │ │
│ │ ├── 轨迹预测 │ │
│ │ ├── 行为规划 │ │
│ │ └── 风险评估 │ │
│ │ │ │
│ │ 维度5: 人类偏好 (Human Preference) │ │
│ │ ├── 舒适性 │ │
│ │ ├── 自然性 │ │
│ │ └── 安全性感知 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
2.4.2 驾驶场景的特殊性
驾驶世界模型需要特别关注:
- 时间一致性:长时间预测中道路场景保持一致
- 物理合理性:车辆动力学符合物理规律
- 交互预测:其他交通参与者的行为预测
class WorldLensDrivingEvaluator:
"""
WorldLens 驾驶世界模型评估器
"""
def __init__(self):
# 驾驶专用指标
self.lane_adherence = LaneAdherenceMetric()
self.collision_rate = CollisionRateMetric()
self.trajectory_smoothness = TrajectorySmoothnessMetric()
self.human_preference = DrivingHumanPreferenceModel()
def evaluate_driving_world_model(self, world_model, scenarios):
"""
综合评估驾驶世界模型
"""
results = {dimension: [] for dimension in [
'generation', 'reconstruction', 'action_following',
'downstream', 'human_preference'
]}
for scenario in scenarios:
# 生成预测
prediction = world_model.predict(
init_state=scenario.initial_state,
actions=scenario.actions,
horizon=scenario.prediction_horizon
)
# 各维度评估
results['generation'].append(
self.evaluate_generation(prediction, scenario)
)
results['reconstruction'].append(
self.evaluate_reconstruction(prediction, scenario)
)
results['action_following'].append(
self.evaluate_action_following(prediction, scenario)
)
results['downstream'].append(
self.evaluate_downstream(prediction, scenario)
)
results['human_preference'].append(
self.evaluate_human_preference(prediction, scenario)
)
return self.aggregate_results(results)2.5 WM-ABench
2.5.1 基准概述
WM-ABench(World Model - Atomic Bench)提出VLM内部世界模型的原子评估框架5。
核心思想:将世界模型能力分解为原子能力,逐一评估。
2.5.2 两阶段评估框架
┌─────────────────────────────────────────────────────────────────┐
│ WM-ABench 两阶段框架 │
│ │
│ 阶段1: 感知能力 (Perception) │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 视觉感知 (Visual Perception) │ │
│ │ ├── 物体识别 │ │
│ │ ├── 场景分类 │ │
│ │ └── 颜色/纹理识别 │ │
│ │ │ │
│ │ 空间感知 (Spatial Perception) │ │
│ │ ├── 相对位置 │ │
│ │ ├── 距离估计 │ │
│ │ └── 深度判断 │ │
│ │ │ │
│ │ 时间感知 (Temporal Perception) │ │
│ │ ├── 事件顺序 │ │
│ │ ├── 持续时间 │ │
│ │ └── 时序因果 │ │
│ │ │ │
│ │ 数量感知 (Quantitative Perception) │ │
│ │ ├── 计数 │ │
│ │ ├── 尺寸比较 │ │
│ │ └── 速度估计 │ │
│ │ │ │
│ │ 运动感知 (Motion Perception) │ │
│ │ ├── 速度向量 │ │
│ │ ├── 加速度 │ │
│ │ └── 轨迹预测 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ ▼ │
│ 阶段2: 预测能力 (Prediction) │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 机械模拟 (Mechanical Simulation) │ │
│ │ ├── 碰撞结果 │ │
│ │ ├── 倾倒预测 │ │
│ │ └── 弹道计算 │ │
│ │ │ │
│ │ 传递推理 (Transfer Reasoning) │ │
│ │ ├── 属性传递 │ │
│ │ ├── 因果链 │ │
│ │ └── 类比推理 │ │
│ │ │ │
│ │ 组合推理 (Compositional Reasoning) │ │
│ │ ├── 多物体交互 │ │
│ │ ├── 多步骤预测 │ │
│ │ └── 条件组合 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
2.5.3 原子能力量化
class WMABenchAtomicEvaluator:
"""
WM-ABench 原子能力评估器
"""
# 感知阶段
PERCEPTION_TESTS = {
'visual': [
'object_recognition',
'scene_classification',
'color_texture'
],
'spatial': [
'relative_position',
'distance_estimation',
'depth_judgment'
],
'temporal': [
'event_order',
'duration_estimation',
'temporal_causality'
],
'quantitative': [
'counting',
'size_comparison',
'speed_estimation'
],
'motion': [
'velocity_vector',
'acceleration',
'trajectory_prediction'
]
}
# 预测阶段
PREDICTION_TESTS = {
'mechanical': [
'collision_outcome',
'toppling_prediction',
'ballistic_calculation'
],
'transfer': [
'property_transfer',
'causal_chain',
'analogical_reasoning'
],
'compositional': [
'multi_object_interaction',
'multi_step_prediction',
'conditional_combination'
]
}
def evaluate_atomic_capabilities(self, world_model):
"""
评估所有原子能力
返回能力画像
"""
perception_scores = {}
prediction_scores = {}
# 感知能力评估
for category, tests in self.PERCEPTION_TESTS.items():
scores = []
for test in tests:
score = self.run_perception_test(world_model, test)
scores.append(score)
perception_scores[category] = np.mean(scores)
# 预测能力评估
for category, tests in self.PREDICTION_TESTS.items():
scores = []
for test in tests:
score = self.run_prediction_test(world_model, test)
scores.append(score)
prediction_scores[category] = np.mean(scores)
return {
'perception': perception_scores,
'prediction': prediction_scores,
'overall': np.mean([
np.mean(list(perception_scores.values())),
np.mean(list(prediction_scores.values()))
])
}2.6 SmallWorld
2.6.1 基准概述
SmallWorld 专注于隔离动力学理解评估,通过简化场景排除干扰因素6。
┌─────────────────────────────────────────────────────────────────┐
│ SmallWorld 六大规范任务 │
│ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 任务1: 刚体碰撞 (Rigid Body Collision) │ │
│ │ ───────────────────────────────────────────────── │ │
│ │ 评估碰撞后的速度/方向变化 │ │
│ │ │ │
│ │ 任务2: 重力下落 (Gravity Drop) │ │
│ │ ───────────────────────────────────────────────── │ │
│ │ 评估自由落体轨迹 │ │
│ │ │ │
│ │ 任务3: 滑动摩擦 (Sliding Friction) │ │
│ │ ───────────────────────────────────────────────── │ │
│ │ 评估水平面上的减速 │ │
│ │ │ │
│ │ 任务4: 旋转惯性 (Rotational Inertia) │ │
│ │ ───────────────────────────────────────────────── │ │
│ │ 评估旋转物体的角动量守恒 │ │
│ │ │ │
│ │ 任务5: 弹跳运动 (Bouncing Motion) │ │
│ │ ───────────────────────────────────────────────── │ │
│ │ 评估能量损耗与反弹高度 │ │
│ │ │ │
│ │ 任务6: 悬挂平衡 (Hanging Balance) │ │
│ │ ───────────────────────────────────────────────── │ │
│ │ 评估重心与稳定性 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
2.6.2 隔离评估原理
SmallWorld 的核心设计理念是隔离变量:
其中 是第 个规范任务的损失, 是权重。
通过控制场景复杂度,SmallWorld 可以精确诊断世界模型在特定物理能力上的缺陷。
class SmallWorldEvaluator:
"""
SmallWorld 隔离动力学评估器
"""
TASKS = [
'rigid_collision',
'gravity_drop',
'sliding_friction',
'rotational_inertia',
'bouncing_motion',
'hanging_balance'
]
def evaluate_physics_isolation(self, world_model):
"""
隔离评估物理理解能力
"""
results = {}
for task in self.TASKS:
# 创建隔离场景
scene = self.create_isolated_scene(task)
# 运行物理模拟获取ground truth
ground_truth = self.physics_simulator.simulate(scene)
# 世界模型预测
prediction = world_model.predict(scene)
# 计算误差
error = self.compute_physics_error(prediction, ground_truth, task)
results[task] = {
'error': error,
'passed': error < self.thresholds[task]
}
return results
def create_isolated_scene(self, task):
"""
创建隔离场景,排除干扰因素
"""
if task == 'rigid_collision':
# 简化为两个球体碰撞,无其他干扰
return TwoSphereCollisionScene()
elif task == 'gravity_drop':
# 纯重力下落,无空气阻力
return VacuumDropScene()
# ... 其他任务3. 评估维度综合对比
3.1 基准特性对比
| 基准 | 年份 | 会议 | 评估范式 | 领域 | 规模 |
|---|---|---|---|---|---|
| WorldModelBench | 2025 | CVPR Workshop | 开环 | 多领域 | 350 prompts |
| World-in-World | 2025 | NeurIPS | 闭环 | 多领域 | 多个任务 |
| WorldPrediction | 2025 | ICLR | 开环 | 程序规划 | 两大任务 |
| WorldLens | 2025 | - | 开环+下游 | 驾驶 | 多场景 |
| WM-ABench | 2025 | - | 原子评估 | 多领域 | 多原子测试 |
| SmallWorld | 2025 | - | 隔离评估 | 物理 | 6大任务 |
3.2 评估维度覆盖对比
| 维度 | WorldModelBench | World-in-World | WorldPrediction | WorldLens | WM-ABench | SmallWorld |
|---|---|---|---|---|---|---|
| 视觉质量 | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ |
| 指令遵循 | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| 物理遵循 | ✅ (5大定律) | ✅ | ✅ | ✅ | ✅ (原子) | ✅ (隔离) |
| 动作控制 | ❌ | ✅ | ✅ | ✅ | ❌ | ❌ |
| 常识推理 | ✅ | ✅ | ❌ | ❌ | ✅ | ❌ |
| 任务成功 | ❌ | ✅ | ✅ | ✅ | ❌ | ❌ |
| 长视野预测 | ❌ | ✅ | ✅ | ✅ | ❌ | ❌ |
| 因果推理 | ❌ | ❌ | ❌ | ❌ | ✅ | ❌ |
3.3 开环 vs 闭环评估对比
┌─────────────────────────────────────────────────────────────────┐
│ 开环评估 vs 闭环评估 — 权衡图 │
│ │
│ 评估复杂性 │
│ ▲ │
│ │ │
│ World-in-World │ WorldModelBench │
│ ● │ ● │
│ │ │
│ │ │
│ │ │
│ │ │
│ WorldPrediction ● │ │
│ ● │ ● WorldLens │
│ │ │
│ ▼ │
│ ◄─────────────────────────────────────────────────────► │
│ 开环 闭环 │
│ │ │
│ 易于离线评估 接近真实应用 │
│ 便于精确测量 评估交互能力 │
│ 不反馈修正 误差可纠正 │
│ │
└─────────────────────────────────────────────────────────────────┘
4. 未来研究方向
4.1 跨领域泛化评估
当前基准多在单一领域评估,真实应用需要跨领域泛化能力:
评估设计需求:
- 训练集与测试集来自不同领域
- 评估分布外(OOD)泛化能力
- 测试对未见过的物理现象的适应能力
4.2 因果推理评估
现有评估主要关注相关性而非因果性:
# 相关性评估 vs 因果性评估
correlation_metrics = ['correlation', 'mse', 'mae'] # 当前
causality_metrics = ['counterfactual', 'intervention', 'do-calculus'] # 需要
# 因果推理基准示例
class CausalReasoningBenchmark:
"""
因果推理评估 — 未来方向
"""
def evaluate_counterfactual(self, world_model, scenario):
"""
评估反事实推理:
"如果当初做了不同的选择,结果会怎样?"
"""
# 原始轨迹
original = world_model.rollout(scenario.initial, scenario.actions)
# 反事实轨迹(改变某个动作)
counterfactual = world_model.rollout(
scenario.initial,
scenario.counterfactual_actions
)
# 评估因果归因
causal_attribution = self.compute_causal_difference(
original, counterfactual
)
return causal_attribution4.3 安全与偏见评估
世界模型可能学到不安全的物理规律或社会偏见:
| 安全维度 | 评估内容 | 潜在风险 |
|---|---|---|
| 物理安全 | 危险动作的可预测性 | 生成危险场景 |
| 社会偏见 | 对特定群体的行为偏见 | 歧视性场景 |
| 幻觉检测 | 物理上不可能的生成 | 违反物理定律 |
| 对抗鲁棒性 | 对输入扰动的敏感性 | 被恶意操控 |
class SafetyEvaluationFramework:
"""
安全评估框架 — 未来方向
"""
def __init__(self):
self.physics_validator = PhysicsValidator()
self.social_bias_detector = SocialBiasDetector()
self.adversarial_tester = AdversarialTester()
def comprehensive_safety_check(self, world_model, scenarios):
"""
综合安全检查
"""
results = {
'physics_safety': [],
'social_bias': [],
'adversarial_robustness': []
}
for scenario in scenarios:
# 生成内容
generated = world_model.generate(scenario)
# 物理安全检查
if not self.physics_validator.is_valid(generated):
results['physics_safety'].append(False)
# 社会偏见检查
bias_score = self.social_bias_detector.check(generated)
results['social_bias'].append(bias_score)
# 对抗鲁棒性检查
if self.adversarial_tester.can_fool(world_model, generated):
results['adversarial_robustness'].append(False)
return self.aggregate_safety_results(results)5. 总结
5.1 关键洞见
- 闭环评估是未来:World-in-World 揭示了闭环评估的重要性,开环评估可能误导模型选择
- 可控性优于视觉质量:对动作的精确响应比渲染细节更关键
- 后训练的价值:对齐微调带来的提升超过架构改进
- 原子能力分解:WM-ABench 的原子评估有助于精准诊断模型弱点
- 隔离评估的必要性:SmallWorld 证明隔离复杂场景有助于理解模型物理建模能力
5.2 实践建议
┌─────────────────────────────────────────────────────────────────┐
│ 世界模型评估实践建议 │
│ │
│ 1. 多维度评估 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 不要只看视觉质量,结合物理遵循、动作控制、任务成功 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ 2. 开环+闭环结合 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 离线评估用开环指标,部署前用闭环模拟 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ 3. 选择合适基准 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 物理分析 → SmallWorld │ │
│ │ 驾驶场景 → WorldLens │ │
│ │ 通用多领域 → WorldModelBench / World-in-World │ │
│ │ 原子能力诊断 → WM-ABench │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
5.3 开放问题
| 问题 | 描述 | 研究价值 |
|---|---|---|
| 评估协议标准化 | 如何建立类似 ImageNet 的统一基准 | 高 |
| 长视野评估 | 如何准确评估超过100步的预测 | 中 |
| 因果评估 | 如何系统评估因果推理能力 | 高 |
| 安全评估 | 如何确保世界模型不生成危险内容 | 高 |
| 人类认知对齐 | 如何衡量模型世界建模与人类认知的差异 | 中 |
参考
相关主题
- 物理信息世界模型:物理感知的世界建模方法
- 具身AI世界模型:具身智能中的世界模型应用
- 世界模型架构:主流世界模型技术架构
- 视频扩散世界模型:基于扩散的视频生成模型
- 世界模型与规划推理融合:世界模型在决策规划中的应用
- 长上下文视频世界模型:长视频理解与预测
最后更新:2026-05-06
Footnotes
-
WorldModelBench Team. “WorldModelBench: Judging Video Generation Models As World Models”. CVPR 2025 Workshop. 2025. ↩
-
World-in-World Team. “World-in-World: A Closed-Loop Platform for World Model Evaluation”. NeurIPS 2025. 2025. ↩
-
WorldPrediction Team. “WorldPrediction: Benchmarking High-Level World Modeling and Program Planning”. ICLR 2025. 2025. ↩
-
WorldLens Team. “WorldLens: A Full-Spectrum Evaluation Framework for Driving World Models”. 2025. ↩
-
WM-ABench Team. “WM-ABench: Atomic Evaluation of World Models Inside VLMs”. 2025. ↩
-
SmallWorld Team. “SmallWorld: Isolated Dynamics Understanding for World Models”. 2025. ↩