世界模型评估基准综述（2025）

概述

世界模型（World Models）的核心目标是学习环境的动态演化规律，使智能体能够「想象」未来状态并据此进行规划和决策。然而，如何系统性地评估一个世界模型的质量，至今仍是开放性难题。随着视频生成模型（如 Sora、Gen-3、Cosmos）的快速发展，评估方法从单一视觉质量逐步扩展到物理合理性、动作可控性、因果一致性等多个维度。

本综述系统梳理2025年涌现的主要世界模型评估基准，分析其设计理念、评估维度和关键发现。

┌─────────────────────────────────────────────────────────────────┐
│                   世界模型评估范式演进                             │
│                                                                   │
│  第一阶段：视觉质量                                               │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │  FID / FVD / LPIPS / SSIM                               │  │
│  │  关注像素级重建质量，忽视物理和功能                       │  │
│  └─────────────────────────────────────────────────────────┘  │
│                          ▼                                       │
│  第二阶段：任务性能                                               │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │  下游任务成功率 / 奖励预测 / 规划性能                     │  │
│  │  关注预测对决策的价值，但缺乏过程监控                     │  │
│  └─────────────────────────────────────────────────────────┘  │
│                          ▼                                       │
│  第三阶段：开环+闭环综合评估                                      │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │  WorldModelBench / World-in-World                        │  │
│  │  统一评估视觉质量、物理遵循、指令控制、闭环任务成功       │  │
│  └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

1. 世界模型评估的核心挑战

1.1 评估的碎片化问题

当前世界模型评估面临严重的碎片化问题，不同研究团队使用不同的基准、指标和协议，导致：

跨论文比较困难：同一模型在不同评估下的结果不可直接对比
侧重点各异：有的关注视觉质量，有的关注物理一致性，有的关注规划能力
缺乏统一标准：没有类似 ImageNet 之于视觉识别的基准

# 当前碎片化评估示例
fragmented_evals = {
    "视频质量": ["FID", "FVD", "VBench"],
    "物理一致性": ["PhysBench", "PhyGen"],
    "动作控制": ["RT-1指标", "CALVIN"],
    "规划能力": ["DMLNet", "DreamBench++"],
    "人类偏好": ["ELO排名", "人类打分"]
}

1.2 开环评估 vs 闭环评估

这是世界模型评估中最核心的区分点：

维度	开环评估（Open-Loop）	闭环评估（Closed-Loop）
定义	一次生成完整预测序列	根据预测结果实时调整动作
类比	给定初始状态，让模型预测轨迹	实时反馈控制
优势	便于离线评估，可精确计算误差	接近真实应用场景
劣势	误差累积不反馈，无法体现交互性	评估复杂，需要在线规划器
代表基准	WorldPrediction	World-in-World

开环评估的数学表示：

\overset{x}{^}_{t + 1 : T} = f_{θ} (x_{t}, a_{t : T})

其中 $f_{θ}$ 是世界模型， $\overset{x}{^}$ 是预测状态序列， $a$ 是给定的动作序列。

闭环评估的数学表示：

a_{t} = π_{θ} (\overset{x}{^}_{t}), \overset{x}{^}_{t + 1} = f_{θ} (\overset{x}{^}_{t}, a_{t})

其中 $π_{θ}$ 是基于世界模型的规划/策略网络，形成「预测-动作-反馈」闭环。

1.3 视觉质量 vs 任务成功的权衡

评估中的一个重要发现是：视觉质量与任务成功并非正相关。

这一发现由 World-in-World 基准首次系统揭示：

视觉上更逼真的预测不一定导致更好的规划决策
细节渲染的提升可能掩盖了动力学建模的缺陷
某些「模糊」的预测反而包含更有用的任务相关信息

这种权衡可以用信息论解释：

I (\overset{x}{^}; task) \neq = I (\overset{x}{^}; visual)

其中 $I$ 表示互信息，优秀的世界模型应最大化任务相关互信息，而非单纯追求视觉质量。

2. 主要评估基准详解

2.1 WorldModelBench（CVPR 2025 Workshop）

2.1.1 基准概述

WorldModelBench 是 NVIDIA 等机构在 CVPR 2025 Workshop 上提出的综合性世界模型评估基准¹。

┌─────────────────────────────────────────────────────────────────┐
│                    WorldModelBench 数据规模                       │
│                                                                   │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │                                                          │  │
│  │   7 个领域 × 56 个子领域 × 350 个 prompt               │  │
│  │                                                          │  │
│  │   领域分布：                                              │  │
│  │   ├── 机器人操作 (Robotics)                             │  │
│  │   ├── 自动驾驶 (Autonomous Driving)                     │  │
│  │   ├── 室内场景 (Indoor Environments)                     │  │
│  │   ├── 人物动作 (Human Motion)                           │  │
│  │   ├── 物体交互 (Object Interaction)                     │  │
│  │   ├── 自然现象 (Natural Phenomena)                      │  │
│  │   └── 合成场景 (Synthetic Scenarios)                    │  │
│  │                                                          │  │
│  └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

2.1.2 评估维度

WorldModelBench 设计了三个核心评估维度：

维度	分值范围	评估内容
指令遵循（Instruction Following）	$0 \sim 3$	是否正确响应文本指令
常识遵循（Commonsense）	$0 \sim 3$	常识性物理和社会规则
物理遵循（Physics Adherence）	$0 \sim 5$	五类物理定律的遵循程度

物理遵循的五大定律：

惯性定律：物体保持原有运动状态
重力定律：物体受重力影响下落
碰撞定律：物体碰撞产生合理响应
能量守恒：动能与势能相互转化
摩擦定律：接触面阻碍相对运动

class WorldModelBenchEvaluator:
    """
    WorldModelBench 评估器
    """
    
    def __init__(self):
        # 指令遵循评判模型（67K人类标注训练）
        self.instruction_judge = InstructionJudge()
        
        # 常识评判模型
        self.commonsense_judge = CommonsenseJudge()
        
        # 物理遵循评判模型
        self.physics_judge = PhysicsJudge()
    
    def evaluate_instruction_following(self, video, instruction):
        """
        评估指令遵循
        输出分数: 0, 1, 2, 3
        """
        score = self.instruction_judge.judge(
            video=video,
            instruction=instruction
        )
        return score  # 0-3分
    
    def evaluate_physics_adherence(self, video):
        """
        评估物理遵循
        输出分数: 0-5（五类定律各0-1分）
        """
        scores = {
            'inertia': self.physics_judge.check_inertia(video),
            'gravity': self.physics_judge.check_gravity(video),
            'collision': self.physics_judge.check_collision(video),
            'energy': self.physics_judge.check_energy_conservation(video),
            'friction': self.physics_judge.check_friction(video)
        }
        # 每项0-1，最终归一化到0-5
        return sum(scores.values()) / 5 * 5

2.1.3 2B评判模型训练

WorldModelBench 的一个关键创新是使用67K人类标注训练了2B参数的评判模型：

L_{judge} = - E_{(v, s) \sim D} [lo g π_{θ} (s ∣ v)]

其中 $v$ 是视频， $s$ 是人类标注的分数。

2.2 World-in-World（NeurIPS 2025）

2.2.1 基准概述

World-in-World 是首个闭环世界评估平台，由多所顶尖研究机构联合提出²。其核心贡献是揭示了三个关键「surprise」：

┌─────────────────────────────────────────────────────────────────┐
│                World-in-World 三大发现 (Surprises)                │
│                                                                   │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │                                                          │  │
│  │  Surprise #1: 视觉质量 ≠ 任务成功                        │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  "Most visually realistic ≠ Most task-successful"        │  │
│  │  高视觉质量可能掩盖动力学建模缺陷                         │  │
│  │                                                          │  │
│  │  Surprise #2: 可控性比质量更重要                         │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  "Controllability > Visual Quality"                     │  │
│  │  对动作的精确响应比渲染细节更关键                         │  │
│  │                                                          │  │
│  │  Surprise #3: 后训练比升级生成器更有效                    │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  "Post-training > Upgrading Generator"                   │  │
│  │  对齐微调带来的提升超过架构改进                           │  │
│  │                                                          │  │
│  └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

2.2.2 闭环评估框架

World-in-World 提供了统一的在线规划策略和标准化动作API：

class WorldInWorldEvaluator:
    """
    World-in-World 闭环评估器
    """
    
    def __init__(self):
        # 标准化动作空间
        self.action_space = StandardizedActionSpace()
        
        # 在线规划器接口
        self.planner = OnlinePlanner()
        
        # 任务成功率评估
        self.task_success_evaluator = TaskSuccessEvaluator()
    
    def closed_loop_evaluation(self, world_model, tasks):
        """
        闭环评估流程
        
        闭环反馈机制：
        ┌────────────────────────────────────────┐
        │                                        │
        │   世界模型 ──▶ 预测状态 ──▶ 规划器      │
        │      ▲                      │         │
        │      │                      ▼         │
        │      │                 执行动作        │
        │      │                      │         │
        │      └──────── 反馈纠正 <────┘         │
        │                                        │
        └────────────────────────────────────────┘
        """
        results = []
        
        for task in tasks:
            # 初始化
            obs = task.initial_observation
            
            for step in range(task.max_steps):
                # 世界模型预测
                predicted_obs = world_model.imagine(obs)
                
                # 在线规划
                action = self.planner.plan(
                    predicted_obs, 
                    task.goal,
                    world_model
                )
                
                # 执行动作（通过API）
                next_obs = self.action_space.execute(
                    world_model, action
                )
                
                # 检查是否成功
                if self.task_success_evaluator.check(next_obs, task.goal):
                    results.append({'task': task, 'success': True, 'steps': step})
                    break
                
                obs = next_obs
            else:
                results.append({'task': task, 'success': False, 'steps': task.max_steps})
        
        return results

2.2.3 关键实验设计

World-in-World 的评估设计包含多个对照实验：

实验	控制变量	操纵变量	发现
V-Q Trade-off	任务类型相同	视觉质量不同	视觉质量不决定任务成功
Controllability Test	生成器相同	动作响应程度不同	可控性是决定性因素
Post-train vs Architectures	相同基础模型	后训练 vs 架构升级	后训练更有效

2.3 WorldPrediction（ICLR 2025）

2.3.1 基准概述

WorldPrediction 专注于高层次世界建模与长视野程序规划的评估³。

┌─────────────────────────────────────────────────────────────────┐
│                   WorldPrediction 任务设计                        │
│                                                                   │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │                                                          │  │
│  │  WorldPrediction-WM (World Modeling)                    │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  给定初始状态，预测长视野未来状态                         │  │
│  │  评估：状态预测准确率                                     │  │
│  │                                                          │  │
│  │  WorldPrediction-PP (Program Planning)                  │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  给定目标状态，规划动作序列实现目标                       │  │
│  │  评估：规划成功率                                         │  │
│  │                                                          │  │
│  └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

2.3.2 评估指标

WorldPrediction 使用精确的预测准确率作为核心指标：

任务	当前模型准确率	人类基准
WorldPrediction-WM	$57%$	$100%$
WorldPrediction-PP	$38%$	$100%$

当前模型与人类之间存在巨大差距，说明世界预测任务仍具挑战性：

Gap = 1 - \frac{Model Accuracy}{Human Accuracy} = {43% 62% WM PP

2.3.3 长视野预测的挑战

长视野预测的核心挑战是误差累积：

ϵ_{T} = t = 1 \sum T α^{T - t} \cdot ϵ_{t}

其中 $ϵ_{t}$ 是 $t$ 时刻的预测误差， $α$ 是衰减因子， $T$ 是预测视野。早期的小误差会被放大，导致长视野预测快速偏离。

2.4 WorldLens

2.4.1 基准概述

WorldLens 是驾驶世界模型的全谱评估框架⁴。

┌─────────────────────────────────────────────────────────────────┐
│                    WorldLens 评估维度                            │
│                                                                   │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │                                                          │  │
│  │   维度1: 生成质量 (Generation)                          │  │
│  │   ├── 视觉保真度                                        │  │
│  │   ├── 时间一致性                                        │  │
│  │   └── 场景多样性                                        │  │
│  │                                                          │  │
│  │   维度2: 重建质量 (Reconstruction)                      │  │
│  │   ├── 像素级精度                                        │  │
│  │   ├── 深度估计                                          │  │
│  │   └── 3D一致性                                          │  │
│  │                                                          │  │
│  │   维度3: 动作遵循 (Action Following)                    │  │
│  │   ├── 转向响应                                          │  │
│  │   ├── 加速/制动                                          │  │
│  │   └── 车道保持                                          │  │
│  │                                                          │  │
│  │   维度4: 下游任务 (Downstream Tasks)                    │  │
│  │   ├── 轨迹预测                                          │  │
│  │   ├── 行为规划                                          │  │
│  │   └── 风险评估                                          │  │
│  │                                                          │  │
│  │   维度5: 人类偏好 (Human Preference)                    │  │
│  │   ├── 舒适性                                            │  │
│  │   ├── 自然性                                            │  │
│  │   └── 安全性感知                                         │  │
│  │                                                          │  │
│  └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

2.4.2 驾驶场景的特殊性

驾驶世界模型需要特别关注：

时间一致性：长时间预测中道路场景保持一致
物理合理性：车辆动力学符合物理规律
交互预测：其他交通参与者的行为预测

class WorldLensDrivingEvaluator:
    """
    WorldLens 驾驶世界模型评估器
    """
    
    def __init__(self):
        # 驾驶专用指标
        self.lane_adherence = LaneAdherenceMetric()
        self.collision_rate = CollisionRateMetric()
        self.trajectory_smoothness = TrajectorySmoothnessMetric()
        self.human_preference = DrivingHumanPreferenceModel()
    
    def evaluate_driving_world_model(self, world_model, scenarios):
        """
        综合评估驾驶世界模型
        """
        results = {dimension: [] for dimension in [
            'generation', 'reconstruction', 'action_following',
            'downstream', 'human_preference'
        ]}
        
        for scenario in scenarios:
            # 生成预测
            prediction = world_model.predict(
                init_state=scenario.initial_state,
                actions=scenario.actions,
                horizon=scenario.prediction_horizon
            )
            
            # 各维度评估
            results['generation'].append(
                self.evaluate_generation(prediction, scenario)
            )
            results['reconstruction'].append(
                self.evaluate_reconstruction(prediction, scenario)
            )
            results['action_following'].append(
                self.evaluate_action_following(prediction, scenario)
            )
            results['downstream'].append(
                self.evaluate_downstream(prediction, scenario)
            )
            results['human_preference'].append(
                self.evaluate_human_preference(prediction, scenario)
            )
        
        return self.aggregate_results(results)

2.5 WM-ABench

2.5.1 基准概述

WM-ABench（World Model - Atomic Bench）提出VLM内部世界模型的原子评估框架⁵。

核心思想：将世界模型能力分解为原子能力，逐一评估。

2.5.2 两阶段评估框架

┌─────────────────────────────────────────────────────────────────┐
│                    WM-ABench 两阶段框架                           │
│                                                                   │
│  阶段1: 感知能力 (Perception)                                     │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │                                                          │  │
│  │   视觉感知 (Visual Perception)                          │  │
│  │   ├── 物体识别                                          │  │
│  │   ├── 场景分类                                          │  │
│  │   └── 颜色/纹理识别                                     │  │
│  │                                                          │  │
│  │   空间感知 (Spatial Perception)                         │  │
│  │   ├── 相对位置                                          │  │
│  │   ├── 距离估计                                          │  │
│  │   └── 深度判断                                          │  │
│  │                                                          │  │
│  │   时间感知 (Temporal Perception)                        │  │
│  │   ├── 事件顺序                                          │  │
│  │   ├── 持续时间                                          │  │
│  │   └── 时序因果                                          │  │
│  │                                                          │  │
│  │   数量感知 (Quantitative Perception)                    │  │
│  │   ├── 计数                                              │  │
│  │   ├── 尺寸比较                                          │  │
│  │   └── 速度估计                                          │  │
│  │                                                          │  │
│  │   运动感知 (Motion Perception)                           │  │
│  │   ├── 速度向量                                          │  │
│  │   ├── 加速度                                            │  │
│  │   └── 轨迹预测                                          │  │
│  │                                                          │  │
│  └─────────────────────────────────────────────────────────┘  │
│                          ▼                                       │
│  阶段2: 预测能力 (Prediction)                                    │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │                                                          │  │
│  │   机械模拟 (Mechanical Simulation)                       │  │
│  │   ├── 碰撞结果                                          │  │
│  │   ├── 倾倒预测                                          │  │
│  │   └── 弹道计算                                          │  │
│  │                                                          │  │
│  │   传递推理 (Transfer Reasoning)                         │  │
│  │   ├── 属性传递                                          │  │
│  │   ├── 因果链                                            │  │
│  │   └── 类比推理                                          │  │
│  │                                                          │  │
│  │   组合推理 (Compositional Reasoning)                     │  │
│  │   ├── 多物体交互                                        │  │
│  │   ├── 多步骤预测                                        │  │
│  │   └── 条件组合                                          │  │
│  │                                                          │  │
│  └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

2.5.3 原子能力量化

class WMABenchAtomicEvaluator:
    """
    WM-ABench 原子能力评估器
    """
    
    # 感知阶段
    PERCEPTION_TESTS = {
        'visual': [
            'object_recognition',
            'scene_classification',
            'color_texture'
        ],
        'spatial': [
            'relative_position',
            'distance_estimation',
            'depth_judgment'
        ],
        'temporal': [
            'event_order',
            'duration_estimation',
            'temporal_causality'
        ],
        'quantitative': [
            'counting',
            'size_comparison',
            'speed_estimation'
        ],
        'motion': [
            'velocity_vector',
            'acceleration',
            'trajectory_prediction'
        ]
    }
    
    # 预测阶段
    PREDICTION_TESTS = {
        'mechanical': [
            'collision_outcome',
            'toppling_prediction',
            'ballistic_calculation'
        ],
        'transfer': [
            'property_transfer',
            'causal_chain',
            'analogical_reasoning'
        ],
        'compositional': [
            'multi_object_interaction',
            'multi_step_prediction',
            'conditional_combination'
        ]
    }
    
    def evaluate_atomic_capabilities(self, world_model):
        """
        评估所有原子能力
        返回能力画像
        """
        perception_scores = {}
        prediction_scores = {}
        
        # 感知能力评估
        for category, tests in self.PERCEPTION_TESTS.items():
            scores = []
            for test in tests:
                score = self.run_perception_test(world_model, test)
                scores.append(score)
            perception_scores[category] = np.mean(scores)
        
        # 预测能力评估
        for category, tests in self.PREDICTION_TESTS.items():
            scores = []
            for test in tests:
                score = self.run_prediction_test(world_model, test)
                scores.append(score)
            prediction_scores[category] = np.mean(scores)
        
        return {
            'perception': perception_scores,
            'prediction': prediction_scores,
            'overall': np.mean([
                np.mean(list(perception_scores.values())),
                np.mean(list(prediction_scores.values()))
            ])
        }

2.6 SmallWorld

2.6.1 基准概述

SmallWorld 专注于隔离动力学理解评估，通过简化场景排除干扰因素⁶。

┌─────────────────────────────────────────────────────────────────┐
│                    SmallWorld 六大规范任务                        │
│                                                                   │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │                                                          │  │
│  │  任务1: 刚体碰撞 (Rigid Body Collision)                  │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  评估碰撞后的速度/方向变化                                │  │
│  │                                                          │  │
│  │  任务2: 重力下落 (Gravity Drop)                         │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  评估自由落体轨迹                                         │  │
│  │                                                          │  │
│  │  任务3: 滑动摩擦 (Sliding Friction)                     │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  评估水平面上的减速                                       │  │
│  │                                                          │  │
│  │  任务4: 旋转惯性 (Rotational Inertia)                   │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  评估旋转物体的角动量守恒                                 │  │
│  │                                                          │  │
│  │  任务5: 弹跳运动 (Bouncing Motion)                      │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  评估能量损耗与反弹高度                                   │  │
│  │                                                          │  │
│  │  任务6: 悬挂平衡 (Hanging Balance)                      │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  评估重心与稳定性                                         │  │
│  │                                                          │  │
│  └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

2.6.2 隔离评估原理

SmallWorld 的核心设计理念是隔离变量：

L_{world} = i = 1 \sum 6 λ_{i} \cdot L_{i}

其中 $L_{i}$ 是第 $i$ 个规范任务的损失， $λ_{i}$ 是权重。

通过控制场景复杂度，SmallWorld 可以精确诊断世界模型在特定物理能力上的缺陷。

class SmallWorldEvaluator:
    """
    SmallWorld 隔离动力学评估器
    """
    
    TASKS = [
        'rigid_collision',
        'gravity_drop',
        'sliding_friction',
        'rotational_inertia',
        'bouncing_motion',
        'hanging_balance'
    ]
    
    def evaluate_physics_isolation(self, world_model):
        """
        隔离评估物理理解能力
        """
        results = {}
        
        for task in self.TASKS:
            # 创建隔离场景
            scene = self.create_isolated_scene(task)
            
            # 运行物理模拟获取ground truth
            ground_truth = self.physics_simulator.simulate(scene)
            
            # 世界模型预测
            prediction = world_model.predict(scene)
            
            # 计算误差
            error = self.compute_physics_error(prediction, ground_truth, task)
            
            results[task] = {
                'error': error,
                'passed': error < self.thresholds[task]
            }
        
        return results
    
    def create_isolated_scene(self, task):
        """
        创建隔离场景，排除干扰因素
        """
        if task == 'rigid_collision':
            # 简化为两个球体碰撞，无其他干扰
            return TwoSphereCollisionScene()
        elif task == 'gravity_drop':
            # 纯重力下落，无空气阻力
            return VacuumDropScene()
        # ... 其他任务

3. 评估维度综合对比

3.1 基准特性对比

基准	年份	会议	评估范式	领域	规模
WorldModelBench	2025	CVPR Workshop	开环	多领域	350 prompts
World-in-World	2025	NeurIPS	闭环	多领域	多个任务
WorldPrediction	2025	ICLR	开环	程序规划	两大任务
WorldLens	2025	-	开环+下游	驾驶	多场景
WM-ABench	2025	-	原子评估	多领域	多原子测试
SmallWorld	2025	-	隔离评估	物理	6大任务

3.2 评估维度覆盖对比

维度	WorldModelBench	World-in-World	WorldPrediction	WorldLens	WM-ABench	SmallWorld
视觉质量	✅	✅	✅	✅	❌	❌
指令遵循	✅	✅	❌	❌	❌	❌
物理遵循	✅ (5大定律)	✅	✅	✅	✅ (原子)	✅ (隔离)
动作控制	❌	✅	✅	✅	❌	❌
常识推理	✅	✅	❌	❌	✅	❌
任务成功	❌	✅	✅	✅	❌	❌
长视野预测	❌	✅	✅	✅	❌	❌
因果推理	❌	❌	❌	❌	✅	❌

3.3 开环 vs 闭环评估对比

┌─────────────────────────────────────────────────────────────────┐
│               开环评估 vs 闭环评估 — 权衡图                       │
│                                                                   │
│                          评估复杂性                               │
│                              ▲                                    │
│                              │                                    │
│           World-in-World    │    WorldModelBench                 │
│               ●             │              ●                     │
│                              │                                    │
│                              │                                    │
│                              │                                    │
│                              │                                    │
│   WorldPrediction ●         │                                    │
│                    ●         │         ● WorldLens               │
│                              │                                    │
│                              ▼                                    │
│  ◄─────────────────────────────────────────────────────►         │
│   开环                                                  闭环      │
│                              │                                    │
│   易于离线评估                      接近真实应用                   │
│   便于精确测量                      评估交互能力                   │
│   不反馈修正                        误差可纠正                     │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

4. 未来研究方向

4.1 跨领域泛化评估

当前基准多在单一领域评估，真实应用需要跨领域泛化能力：

G_{cross-domain} = E_{D_{test} \sim diff-domains} [Perf (f_{θ}, D_{test})]

评估设计需求：

训练集与测试集来自不同领域
评估分布外（OOD）泛化能力
测试对未见过的物理现象的适应能力

4.2 因果推理评估

现有评估主要关注相关性而非因果性：

# 相关性评估 vs 因果性评估
correlation_metrics = ['correlation', 'mse', 'mae']  # 当前
causality_metrics = ['counterfactual', 'intervention', 'do-calculus']  # 需要
 
# 因果推理基准示例
class CausalReasoningBenchmark:
    """
    因果推理评估 — 未来方向
    """
    
    def evaluate_counterfactual(self, world_model, scenario):
        """
        评估反事实推理：
        "如果当初做了不同的选择，结果会怎样？"
        """
        # 原始轨迹
        original = world_model.rollout(scenario.initial, scenario.actions)
        
        # 反事实轨迹（改变某个动作）
        counterfactual = world_model.rollout(
            scenario.initial, 
            scenario.counterfactual_actions
        )
        
        # 评估因果归因
        causal_attribution = self.compute_causal_difference(
            original, counterfactual
        )
        
        return causal_attribution

4.3 安全与偏见评估

世界模型可能学到不安全的物理规律或社会偏见：

安全维度	评估内容	潜在风险
物理安全	危险动作的可预测性	生成危险场景
社会偏见	对特定群体的行为偏见	歧视性场景
幻觉检测	物理上不可能的生成	违反物理定律
对抗鲁棒性	对输入扰动的敏感性	被恶意操控

class SafetyEvaluationFramework:
    """
    安全评估框架 — 未来方向
    """
    
    def __init__(self):
        self.physics_validator = PhysicsValidator()
        self.social_bias_detector = SocialBiasDetector()
        self.adversarial_tester = AdversarialTester()
    
    def comprehensive_safety_check(self, world_model, scenarios):
        """
        综合安全检查
        """
        results = {
            'physics_safety': [],
            'social_bias': [],
            'adversarial_robustness': []
        }
        
        for scenario in scenarios:
            # 生成内容
            generated = world_model.generate(scenario)
            
            # 物理安全检查
            if not self.physics_validator.is_valid(generated):
                results['physics_safety'].append(False)
            
            # 社会偏见检查
            bias_score = self.social_bias_detector.check(generated)
            results['social_bias'].append(bias_score)
            
            # 对抗鲁棒性检查
            if self.adversarial_tester.can_fool(world_model, generated):
                results['adversarial_robustness'].append(False)
        
        return self.aggregate_safety_results(results)

5. 总结

5.1 关键洞见

闭环评估是未来：World-in-World 揭示了闭环评估的重要性，开环评估可能误导模型选择
可控性优于视觉质量：对动作的精确响应比渲染细节更关键
后训练的价值：对齐微调带来的提升超过架构改进
原子能力分解：WM-ABench 的原子评估有助于精准诊断模型弱点
隔离评估的必要性：SmallWorld 证明隔离复杂场景有助于理解模型物理建模能力

5.2 实践建议

┌─────────────────────────────────────────────────────────────────┐
│                    世界模型评估实践建议                            │
│                                                                   │
│  1. 多维度评估                                                   │
│     ┌─────────────────────────────────────────────────────────┐  │
│     │ 不要只看视觉质量，结合物理遵循、动作控制、任务成功        │  │
│     └─────────────────────────────────────────────────────────┘  │
│                                                                   │
│  2. 开环+闭环结合                                               │
│     ┌─────────────────────────────────────────────────────────┐  │
│     │ 离线评估用开环指标，部署前用闭环模拟                      │  │
│     └─────────────────────────────────────────────────────────┘  │
│                                                                   │
│  3. 选择合适基准                                                 │
│     ┌─────────────────────────────────────────────────────────┐  │
│     │ 物理分析 → SmallWorld                                  │  │
│     │ 驾驶场景 → WorldLens                                   │  │
│     │ 通用多领域 → WorldModelBench / World-in-World          │  │
│     │ 原子能力诊断 → WM-ABench                               │  │
│     └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

5.3 开放问题

问题	描述	研究价值
评估协议标准化	如何建立类似 ImageNet 的统一基准	高
长视野评估	如何准确评估超过100步的预测	中
因果评估	如何系统评估因果推理能力	高
安全评估	如何确保世界模型不生成危险内容	高
人类认知对齐	如何衡量模型世界建模与人类认知的差异	中

Metaphor

探索

世界模型评估基准综述（2025）

世界模型评估基准综述（2025）

概述

1. 世界模型评估的核心挑战

1.1 评估的碎片化问题

1.2 开环评估 vs 闭环评估

1.3 视觉质量 vs 任务成功的权衡

2. 主要评估基准详解

2.1 WorldModelBench（CVPR 2025 Workshop）

2.1.1 基准概述

2.1.2 评估维度

2.1.3 2B评判模型训练

2.2 World-in-World（NeurIPS 2025）

2.2.1 基准概述

2.2.2 闭环评估框架

2.2.3 关键实验设计

2.3 WorldPrediction（ICLR 2025）

2.3.1 基准概述

2.3.2 评估指标

2.3.3 长视野预测的挑战

2.4 WorldLens

2.4.1 基准概述

2.4.2 驾驶场景的特殊性

2.5 WM-ABench

2.5.1 基准概述

2.5.2 两阶段评估框架

2.5.3 原子能力量化

2.6 SmallWorld

2.6.1 基准概述

2.6.2 隔离评估原理

3. 评估维度综合对比

3.1 基准特性对比

3.2 评估维度覆盖对比

3.3 开环 vs 闭环评估对比

4. 未来研究方向

4.1 跨领域泛化评估

4.2 因果推理评估

4.3 安全与偏见评估

5. 总结

5.1 关键洞见

5.2 实践建议

5.3 开放问题

参考

相关主题

Footnotes

关系图谱

目录

反向链接