世界模型评估基准综述(2025)

概述

世界模型(World Models)的核心目标是学习环境的动态演化规律,使智能体能够「想象」未来状态并据此进行规划和决策。然而,如何系统性地评估一个世界模型的质量,至今仍是开放性难题。随着视频生成模型(如 Sora、Gen-3、Cosmos)的快速发展,评估方法从单一视觉质量逐步扩展到物理合理性、动作可控性、因果一致性等多个维度。

本综述系统梳理2025年涌现的主要世界模型评估基准,分析其设计理念、评估维度和关键发现。

┌─────────────────────────────────────────────────────────────────┐
│                   世界模型评估范式演进                             │
│                                                                   │
│  第一阶段:视觉质量                                               │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │  FID / FVD / LPIPS / SSIM                               │  │
│  │  关注像素级重建质量,忽视物理和功能                       │  │
│  └─────────────────────────────────────────────────────────┘  │
│                          ▼                                       │
│  第二阶段:任务性能                                               │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │  下游任务成功率 / 奖励预测 / 规划性能                     │  │
│  │  关注预测对决策的价值,但缺乏过程监控                     │  │
│  └─────────────────────────────────────────────────────────┘  │
│                          ▼                                       │
│  第三阶段:开环+闭环综合评估                                      │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │  WorldModelBench / World-in-World                        │  │
│  │  统一评估视觉质量、物理遵循、指令控制、闭环任务成功       │  │
│  └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

1. 世界模型评估的核心挑战

1.1 评估的碎片化问题

当前世界模型评估面临严重的碎片化问题,不同研究团队使用不同的基准、指标和协议,导致:

  • 跨论文比较困难:同一模型在不同评估下的结果不可直接对比
  • 侧重点各异:有的关注视觉质量,有的关注物理一致性,有的关注规划能力
  • 缺乏统一标准:没有类似 ImageNet 之于视觉识别的基准
# 当前碎片化评估示例
fragmented_evals = {
    "视频质量": ["FID", "FVD", "VBench"],
    "物理一致性": ["PhysBench", "PhyGen"],
    "动作控制": ["RT-1指标", "CALVIN"],
    "规划能力": ["DMLNet", "DreamBench++"],
    "人类偏好": ["ELO排名", "人类打分"]
}

1.2 开环评估 vs 闭环评估

这是世界模型评估中最核心的区分点:

维度开环评估(Open-Loop)闭环评估(Closed-Loop)
定义一次生成完整预测序列根据预测结果实时调整动作
类比给定初始状态,让模型预测轨迹实时反馈控制
优势便于离线评估,可精确计算误差接近真实应用场景
劣势误差累积不反馈,无法体现交互性评估复杂,需要在线规划器
代表基准WorldPredictionWorld-in-World

开环评估的数学表示:

其中 是世界模型, 是预测状态序列, 是给定的动作序列。

闭环评估的数学表示:

其中 是基于世界模型的规划/策略网络,形成「预测-动作-反馈」闭环。

1.3 视觉质量 vs 任务成功的权衡

评估中的一个重要发现是:视觉质量与任务成功并非正相关

这一发现由 World-in-World 基准首次系统揭示:

  • 视觉上更逼真的预测不一定导致更好的规划决策
  • 细节渲染的提升可能掩盖了动力学建模的缺陷
  • 某些「模糊」的预测反而包含更有用的任务相关信息

这种权衡可以用信息论解释:

其中 表示互信息,优秀的世界模型应最大化任务相关互信息,而非单纯追求视觉质量。


2. 主要评估基准详解

2.1 WorldModelBench(CVPR 2025 Workshop)

2.1.1 基准概述

WorldModelBench 是 NVIDIA 等机构在 CVPR 2025 Workshop 上提出的综合性世界模型评估基准1

┌─────────────────────────────────────────────────────────────────┐
│                    WorldModelBench 数据规模                       │
│                                                                   │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │                                                          │  │
│  │   7 个领域 × 56 个子领域 × 350 个 prompt               │  │
│  │                                                          │  │
│  │   领域分布:                                              │  │
│  │   ├── 机器人操作 (Robotics)                             │  │
│  │   ├── 自动驾驶 (Autonomous Driving)                     │  │
│  │   ├── 室内场景 (Indoor Environments)                     │  │
│  │   ├── 人物动作 (Human Motion)                           │  │
│  │   ├── 物体交互 (Object Interaction)                     │  │
│  │   ├── 自然现象 (Natural Phenomena)                      │  │
│  │   └── 合成场景 (Synthetic Scenarios)                    │  │
│  │                                                          │  │
│  └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

2.1.2 评估维度

WorldModelBench 设计了三个核心评估维度:

维度分值范围评估内容
指令遵循(Instruction Following)是否正确响应文本指令
常识遵循(Commonsense)常识性物理和社会规则
物理遵循(Physics Adherence)五类物理定律的遵循程度

物理遵循的五大定律

  1. 惯性定律:物体保持原有运动状态
  2. 重力定律:物体受重力影响下落
  3. 碰撞定律:物体碰撞产生合理响应
  4. 能量守恒:动能与势能相互转化
  5. 摩擦定律:接触面阻碍相对运动
class WorldModelBenchEvaluator:
    """
    WorldModelBench 评估器
    """
    
    def __init__(self):
        # 指令遵循评判模型(67K人类标注训练)
        self.instruction_judge = InstructionJudge()
        
        # 常识评判模型
        self.commonsense_judge = CommonsenseJudge()
        
        # 物理遵循评判模型
        self.physics_judge = PhysicsJudge()
    
    def evaluate_instruction_following(self, video, instruction):
        """
        评估指令遵循
        输出分数: 0, 1, 2, 3
        """
        score = self.instruction_judge.judge(
            video=video,
            instruction=instruction
        )
        return score  # 0-3分
    
    def evaluate_physics_adherence(self, video):
        """
        评估物理遵循
        输出分数: 0-5(五类定律各0-1分)
        """
        scores = {
            'inertia': self.physics_judge.check_inertia(video),
            'gravity': self.physics_judge.check_gravity(video),
            'collision': self.physics_judge.check_collision(video),
            'energy': self.physics_judge.check_energy_conservation(video),
            'friction': self.physics_judge.check_friction(video)
        }
        # 每项0-1,最终归一化到0-5
        return sum(scores.values()) / 5 * 5

2.1.3 2B评判模型训练

WorldModelBench 的一个关键创新是使用67K人类标注训练了2B参数的评判模型:

其中 是视频, 是人类标注的分数。

2.2 World-in-World(NeurIPS 2025)

2.2.1 基准概述

World-in-World 是首个闭环世界评估平台,由多所顶尖研究机构联合提出2。其核心贡献是揭示了三个关键「surprise」:

┌─────────────────────────────────────────────────────────────────┐
│                World-in-World 三大发现 (Surprises)                │
│                                                                   │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │                                                          │  │
│  │  Surprise #1: 视觉质量 ≠ 任务成功                        │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  "Most visually realistic ≠ Most task-successful"        │  │
│  │  高视觉质量可能掩盖动力学建模缺陷                         │  │
│  │                                                          │  │
│  │  Surprise #2: 可控性比质量更重要                         │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  "Controllability > Visual Quality"                     │  │
│  │  对动作的精确响应比渲染细节更关键                         │  │
│  │                                                          │  │
│  │  Surprise #3: 后训练比升级生成器更有效                    │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  "Post-training > Upgrading Generator"                   │  │
│  │  对齐微调带来的提升超过架构改进                           │  │
│  │                                                          │  │
│  └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

2.2.2 闭环评估框架

World-in-World 提供了统一的在线规划策略标准化动作API

class WorldInWorldEvaluator:
    """
    World-in-World 闭环评估器
    """
    
    def __init__(self):
        # 标准化动作空间
        self.action_space = StandardizedActionSpace()
        
        # 在线规划器接口
        self.planner = OnlinePlanner()
        
        # 任务成功率评估
        self.task_success_evaluator = TaskSuccessEvaluator()
    
    def closed_loop_evaluation(self, world_model, tasks):
        """
        闭环评估流程
        
        闭环反馈机制:
        ┌────────────────────────────────────────┐
        │                                        │
        │   世界模型 ──▶ 预测状态 ──▶ 规划器      │
        │      ▲                      │         │
        │      │                      ▼         │
        │      │                 执行动作        │
        │      │                      │         │
        │      └──────── 反馈纠正 <────┘         │
        │                                        │
        └────────────────────────────────────────┘
        """
        results = []
        
        for task in tasks:
            # 初始化
            obs = task.initial_observation
            
            for step in range(task.max_steps):
                # 世界模型预测
                predicted_obs = world_model.imagine(obs)
                
                # 在线规划
                action = self.planner.plan(
                    predicted_obs, 
                    task.goal,
                    world_model
                )
                
                # 执行动作(通过API)
                next_obs = self.action_space.execute(
                    world_model, action
                )
                
                # 检查是否成功
                if self.task_success_evaluator.check(next_obs, task.goal):
                    results.append({'task': task, 'success': True, 'steps': step})
                    break
                
                obs = next_obs
            else:
                results.append({'task': task, 'success': False, 'steps': task.max_steps})
        
        return results

2.2.3 关键实验设计

World-in-World 的评估设计包含多个对照实验:

实验控制变量操纵变量发现
V-Q Trade-off任务类型相同视觉质量不同视觉质量不决定任务成功
Controllability Test生成器相同动作响应程度不同可控性是决定性因素
Post-train vs Architectures相同基础模型后训练 vs 架构升级后训练更有效

2.3 WorldPrediction(ICLR 2025)

2.3.1 基准概述

WorldPrediction 专注于高层次世界建模与长视野程序规划的评估3

┌─────────────────────────────────────────────────────────────────┐
│                   WorldPrediction 任务设计                        │
│                                                                   │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │                                                          │  │
│  │  WorldPrediction-WM (World Modeling)                    │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  给定初始状态,预测长视野未来状态                         │  │
│  │  评估:状态预测准确率                                     │  │
│  │                                                          │  │
│  │  WorldPrediction-PP (Program Planning)                  │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  给定目标状态,规划动作序列实现目标                       │  │
│  │  评估:规划成功率                                         │  │
│  │                                                          │  │
│  └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

2.3.2 评估指标

WorldPrediction 使用精确的预测准确率作为核心指标:

任务当前模型准确率人类基准
WorldPrediction-WM
WorldPrediction-PP

当前模型与人类之间存在巨大差距,说明世界预测任务仍具挑战性:

2.3.3 长视野预测的挑战

长视野预测的核心挑战是误差累积

其中 时刻的预测误差, 是衰减因子, 是预测视野。早期的小误差会被放大,导致长视野预测快速偏离。

2.4 WorldLens

2.4.1 基准概述

WorldLens驾驶世界模型的全谱评估框架4

┌─────────────────────────────────────────────────────────────────┐
│                    WorldLens 评估维度                            │
│                                                                   │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │                                                          │  │
│  │   维度1: 生成质量 (Generation)                          │  │
│  │   ├── 视觉保真度                                        │  │
│  │   ├── 时间一致性                                        │  │
│  │   └── 场景多样性                                        │  │
│  │                                                          │  │
│  │   维度2: 重建质量 (Reconstruction)                      │  │
│  │   ├── 像素级精度                                        │  │
│  │   ├── 深度估计                                          │  │
│  │   └── 3D一致性                                          │  │
│  │                                                          │  │
│  │   维度3: 动作遵循 (Action Following)                    │  │
│  │   ├── 转向响应                                          │  │
│  │   ├── 加速/制动                                          │  │
│  │   └── 车道保持                                          │  │
│  │                                                          │  │
│  │   维度4: 下游任务 (Downstream Tasks)                    │  │
│  │   ├── 轨迹预测                                          │  │
│  │   ├── 行为规划                                          │  │
│  │   └── 风险评估                                          │  │
│  │                                                          │  │
│  │   维度5: 人类偏好 (Human Preference)                    │  │
│  │   ├── 舒适性                                            │  │
│  │   ├── 自然性                                            │  │
│  │   └── 安全性感知                                         │  │
│  │                                                          │  │
│  └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

2.4.2 驾驶场景的特殊性

驾驶世界模型需要特别关注:

  • 时间一致性:长时间预测中道路场景保持一致
  • 物理合理性:车辆动力学符合物理规律
  • 交互预测:其他交通参与者的行为预测
class WorldLensDrivingEvaluator:
    """
    WorldLens 驾驶世界模型评估器
    """
    
    def __init__(self):
        # 驾驶专用指标
        self.lane_adherence = LaneAdherenceMetric()
        self.collision_rate = CollisionRateMetric()
        self.trajectory_smoothness = TrajectorySmoothnessMetric()
        self.human_preference = DrivingHumanPreferenceModel()
    
    def evaluate_driving_world_model(self, world_model, scenarios):
        """
        综合评估驾驶世界模型
        """
        results = {dimension: [] for dimension in [
            'generation', 'reconstruction', 'action_following',
            'downstream', 'human_preference'
        ]}
        
        for scenario in scenarios:
            # 生成预测
            prediction = world_model.predict(
                init_state=scenario.initial_state,
                actions=scenario.actions,
                horizon=scenario.prediction_horizon
            )
            
            # 各维度评估
            results['generation'].append(
                self.evaluate_generation(prediction, scenario)
            )
            results['reconstruction'].append(
                self.evaluate_reconstruction(prediction, scenario)
            )
            results['action_following'].append(
                self.evaluate_action_following(prediction, scenario)
            )
            results['downstream'].append(
                self.evaluate_downstream(prediction, scenario)
            )
            results['human_preference'].append(
                self.evaluate_human_preference(prediction, scenario)
            )
        
        return self.aggregate_results(results)

2.5 WM-ABench

2.5.1 基准概述

WM-ABench(World Model - Atomic Bench)提出VLM内部世界模型的原子评估框架5

核心思想:将世界模型能力分解为原子能力,逐一评估。

2.5.2 两阶段评估框架

┌─────────────────────────────────────────────────────────────────┐
│                    WM-ABench 两阶段框架                           │
│                                                                   │
│  阶段1: 感知能力 (Perception)                                     │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │                                                          │  │
│  │   视觉感知 (Visual Perception)                          │  │
│  │   ├── 物体识别                                          │  │
│  │   ├── 场景分类                                          │  │
│  │   └── 颜色/纹理识别                                     │  │
│  │                                                          │  │
│  │   空间感知 (Spatial Perception)                         │  │
│  │   ├── 相对位置                                          │  │
│  │   ├── 距离估计                                          │  │
│  │   └── 深度判断                                          │  │
│  │                                                          │  │
│  │   时间感知 (Temporal Perception)                        │  │
│  │   ├── 事件顺序                                          │  │
│  │   ├── 持续时间                                          │  │
│  │   └── 时序因果                                          │  │
│  │                                                          │  │
│  │   数量感知 (Quantitative Perception)                    │  │
│  │   ├── 计数                                              │  │
│  │   ├── 尺寸比较                                          │  │
│  │   └── 速度估计                                          │  │
│  │                                                          │  │
│  │   运动感知 (Motion Perception)                           │  │
│  │   ├── 速度向量                                          │  │
│  │   ├── 加速度                                            │  │
│  │   └── 轨迹预测                                          │  │
│  │                                                          │  │
│  └─────────────────────────────────────────────────────────┘  │
│                          ▼                                       │
│  阶段2: 预测能力 (Prediction)                                    │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │                                                          │  │
│  │   机械模拟 (Mechanical Simulation)                       │  │
│  │   ├── 碰撞结果                                          │  │
│  │   ├── 倾倒预测                                          │  │
│  │   └── 弹道计算                                          │  │
│  │                                                          │  │
│  │   传递推理 (Transfer Reasoning)                         │  │
│  │   ├── 属性传递                                          │  │
│  │   ├── 因果链                                            │  │
│  │   └── 类比推理                                          │  │
│  │                                                          │  │
│  │   组合推理 (Compositional Reasoning)                     │  │
│  │   ├── 多物体交互                                        │  │
│  │   ├── 多步骤预测                                        │  │
│  │   └── 条件组合                                          │  │
│  │                                                          │  │
│  └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

2.5.3 原子能力量化

class WMABenchAtomicEvaluator:
    """
    WM-ABench 原子能力评估器
    """
    
    # 感知阶段
    PERCEPTION_TESTS = {
        'visual': [
            'object_recognition',
            'scene_classification',
            'color_texture'
        ],
        'spatial': [
            'relative_position',
            'distance_estimation',
            'depth_judgment'
        ],
        'temporal': [
            'event_order',
            'duration_estimation',
            'temporal_causality'
        ],
        'quantitative': [
            'counting',
            'size_comparison',
            'speed_estimation'
        ],
        'motion': [
            'velocity_vector',
            'acceleration',
            'trajectory_prediction'
        ]
    }
    
    # 预测阶段
    PREDICTION_TESTS = {
        'mechanical': [
            'collision_outcome',
            'toppling_prediction',
            'ballistic_calculation'
        ],
        'transfer': [
            'property_transfer',
            'causal_chain',
            'analogical_reasoning'
        ],
        'compositional': [
            'multi_object_interaction',
            'multi_step_prediction',
            'conditional_combination'
        ]
    }
    
    def evaluate_atomic_capabilities(self, world_model):
        """
        评估所有原子能力
        返回能力画像
        """
        perception_scores = {}
        prediction_scores = {}
        
        # 感知能力评估
        for category, tests in self.PERCEPTION_TESTS.items():
            scores = []
            for test in tests:
                score = self.run_perception_test(world_model, test)
                scores.append(score)
            perception_scores[category] = np.mean(scores)
        
        # 预测能力评估
        for category, tests in self.PREDICTION_TESTS.items():
            scores = []
            for test in tests:
                score = self.run_prediction_test(world_model, test)
                scores.append(score)
            prediction_scores[category] = np.mean(scores)
        
        return {
            'perception': perception_scores,
            'prediction': prediction_scores,
            'overall': np.mean([
                np.mean(list(perception_scores.values())),
                np.mean(list(prediction_scores.values()))
            ])
        }

2.6 SmallWorld

2.6.1 基准概述

SmallWorld 专注于隔离动力学理解评估,通过简化场景排除干扰因素6

┌─────────────────────────────────────────────────────────────────┐
│                    SmallWorld 六大规范任务                        │
│                                                                   │
│  ┌─────────────────────────────────────────────────────────┐  │
│  │                                                          │  │
│  │  任务1: 刚体碰撞 (Rigid Body Collision)                  │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  评估碰撞后的速度/方向变化                                │  │
│  │                                                          │  │
│  │  任务2: 重力下落 (Gravity Drop)                         │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  评估自由落体轨迹                                         │  │
│  │                                                          │  │
│  │  任务3: 滑动摩擦 (Sliding Friction)                     │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  评估水平面上的减速                                       │  │
│  │                                                          │  │
│  │  任务4: 旋转惯性 (Rotational Inertia)                   │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  评估旋转物体的角动量守恒                                 │  │
│  │                                                          │  │
│  │  任务5: 弹跳运动 (Bouncing Motion)                      │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  评估能量损耗与反弹高度                                   │  │
│  │                                                          │  │
│  │  任务6: 悬挂平衡 (Hanging Balance)                      │  │
│  │  ─────────────────────────────────────────────────      │  │
│  │  评估重心与稳定性                                         │  │
│  │                                                          │  │
│  └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

2.6.2 隔离评估原理

SmallWorld 的核心设计理念是隔离变量

其中 是第 个规范任务的损失, 是权重。

通过控制场景复杂度,SmallWorld 可以精确诊断世界模型在特定物理能力上的缺陷。

class SmallWorldEvaluator:
    """
    SmallWorld 隔离动力学评估器
    """
    
    TASKS = [
        'rigid_collision',
        'gravity_drop',
        'sliding_friction',
        'rotational_inertia',
        'bouncing_motion',
        'hanging_balance'
    ]
    
    def evaluate_physics_isolation(self, world_model):
        """
        隔离评估物理理解能力
        """
        results = {}
        
        for task in self.TASKS:
            # 创建隔离场景
            scene = self.create_isolated_scene(task)
            
            # 运行物理模拟获取ground truth
            ground_truth = self.physics_simulator.simulate(scene)
            
            # 世界模型预测
            prediction = world_model.predict(scene)
            
            # 计算误差
            error = self.compute_physics_error(prediction, ground_truth, task)
            
            results[task] = {
                'error': error,
                'passed': error < self.thresholds[task]
            }
        
        return results
    
    def create_isolated_scene(self, task):
        """
        创建隔离场景,排除干扰因素
        """
        if task == 'rigid_collision':
            # 简化为两个球体碰撞,无其他干扰
            return TwoSphereCollisionScene()
        elif task == 'gravity_drop':
            # 纯重力下落,无空气阻力
            return VacuumDropScene()
        # ... 其他任务

3. 评估维度综合对比

3.1 基准特性对比

基准年份会议评估范式领域规模
WorldModelBench2025CVPR Workshop开环多领域350 prompts
World-in-World2025NeurIPS闭环多领域多个任务
WorldPrediction2025ICLR开环程序规划两大任务
WorldLens2025-开环+下游驾驶多场景
WM-ABench2025-原子评估多领域多原子测试
SmallWorld2025-隔离评估物理6大任务

3.2 评估维度覆盖对比

维度WorldModelBenchWorld-in-WorldWorldPredictionWorldLensWM-ABenchSmallWorld
视觉质量
指令遵循
物理遵循✅ (5大定律)✅ (原子)✅ (隔离)
动作控制
常识推理
任务成功
长视野预测
因果推理

3.3 开环 vs 闭环评估对比

┌─────────────────────────────────────────────────────────────────┐
│               开环评估 vs 闭环评估 — 权衡图                       │
│                                                                   │
│                          评估复杂性                               │
│                              ▲                                    │
│                              │                                    │
│           World-in-World    │    WorldModelBench                 │
│               ●             │              ●                     │
│                              │                                    │
│                              │                                    │
│                              │                                    │
│                              │                                    │
│   WorldPrediction ●         │                                    │
│                    ●         │         ● WorldLens               │
│                              │                                    │
│                              ▼                                    │
│  ◄─────────────────────────────────────────────────────►         │
│   开环                                                  闭环      │
│                              │                                    │
│   易于离线评估                      接近真实应用                   │
│   便于精确测量                      评估交互能力                   │
│   不反馈修正                        误差可纠正                     │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

4. 未来研究方向

4.1 跨领域泛化评估

当前基准多在单一领域评估,真实应用需要跨领域泛化能力:

评估设计需求

  • 训练集与测试集来自不同领域
  • 评估分布外(OOD)泛化能力
  • 测试对未见过的物理现象的适应能力

4.2 因果推理评估

现有评估主要关注相关性而非因果性

# 相关性评估 vs 因果性评估
correlation_metrics = ['correlation', 'mse', 'mae']  # 当前
causality_metrics = ['counterfactual', 'intervention', 'do-calculus']  # 需要
 
# 因果推理基准示例
class CausalReasoningBenchmark:
    """
    因果推理评估 — 未来方向
    """
    
    def evaluate_counterfactual(self, world_model, scenario):
        """
        评估反事实推理:
        "如果当初做了不同的选择,结果会怎样?"
        """
        # 原始轨迹
        original = world_model.rollout(scenario.initial, scenario.actions)
        
        # 反事实轨迹(改变某个动作)
        counterfactual = world_model.rollout(
            scenario.initial, 
            scenario.counterfactual_actions
        )
        
        # 评估因果归因
        causal_attribution = self.compute_causal_difference(
            original, counterfactual
        )
        
        return causal_attribution

4.3 安全与偏见评估

世界模型可能学到不安全的物理规律社会偏见

安全维度评估内容潜在风险
物理安全危险动作的可预测性生成危险场景
社会偏见对特定群体的行为偏见歧视性场景
幻觉检测物理上不可能的生成违反物理定律
对抗鲁棒性对输入扰动的敏感性被恶意操控
class SafetyEvaluationFramework:
    """
    安全评估框架 — 未来方向
    """
    
    def __init__(self):
        self.physics_validator = PhysicsValidator()
        self.social_bias_detector = SocialBiasDetector()
        self.adversarial_tester = AdversarialTester()
    
    def comprehensive_safety_check(self, world_model, scenarios):
        """
        综合安全检查
        """
        results = {
            'physics_safety': [],
            'social_bias': [],
            'adversarial_robustness': []
        }
        
        for scenario in scenarios:
            # 生成内容
            generated = world_model.generate(scenario)
            
            # 物理安全检查
            if not self.physics_validator.is_valid(generated):
                results['physics_safety'].append(False)
            
            # 社会偏见检查
            bias_score = self.social_bias_detector.check(generated)
            results['social_bias'].append(bias_score)
            
            # 对抗鲁棒性检查
            if self.adversarial_tester.can_fool(world_model, generated):
                results['adversarial_robustness'].append(False)
        
        return self.aggregate_safety_results(results)

5. 总结

5.1 关键洞见

  1. 闭环评估是未来:World-in-World 揭示了闭环评估的重要性,开环评估可能误导模型选择
  2. 可控性优于视觉质量:对动作的精确响应比渲染细节更关键
  3. 后训练的价值:对齐微调带来的提升超过架构改进
  4. 原子能力分解:WM-ABench 的原子评估有助于精准诊断模型弱点
  5. 隔离评估的必要性:SmallWorld 证明隔离复杂场景有助于理解模型物理建模能力

5.2 实践建议

┌─────────────────────────────────────────────────────────────────┐
│                    世界模型评估实践建议                            │
│                                                                   │
│  1. 多维度评估                                                   │
│     ┌─────────────────────────────────────────────────────────┐  │
│     │ 不要只看视觉质量,结合物理遵循、动作控制、任务成功        │  │
│     └─────────────────────────────────────────────────────────┘  │
│                                                                   │
│  2. 开环+闭环结合                                               │
│     ┌─────────────────────────────────────────────────────────┐  │
│     │ 离线评估用开环指标,部署前用闭环模拟                      │  │
│     └─────────────────────────────────────────────────────────┘  │
│                                                                   │
│  3. 选择合适基准                                                 │
│     ┌─────────────────────────────────────────────────────────┐  │
│     │ 物理分析 → SmallWorld                                  │  │
│     │ 驾驶场景 → WorldLens                                   │  │
│     │ 通用多领域 → WorldModelBench / World-in-World          │  │
│     │ 原子能力诊断 → WM-ABench                               │  │
│     └─────────────────────────────────────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

5.3 开放问题

问题描述研究价值
评估协议标准化如何建立类似 ImageNet 的统一基准
长视野评估如何准确评估超过100步的预测
因果评估如何系统评估因果推理能力
安全评估如何确保世界模型不生成危险内容
人类认知对齐如何衡量模型世界建模与人类认知的差异

参考


相关主题


最后更新:2026-05-06

Footnotes

  1. WorldModelBench Team. “WorldModelBench: Judging Video Generation Models As World Models”. CVPR 2025 Workshop. 2025.

  2. World-in-World Team. “World-in-World: A Closed-Loop Platform for World Model Evaluation”. NeurIPS 2025. 2025.

  3. WorldPrediction Team. “WorldPrediction: Benchmarking High-Level World Modeling and Program Planning”. ICLR 2025. 2025.

  4. WorldLens Team. “WorldLens: A Full-Spectrum Evaluation Framework for Driving World Models”. 2025.

  5. WM-ABench Team. “WM-ABench: Atomic Evaluation of World Models Inside VLMs”. 2025.

  6. SmallWorld Team. “SmallWorld: Isolated Dynamics Understanding for World Models”. 2025.