概述

WM-ABench(World Model Atomic Evaluation Benchmark)是Maitrix.org、加州大学圣地亚哥分校、约翰霍普金斯大学、康奈尔科技、洛桑联邦理工学院和密歇根大学等机构联合提出的大规模世界模型评估基准world-model-benchmarks-2025。该基准受比较心理学和认知科学的启发,旨在系统性地评估视觉语言模型(Vision-Language Models,VLMs)是否具备真正的内部世界模型能力。

内部世界模型(World Models,WMs)使智能体能够理解世界状态并预测状态转换,是高级推理决策的基础。尽管GPT-4o、Gemini、OpenAI o3等大型视觉语言模型展现出作为通用世界模型的潜力,但此前缺乏对VLM基本世界建模能力的系统性评估。

两阶段评估框架

WM-ABench的核心是一个两阶段认知框架,将世界建模过程分解为感知与预测两个独立阶段:

感知阶段(Perception Stage)

感知阶段评估模型如何从视觉输入中提取并组织世界状态的内部表示,包括五个维度:

感知维度描述
视觉感知颜色、形状、材质等视觉属性识别
空间感知三维空间定位和空间关系理解
时间感知时间顺序和事件发生先后判断
数量感知物体计数和数量关系推理
运动感知运动检测和轨迹识别

预测阶段(Prediction Stage)

预测阶段评估模型如何利用感知表示来预测未来世界状态,包括三种推理能力:

预测维度描述
机械模拟物理交互预测(碰撞、滑动、掉落等)
传递推理顺序动作的因果链推理
组合推理多物体、多动作同时发生的复杂场景预测

这种两阶段分解使得评估能够精确定位模型的能力缺陷:是感知层面的问题还是预测层面的问题。

WM-ABench基准特性

规模与范围

WM-ABench具有以下关键特性:

  • 23个细粒度评估维度:覆盖世界建模的各个原子能力
  • 6个多样化模拟环境:ThreeDWorld、ManiSkill 2&3、Habitat Lab 2.0、Physion和CARLA等
  • 超过100,000个测试实例:确保评估的统计可靠性
  • 控制反事实模拟:精心设计对照实验,排除干扰因素

任务设计

每个测试实例包含:

  • 视频帧序列(初始场景或完整运动序列)
  • 四选一选择题
  • 硬负例选项:视觉上相似但物理上错误的答案,防止模型通过视觉相似性”作弊”
  • 丰富的物体属性和场景设置元数据

评估协议

为确保评估的公平性和可重复性:

  • 所有配置仅有test划分
  • 提供_subset版本(100个实例)用于快速评估
  • 真实标签通过程序化方式生成

实验发现

研究团队对15个最新的商业和开源VLM进行了660次对照实验,揭示了当前模型在世界建模能力上的显著局限性。

发现一:VLM倾向于纠缠无关物理概念

当控制其他维度不变而仅改变某一维度(如颜色)时,模型在几乎所有维度上的感知都会受到影响,包括物体大小和运动速度等。系统评估表明,颜色和形状是跨任务最具影响力的属性

例如,某些模型表现出一种”颜色-速度偏见”:蓝色物体被认为比绿色物体移动得更快,即使两者的实际运动完全相同。这种现象表明模型缺乏解纠缠的(disentangled)世界模型表示,无法将无关属性与物理属性正确分离。

发现二:准确感知不能保证准确预测

即使模型完美地感知当前状态,它们在三个预测任务上仍然失败。这表明感知错误并非预测失败的唯一原因——模型缺乏模拟物体交互所需的基本物理知识

具体而言:

  • 模型能够识别场景中的物体及其属性
  • 模型能够理解物体的空间位置
  • 但模型无法正确预测这些物体在物理定律下的行为

发现三:运动轨迹区分接近随机准确率

几乎所有模型在区分运动轨迹上的准确率都接近随机水平(25%)。这意味着当前的VLM:

  • 缺乏对时间连续性的精确建模能力
  • 无法可靠地追踪和预测物体运动路径
  • 在需要精确物理模拟的任务上存在根本性缺陷

发现四:与人类水平存在显著差距

综合所有评估维度的结果表明,当前最先进的VLM与世界建模能力的人类水平之间存在显著差距。这一发现对于依赖这些模型进行自动驾驶、机器人控制、物理推理等安全关键应用的场景具有重要启示。

实验结果示例

以下是部分任务上的平均准确率对比(节选):

模型户外导航室内导航碰撞滑动掉落机械臂操作
GPT-4o~55%~48%~35%~42%~38%~33%
Gemini 1.5~52%~45%~33%~40%~36%~31%
Claude 3~50%~44%~32%~38%~35%~30%

注:上述数值为示意性数据,实际结果请参考原论文。

研究意义与启示

WM-ABench的提出填补了VLM世界建模能力系统评估的空白,其意义体现在:

  1. 诊断工具:帮助研究社区精确定位模型的能力缺陷
  2. 发展路线图:为下一代世界模型的设计提供改进方向
  3. 应用警示:提醒下游应用不要过度依赖当前VLM的世界建模能力

参考文献