World-in-World：闭环世界模型评估

引言

生成式世界模型（World Models）已能生成高度逼真的视觉内容，这自然引出一个关键问题：它们能否为具身智能体提供用于决策的预测感知能力？然而，现有评估体系存在严重碎片化问题——大多数基准测试采用开环协议，孤立地强调视觉质量，而忽视了具身效用这一核心问题，即：世界模型是否真正帮助智能体完成具身任务？

World-in-World（简称WiW）应运而生，成为首个在闭环世界中评估世界模型的开放平台。¹

World-in-World概述

核心定位

World-in-World是一个将生成式世界模型封装在闭环世界界面中的基准测试平台，用于衡量它们对具身智能体的实际效用。与以往专注于生成质量的工作不同，WiW开发了一个预测-控制框架，测试世界模型在在线决策中的表现能力。

解决碎片化问题

现有评估体系存在明显缺陷：

基准测试	评估重点	局限性
VBench	视频生成质量	仅关注生成指标
WorldModelBench	视觉 plausibility	开环评估
WorldScore	图像+相机轨迹评估	缺乏具身交互测试

WiW填补了这一空白，首次在真实具身交互闭环中测试世界模型的实际价值。

聚焦任务成功

WiW将任务成功率作为首要评估指标，而非视觉完美度。这一理念在Figure 2中有力体现：视觉质量高的模型并不一定能带来高成功率。

核心设计

统一在线规划策略

WiW采用统一的闭环在线规划策略，核心流程包含三个阶段：提案（Proposal）、仿真（Simulation）、修订（Revision）。

在提案阶段，智能体基于当前观察 $o_{t}$ 和任务目标 $g$ 生成 $M$ 个候选动作序列：

\hat{A}_{t}^{(m)} \sim π_{proposal} (A ∣ o_{t}, g), m = 1, \dots, M

在仿真阶段，世界模型 $g_{θ}$ 根据候选计划预测未来世界状态：

\hat{O}_{t}^{(m)} \sim g_{θ} (O ∣ o_{t}, I_{t}^{(m)})

在修订阶段，修订策略 $π_{revision}$ 评估所有 rollout，选择最大化预期奖励的决策：

D_{t}^{⋆} = π_{revision} ({(\hat{A}_{t}^{(m)}, \hat{O}_{t}^{(m)})}_{m = 1}^{M}, o_{t}, g)

这一框架本质上是一个策略引导的束搜索（Policy-Guided Beam Search），比经典模型预测控制（MPC）更具通用性。

标准化动作API

统一动作API将动作序列 $A$ 转换为世界模型期望的控制输入 $I = C (A)$ ，支持三种主要控制信息类型：

文本提示（Text Prompt）：为图像-文本到视频的世界模型生成描述性文本
相机轨迹/视角（Camera Trajectory）：将动作翻译为相机轨迹，如平移0.2m、旋转22.5°
低级动作（Low-level Actions）：直接映射到世界模型的动作词表

四个闭环环境

WiW精心挑选了四个代表性具身任务，涵盖多个领域并考验不同能力：

1. 主动识别（Active Recognition, AR）

智能体需要在遮挡或极端视角下识别指定目标，同时最小化导航成本。在Habitat-Sim中进行，包含551个回合，场景来自Matterport3D验证集。

智能体根据单张参考图像到达目标位置。从HM3D验证集的87个场景中构建了144个导航回合。

3. 主动具身问答（Active Embodied QA, A-EQA）

智能体在主动探索3D环境后回答开放式自然语言问题。评估集包含54个室内场景中的184个问题。

4. 机器人操控（Robotic Manipulation）

评估智能体控制机械臂完成抓取、放置等任务的能力。在RLBench上测试4个任务，每任务50个回合。

数据规模定律

WiW首次提出了具身场景下世界模型的数据规模定律。研究证明，增加动作-观察后训练数据的规模能够显著提升模型性能，这为世界模型的训练优化提供了重要指导。

三大意外发现（Surprise Findings）

Surprise 1：视觉质量 ≠ 任务成功，可控性更重要

这一发现颠覆了”更逼真=更好用”的直觉。实验表明：

高视觉质量并不一定能转化为强任务成功率
可控性（Controllability） 是决定任务成功的关键因素
模型能够精确响应动作输入比渲染完美画面更重要

如图所示，世界模型的成功取决于闭环成功与否，而非生成的视觉效果是否完美。

Surprise 2：后训练比升级预训练视频生成器更有效

研究对比了两种提升路径：

路径	描述	效果
升级预训练视频生成器	使用更强大的视频生成模型	有限提升
后训练（Post-Training）	在动作-观察数据上微调	显著提升

结论：扩展后训练的action-observation数据比单纯升级预训练视频生成器更有效。WiW提出的后训练流程将预训练视频生成器与目标环境领域分布和动作空间对齐，验证了这一策略的优越性。

Surprise 3：更多推理时计算显著提升闭环性能

通过在线规划策略，智能体可以在决策时进行更多计算：

增加搜索宽度（更多候选计划 $M$ ） 带来显著性能提升
更长的预测视野（Longer horizon） 改善决策质量
推理时计算扩展是弥补模型能力不足的有效途径

这表明，推理时投入更多计算资源可以让世界模型大幅提升闭环决策能力。

与其他基准对比

vs WorldModelBench

维度	WorldModelBench	World-in-World
评估范式	开环（Open-loop）	闭环（Closed-loop）
核心指标	视觉质量	任务成功率
交互能力	不测试	完整测试
决策支持	无	完整支持

WorldModelBench是一个静态的开环评估平台，侧重于视频帧的视觉 plausibility；WiW则构建了完整的智能体-环境交互闭环。

vs 开环协议

开环评估的核心缺陷：

缺乏反馈机制：无法模拟真实场景中”感知-规划-执行”的闭环交互
忽略累积误差：小错误不会在开环中被放大和纠正
脱离具身决策：无法验证模型在实际任务中的可用性

WiW通过在线规划策略确保每次决策都基于最新的环境观察，形成真正的闭环反馈。

总结

World-in-World作为首个闭环世界模型评估平台，为具身智能研究提供了以下关键贡献：

填补评估空白：首次从具身交互角度评估视觉世界模型
统一评估框架：通过标准化API和在线规划策略，实现跨模型的公平比较
揭示关键洞察：三个意外发现深刻挑战了”视觉质量至上”的传统认知
指明优化方向：后训练策略和推理时计算扩展为实际应用提供了可行路径

正如论文标题所示：“World Models live and die by their closed-loop success, not flawless generated visuals.”（世界模型的成功与失败取决于闭环任务表现，而非完美生成的视觉效果。）¹

World-in-World: World Models in a Closed-Loop World, arXiv:2510.18135, ICLR 2026 Oral. 论文链接：arXiv | 项目主页 | GitHub ↩ ↩²

Metaphor

探索

World-in-World：闭环世界模型评估

引言

World-in-World概述

核心定位

解决碎片化问题

聚焦任务成功

核心设计

统一在线规划策略

标准化动作API

四个闭环环境

1. 主动识别（Active Recognition, AR）

2. 图像目标导航（Image-Goal Navigation, ImageNav）

3. 主动具身问答（Active Embodied QA, A-EQA）

4. 机器人操控（Robotic Manipulation）

数据规模定律

三大意外发现（Surprise Findings）

Surprise 1：视觉质量 ≠ 任务成功，可控性更重要

Surprise 2：后训练比升级预训练视频生成器更有效

Surprise 3：更多推理时计算显著提升闭环性能

与其他基准对比

vs WorldModelBench

vs 开环协议

总结

关系图谱

目录

Metaphor

探索

World-in-World：闭环世界模型评估

引言

World-in-World概述

核心定位

解决碎片化问题

聚焦任务成功

核心设计

统一在线规划策略

标准化动作API

四个闭环环境

1. 主动识别（Active Recognition, AR）

2. 图像目标导航（Image-Goal Navigation, ImageNav）

3. 主动具身问答（Active Embodied QA, A-EQA）

4. 机器人操控（Robotic Manipulation）

数据规模定律

三大意外发现（Surprise Findings）

Surprise 1：视觉质量 ≠ 任务成功，可控性更重要

Surprise 2：后训练比升级预训练视频生成器更有效

Surprise 3：更多推理时计算显著提升闭环性能

与其他基准对比

vs WorldModelBench

vs 开环协议

总结

Footnotes

关系图谱

目录