R-WoM：检索增强计算机使用Agent世界模型

概述

R-WoM（Retrieval-augmented World Model） 是一种针对计算机使用Agent（Computer-using Agent）设计的检索增强世界模型。该方法旨在解决大型语言模型（LLM）中的幻觉问题和静态知识局限，通过融合外部知识检索与基础世界模型模拟，显著提升Agent在复杂计算机环境中的规划与推理能力。

作为世界模型规划与推理融合研究的重要分支，R-WoM聚焦于如何让Agent在真实计算机环境中进行长期、可靠的状态预测与规划。

核心问题

LLM幻觉导致的复合误差

在计算机使用任务中，LLM需要模拟多步骤的操作序列。传统方法中，模型在每一步都基于内部知识进行状态预测，然而：

事实性错误：模型可能生成不存在的界面元素或错误的系统响应
误差累积：单步幻觉会在后续步骤中被放大，导致整体任务失败
难以纠正：缺乏外部验证机制，错误会持续传播

长期模拟性能迅速下降

计算机使用任务往往需要数十甚至数百步操作才能完成：

传统世界模型的预测准确率随步数增加呈指数级下降
第50步后的状态预测可能完全失效
Agent无法可靠地评估长期行动的后果

静态训练知识的局限性

LLM的训练知识具有时间截断性：

界面变化：操作系统、应用程序界面持续更新
版本差异：不同软件版本的操作方式可能完全不同
新工具：层出不穷的新工具和服务缺乏对应知识

核心能力评估

R-WoM的研究揭示了世界模型需要具备的两个核心能力，以及对应的评估方法。

未来状态预测

Agent必须能够准确预测执行某个操作后，目标系统状态将如何变化。这包括：

界面元素的变化（按钮状态、文本内容）
系统反馈（弹窗、提示信息）
文件系统状态变更
应用程序状态的转换

奖励估计

Agent需要评估当前状态距离目标状态的远近程度。这要求：

理解任务的最终目标
判断中间状态的合理性
识别关键里程碑的达成

任务评估体系

R-WoM提出了三个核心评估任务，用于全面衡量世界模型在计算机使用场景中的表现。

下一状态识别（Next State Identification）

给定当前状态和候选操作序列，模型需要预测下一个正确的系统状态。这测试了模型对操作效果的精确理解能力。

全程序规划对齐（Full Program Planning Alignment）

评估模型是否能够理解完整的任务目标，并生成与之对齐的操作序列。强调的是规划的整体一致性，而非单步准确性。

里程碑转换识别（Milestone Transition Recognition）

识别任务执行过程中的关键转换点——即达成某个子目标的状态。这对于长期任务的监控和重规划至关重要。

R-WoM方法

R-WoM的核心思想是：将事实性知识的检索与状态空间的模拟解耦。

架构设计

┌─────────────────────────────────────────────────────────┐
│                      R-WoM 架构                          │
├─────────────────────────────────────────────────────────┤
│                                                         │
│   ┌─────────────┐     ┌─────────────┐                  │
│   │  外部知识库  │────▶│   检索模块   │                  │
│   └─────────────┘     └──────┬──────┘                  │
│                              │                          │
│                              ▼                          │
│   ┌─────────────┐     ┌─────────────┐     ┌──────────┐ │
│   │  基础LLM    │◀───▶│  融合层     │────▶│  世界    │ │
│   │  模拟器     │     │            │     │  模型    │ │
│   └─────────────┘     └─────────────┘     └──────────┘ │
│                                                         │
└─────────────────────────────────────────────────────────┘

工作流程

外部知识检索：从教程文档、API参考、用户手册等来源检索最新、最准确的事实性知识
知识融合：将检索结果与基础LLM的推理能力结合
状态模拟：基于融合后的知识进行可靠的状态预测
规划生成：利用改进后的世界模型生成高质量行动序列

与传统方法的区别

方面	传统世界模型	R-WoM
知识来源	仅依赖内部参数知识	融合外部动态知识
幻觉处理	无机制	检索事实纠正
长期预测	迅速退化	保持稳定
适应能力	差	强

实验结果

R-WoM在两个主流计算机使用Agent基准测试上进行了评估。

OSWorld基准测试

OSWorld是一个包含多种操作系统任务的评估环境，涵盖文件系统操作、应用程序使用、跨应用工作流等场景。

指标	基线模型	R-WoM	改进幅度
任务完成率	基准	基准+23.4%	相对改进23.4%

WebArena基准测试

WebArena模拟真实网页环境，评估Agent完成购物、社交、信息检索等网络任务的能力。

指标	基线模型	R-WoM	改进幅度
任务完成率	基准	基准+16.3%	相对改进16.3%

长期模拟优势

R-WoM的优势在长期任务模拟中尤为明显：

在需要50步以上操作的任务中，改进幅度显著高于短期任务
预测误差的累积速度大幅降低
Agent能够更准确地评估复杂任务的成功概率

参考来源

本文档基于R-WoM研究论文整理，聚焦于检索增强世界模型在计算机使用场景中的应用。

Metaphor

探索