概述

R-WoM(Retrieval-augmented World Model) 是一种针对计算机使用Agent(Computer-using Agent)设计的检索增强世界模型。该方法旨在解决大型语言模型(LLM)中的幻觉问题静态知识局限,通过融合外部知识检索与基础世界模型模拟,显著提升Agent在复杂计算机环境中的规划与推理能力。

作为世界模型规划与推理融合研究的重要分支,R-WoM聚焦于如何让Agent在真实计算机环境中进行长期、可靠的状态预测与规划。

核心问题

LLM幻觉导致的复合误差

在计算机使用任务中,LLM需要模拟多步骤的操作序列。传统方法中,模型在每一步都基于内部知识进行状态预测,然而:

  • 事实性错误:模型可能生成不存在的界面元素或错误的系统响应
  • 误差累积:单步幻觉会在后续步骤中被放大,导致整体任务失败
  • 难以纠正:缺乏外部验证机制,错误会持续传播

长期模拟性能迅速下降

计算机使用任务往往需要数十甚至数百步操作才能完成:

  • 传统世界模型的预测准确率随步数增加呈指数级下降
  • 第50步后的状态预测可能完全失效
  • Agent无法可靠地评估长期行动的后果

静态训练知识的局限性

LLM的训练知识具有时间截断性:

  • 界面变化:操作系统、应用程序界面持续更新
  • 版本差异:不同软件版本的操作方式可能完全不同
  • 新工具:层出不穷的新工具和服务缺乏对应知识

核心能力评估

R-WoM的研究揭示了世界模型需要具备的两个核心能力,以及对应的评估方法。

未来状态预测

Agent必须能够准确预测执行某个操作后,目标系统状态将如何变化。这包括:

  • 界面元素的变化(按钮状态、文本内容)
  • 系统反馈(弹窗、提示信息)
  • 文件系统状态变更
  • 应用程序状态的转换

奖励估计

Agent需要评估当前状态距离目标状态的远近程度。这要求:

  • 理解任务的最终目标
  • 判断中间状态的合理性
  • 识别关键里程碑的达成

任务评估体系

R-WoM提出了三个核心评估任务,用于全面衡量世界模型在计算机使用场景中的表现。

下一状态识别(Next State Identification)

给定当前状态和候选操作序列,模型需要预测下一个正确的系统状态。这测试了模型对操作效果的精确理解能力。

全程序规划对齐(Full Program Planning Alignment)

评估模型是否能够理解完整的任务目标,并生成与之对齐的操作序列。强调的是规划的整体一致性,而非单步准确性。

里程碑转换识别(Milestone Transition Recognition)

识别任务执行过程中的关键转换点——即达成某个子目标的状态。这对于长期任务的监控和重规划至关重要。

R-WoM方法

R-WoM的核心思想是:将事实性知识的检索与状态空间的模拟解耦

架构设计

┌─────────────────────────────────────────────────────────┐
│                      R-WoM 架构                          │
├─────────────────────────────────────────────────────────┤
│                                                         │
│   ┌─────────────┐     ┌─────────────┐                  │
│   │  外部知识库  │────▶│   检索模块   │                  │
│   └─────────────┘     └──────┬──────┘                  │
│                              │                          │
│                              ▼                          │
│   ┌─────────────┐     ┌─────────────┐     ┌──────────┐ │
│   │  基础LLM    │◀───▶│  融合层     │────▶│  世界    │ │
│   │  模拟器     │     │            │     │  模型    │ │
│   └─────────────┘     └─────────────┘     └──────────┘ │
│                                                         │
└─────────────────────────────────────────────────────────┘

工作流程

  1. 外部知识检索:从教程文档、API参考、用户手册等来源检索最新、最准确的事实性知识
  2. 知识融合:将检索结果与基础LLM的推理能力结合
  3. 状态模拟:基于融合后的知识进行可靠的状态预测
  4. 规划生成:利用改进后的世界模型生成高质量行动序列

与传统方法的区别

方面传统世界模型R-WoM
知识来源仅依赖内部参数知识融合外部动态知识
幻觉处理无机制检索事实纠正
长期预测迅速退化保持稳定
适应能力

实验结果

R-WoM在两个主流计算机使用Agent基准测试上进行了评估。

OSWorld基准测试

OSWorld是一个包含多种操作系统任务的评估环境,涵盖文件系统操作、应用程序使用、跨应用工作流等场景。

指标基线模型R-WoM改进幅度
任务完成率基准基准+23.4%相对改进23.4%

WebArena基准测试

WebArena模拟真实网页环境,评估Agent完成购物、社交、信息检索等网络任务的能力。

指标基线模型R-WoM改进幅度
任务完成率基准基准+16.3%相对改进16.3%

长期模拟优势

R-WoM的优势在长期任务模拟中尤为明显:

  • 在需要50步以上操作的任务中,改进幅度显著高于短期任务
  • 预测误差的累积速度大幅降低
  • Agent能够更准确地评估复杂任务的成功概率

相关研究

R-WoM与以下研究方向密切相关:

参考来源


本文档基于R-WoM研究论文整理,聚焦于检索增强世界模型在计算机使用场景中的应用。