概述
R-WoM(Retrieval-augmented World Model) 是一种针对计算机使用Agent(Computer-using Agent)设计的检索增强世界模型。该方法旨在解决大型语言模型(LLM)中的幻觉问题和静态知识局限,通过融合外部知识检索与基础世界模型模拟,显著提升Agent在复杂计算机环境中的规划与推理能力。
作为世界模型规划与推理融合研究的重要分支,R-WoM聚焦于如何让Agent在真实计算机环境中进行长期、可靠的状态预测与规划。
核心问题
LLM幻觉导致的复合误差
在计算机使用任务中,LLM需要模拟多步骤的操作序列。传统方法中,模型在每一步都基于内部知识进行状态预测,然而:
- 事实性错误:模型可能生成不存在的界面元素或错误的系统响应
- 误差累积:单步幻觉会在后续步骤中被放大,导致整体任务失败
- 难以纠正:缺乏外部验证机制,错误会持续传播
长期模拟性能迅速下降
计算机使用任务往往需要数十甚至数百步操作才能完成:
- 传统世界模型的预测准确率随步数增加呈指数级下降
- 第50步后的状态预测可能完全失效
- Agent无法可靠地评估长期行动的后果
静态训练知识的局限性
LLM的训练知识具有时间截断性:
- 界面变化:操作系统、应用程序界面持续更新
- 版本差异:不同软件版本的操作方式可能完全不同
- 新工具:层出不穷的新工具和服务缺乏对应知识
核心能力评估
R-WoM的研究揭示了世界模型需要具备的两个核心能力,以及对应的评估方法。
未来状态预测
Agent必须能够准确预测执行某个操作后,目标系统状态将如何变化。这包括:
- 界面元素的变化(按钮状态、文本内容)
- 系统反馈(弹窗、提示信息)
- 文件系统状态变更
- 应用程序状态的转换
奖励估计
Agent需要评估当前状态距离目标状态的远近程度。这要求:
- 理解任务的最终目标
- 判断中间状态的合理性
- 识别关键里程碑的达成
任务评估体系
R-WoM提出了三个核心评估任务,用于全面衡量世界模型在计算机使用场景中的表现。
下一状态识别(Next State Identification)
给定当前状态和候选操作序列,模型需要预测下一个正确的系统状态。这测试了模型对操作效果的精确理解能力。
全程序规划对齐(Full Program Planning Alignment)
评估模型是否能够理解完整的任务目标,并生成与之对齐的操作序列。强调的是规划的整体一致性,而非单步准确性。
里程碑转换识别(Milestone Transition Recognition)
识别任务执行过程中的关键转换点——即达成某个子目标的状态。这对于长期任务的监控和重规划至关重要。
R-WoM方法
R-WoM的核心思想是:将事实性知识的检索与状态空间的模拟解耦。
架构设计
┌─────────────────────────────────────────────────────────┐
│ R-WoM 架构 │
├─────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────┐ ┌─────────────┐ │
│ │ 外部知识库 │────▶│ 检索模块 │ │
│ └─────────────┘ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ ┌─────────────┐ ┌──────────┐ │
│ │ 基础LLM │◀───▶│ 融合层 │────▶│ 世界 │ │
│ │ 模拟器 │ │ │ │ 模型 │ │
│ └─────────────┘ └─────────────┘ └──────────┘ │
│ │
└─────────────────────────────────────────────────────────┘
工作流程
- 外部知识检索:从教程文档、API参考、用户手册等来源检索最新、最准确的事实性知识
- 知识融合:将检索结果与基础LLM的推理能力结合
- 状态模拟:基于融合后的知识进行可靠的状态预测
- 规划生成:利用改进后的世界模型生成高质量行动序列
与传统方法的区别
| 方面 | 传统世界模型 | R-WoM |
|---|---|---|
| 知识来源 | 仅依赖内部参数知识 | 融合外部动态知识 |
| 幻觉处理 | 无机制 | 检索事实纠正 |
| 长期预测 | 迅速退化 | 保持稳定 |
| 适应能力 | 差 | 强 |
实验结果
R-WoM在两个主流计算机使用Agent基准测试上进行了评估。
OSWorld基准测试
OSWorld是一个包含多种操作系统任务的评估环境,涵盖文件系统操作、应用程序使用、跨应用工作流等场景。
| 指标 | 基线模型 | R-WoM | 改进幅度 |
|---|---|---|---|
| 任务完成率 | 基准 | 基准+23.4% | 相对改进23.4% |
WebArena基准测试
WebArena模拟真实网页环境,评估Agent完成购物、社交、信息检索等网络任务的能力。
| 指标 | 基线模型 | R-WoM | 改进幅度 |
|---|---|---|---|
| 任务完成率 | 基准 | 基准+16.3% | 相对改进16.3% |
长期模拟优势
R-WoM的优势在长期任务模拟中尤为明显:
- 在需要50步以上操作的任务中,改进幅度显著高于短期任务
- 预测误差的累积速度大幅降低
- Agent能够更准确地评估复杂任务的成功概率
相关研究
R-WoM与以下研究方向密切相关:
参考来源
本文档基于R-WoM研究论文整理,聚焦于检索增强世界模型在计算机使用场景中的应用。