概述

EO-1(Embodied One)是上海人工智能实验室(Shanghai AI Lab)联合复旦大学、AgiBot、西北工业大学于 2025 年发布的开放统一具身基础模型,旨在赋予自主机器人类人的多模态推理与物理交互能力。12

EO-1 的核心创新在于提出交错视觉-文本-动作(Interleaved Vision-Text-Action)预训练范式,在统一 decoder-only Transformer 架构内同时支持自回归(AR)和 Flow Matching 两种动作生成范式,无需改变模型权重即可在推理时灵活切换。该工作开源了模型权重(3B 参数)、完整训练代码和大规模交错数据集 EO-Data-1.5M,为具身智能社区提供了重要的开放基础设施。13


1. 研究背景与动机

1.1 现有 VLA 模型的局限性

视觉-语言-动作(Vision-Language-Action, VLA)模型在大规模机器人与视觉-文本数据联合训练后,在通用机器人控制任务上取得了显著进展。然而,当前主流方案存在以下共性问题:

问题描述
范式割裂自回归(AR)和扩散/Flow Matching 范式各自独立发展,模型无法同时掌握两种生成方式
架构碎片化许多方案引入额外的 action head 或修改 VLM 词汇表,增加部署复杂度
数据利用率低视觉、文本、动作三种模态的时序关联与因果依赖未被充分建模
开源不充分多数模型仅提供推理接口,训练流程和大规模数据不可复现

1.2 核心目标

EO-1 旨在构建一个统一、开放、可扩展的具身基础模型:

  • 在单一模型内同时支持 AR 和 Flow Matching 动作生成
  • 采用 decoder-only Transformer 架构,复用成熟 VLM 能力
  • 通过交错预训练建模视觉-文本-动作的时序因果关系
  • 开源模型、代码与 1.5M 条轨迹的大规模数据集

2. 核心创新:交错视觉-文本-动作预训练

2.1 什么是交错预训练?

传统 VLA 模型的训练通常将动作视为离散 token 序列,纯粹用自回归方式生成(如 RT-24)。另一种路线则采用扩散模型或 Flow Matching 来建模连续动作分布(如 Diffusion Policy5、Octo6)。

EO-1 提出的交错预训练(Interleaved Vision-Text-Action Pretraining)将视觉、语言和动作三种模态视为一个统一的序列,在预训练阶段同时学习:

  1. 视觉-语言对齐:理解场景图像与自然语言指令的语义关联
  2. 动作序列建模:预测连续动作的时序演化
  3. 跨模态因果依赖:建模视觉观测 → 语言推理 → 动作执行的完整因果链

具体而言,训练序列的格式如下:

[Vision Tokens] [Language Tokens] [Action Tokens] [Vision Tokens] [Language Tokens] [Action Tokens] ...

这种交错结构确保模型在生成每个动作 token 时,既能感知当前视觉状态,又能参考历史文本指令和动作上下文。

2.2 自回归 vs. Flow Matching 的统一建模

EO-1 的关键突破在于:同一套模型权重可以同时用于 AR 和 Flow Matching 推理

自回归(AR)模式

在 AR 模式下,模型将动作序列视为离散 token,采用标准 next-token prediction 损失:

其中 为第 步动作, 为视觉上下文, 为语言指令。

Flow Matching(FM)模式

Flow Matching 是一种新兴的连续动作生成范式,通过学习从噪声分布到数据分布的常微分方程(ODE)路径来生成动作序列。EO-1 在不改变模型架构的情况下,通过条件调节机制使同一模型支持 FM 推理:

  • 将 Flow Matching 的时间步 和条件向量注入到模型的 attention 机制中
  • 模型学习预测在给定时间步下的动作隐变量
  • 推理时通过 ODE 求解器沿学习到的向量场从噪声推进到干净动作

这种设计使得 EO-1 可以根据任务需求和部署场景灵活选择生成范式,而无需重新训练或加载不同模型。


3. 统一 Decoder-Only Transformer 架构

3.1 整体架构

EO-1 采用 decoder-only Transformer 作为统一架构,主体基于 Qwen2.5-VL-3B-Instruct 作为视觉-语言 backbone。模型总参数量为 3B3

┌─────────────────────────────────────────────────────────────┐
│                     EO-1 统一架构 (3B)                       │
├─────────────────────────────────────────────────────────────┤
│  ┌─────────────┐                                            │
│  │ Vision Input │ ──► Vision Encoder (Qwen2.5-VL)           │
│  │ (多视角图像) │                                            │
│  └─────────────┘           │                                 │
│  ┌─────────────┐           ▼                                 │
│  │ Language    │ ──► Embedding Layer                        │
│  │ Instruction │           │                                 │
│  └─────────────┘           │                                 │
│  ┌─────────────┐           ▼                                 │
│  │ Action      │ ──► Action Token Embedding                 │
│  │ Sequence    │           │                                 │
│  └─────────────┘           ▼                                 │
│                   ┌────────────────┐                         │
│                   │  Decoder-Only  │ ◄── 统一 Transformer   │
│                   │  Transformer   │     (交错输入序列)       │
│                   │  (L layers)   │                         │
│                   └───────┬────────┘                         │
│                           ▼                                  │
│                   ┌────────────────┐                         │
│                   │   Output Head  │                         │
│                   │  ─────────────  │                         │
│                   │  [AR Head]     │ ◄── 自回归动作预测      │
│                   │  [FM Head]     │ ◄── Flow Matching 条件  │
│                   └────────────────┘                         │
└─────────────────────────────────────────────────────────────┘

架构要点

  • 视觉编码器:复用 Qwen2.5-VL 的视觉 backbone,支持多视角图像输入
  • Embedding 层:视觉 token、语言 token 和动作 token 共享统一 embedding 空间
  • 统一 Transformer:标准的 causal Transformer,解码时自回归生成
  • 双范式输出头:AR 模式直接预测离散动作 token;FM 模式输出 Flow Matching 条件向量

3.2 动作表示

EO-1 将连续动作建模为可学习的动作 token,通过以下方式融入语言模型框架:

  1. 在预训练过程中为每个连续动作维度分配一组可学习的 embedding
  2. 将多步动作序列展平为 token 序列,与语言 token 交错排列
  3. AR 推理时作为标准语言模型预测下一个动作 token
  4. FM 推理时通过时间步条件调节预测动作的隐变量演化

这种设计避免了传统 VLA 中修改 VLM 词汇表或添加专用 action head 的做法,保持了架构的简洁性和通用性。

3.3 架构设计原则

EO-1 的架构设计遵循以下核心原则:

原则实现方式
最小侵入复用成熟 VLM backbone,不修改预训练权重的主干结构
统一表示视觉、语言、动作共享统一的 token 化表示空间
范式无关单一模型支持 AR 和 FM 两种推理范式
可扩展基于标准 decoder-only 架构,便于扩展到更大规模

4. 训练数据与流程

4.1 EO-Data-1.5M 数据集

EO-1 的训练依赖于团队开源的大规模交错视觉-文本-动作数据集 EO-Data-1.5M,这是目前最大的开放具身多模态数据集之一。7

数据集包含 150 万条以上的机器人轨迹,涵盖:

  • AgiBot-World:大规模双臂机器人操作数据
  • Bridge Dataset:厨房任务的人类遥操作数据
  • DROID:多样化家庭场景数据
  • LLaVA 系列:视觉-语言预训练数据(用于保持语言理解能力)
  • RoboVQA:机器人视觉问答数据
  • RoboMIND:人形机器人数据
  • EO-Data1.5M:团队自建的高质量交错数据

该数据集的核心特点是强调时序动态性和跨模态因果依赖,不仅仅是简单的动作-状态对,而是包含了完整的视觉观测序列、语言指令和动作序列的交错标注。

4.2 预训练流程

EO-1 的训练分为两个阶段:

第一阶段:VLM 能力保持

  • 在大规模视觉-语言数据上进行继续预训练
  • 保持 Qwen2.5-VL 的语言理解、视觉感知和推理能力

第二阶段:交错视觉-文本-动作联合训练

  • 在机器人轨迹数据与视觉-语言数据上进行混合训练
  • 通过交错输入格式建模跨模态因果关系
  • 同时优化 AR 损失和 FM 条件预测损失

5. 实验结果

5.1 LIBERO Benchmark

EO-1 在具身智能领域广泛使用的 LIBERO benchmark 上进行了系统评估。LIBERO 包含多个任务套件,测试模型在不同空间参照、目标对象和指令复杂度下的泛化能力。1

实验设置说明
LIBERO-Spatial测试空间关系推理(如”把杯子放到左侧”)
LIBERO-Object测试物体操控泛化(不同物体类别)
LIBERO-Social测试多人协作与社会交互场景
LIBERO-Long测试长时序任务规划与执行

实验结果表明,EO-1 在多个任务套件上相比基线方法取得了显著提升,尤其是在需要复杂推理和长时序规划的任务中表现突出。1

5.2 与其他 VLA 模型的对比

模型参数量架构类型生成范式开源数据规模
EO-13BDecoder-onlyAR + FM✅ 完全开源1.5M 轨迹
OpenVLA87BDecoder-onlyAR✅ 开源权重~550K 轨迹
RT-2455B (PaLM-E)VLAAR❌ 未开源~130K 轨迹
Octo693M-1.2BTransformer扩散✅ 开源~800K 轨迹
π093BTransformer扩散❌ 未开源~30K 轨迹
VLA-010-VLAAR部分开源-

EO-1 的优势在于:

  • 最小的可部署规模:3B 参数即可达到优异性能,适合实际机器人部署
  • 双范式支持:业界首次实现单一模型同时支持 AR 和 FM
  • 完全开源:模型权重、训练代码和数据集全部开源

5.3 开放世界泛化能力

除仿真 benchmark 外,EO-1 还在真实机器人上进行了开放世界任务测试,展示了:

  • 对新颖物体和场景的自然语言指令泛化
  • 复杂多步任务的长时序规划与执行
  • 跨不同机器人本体(双臂、人形)的迁移能力

6. 开源生态

6.1 资源链接

6.2 开源内容

  • 3B 参数模型权重:基于 Qwen2.5-VL-3B-Instruct,支持 HuggingFace Transformers 加载
  • 完整训练代码:包括交错预训练、AR 和 FM 推理的完整实现
  • EO-Data-1.5M 数据集:1.5M+ 条轨迹的大规模交错多模态机器人数据
  • 预训练模型变体:针对 Bridge 等特定数据集微调的版本

7. 技术意义与未来展望

7.1 主要贡献

EO-1 为具身智能领域提供了以下核心贡献:

  1. 范式统一:首次在单一 decoder-only 模型内同时实现 AR 和 Flow Matching 动作生成
  2. 交错预训练范式:提出建模视觉-文本-动作时序因果依赖的统一训练框架
  3. 最小化架构改动:基于成熟 VLM 的简洁设计,便于社区复现和改进
  4. 开放基础设施:提供从模型、数据到代码的完整开源工具链

7.2 局限性

  • 当前模型规模(3B)在处理极长时序任务和极高复杂度指令时仍有提升空间
  • Flow Matching 推理效率相比 AR 仍有差距,实际部署中需要权衡速度和精度
  • 数据集虽然规模大,但覆盖的任务类型和场景多样性仍有限

7.3 未来方向

  • 扩展到更大规模模型(7B+)以提升推理能力
  • 探索 AR 和 FM 的自适应切换机制
  • 在更多真实机器人平台和开放世界场景中验证泛化能力
  • 联合社区力量扩展 EO-Data 数据集的覆盖范围

参考文献

Footnotes

  1. Qu, D., Song, H., Chen, Q., et al. EO-1: An Open Unified Embodied Foundation Model for General Robot Control. arXiv:2508.21112, 2025. (arXiv) 2 3 4

  2. EO Robotics. EO-1 Official Website. https://eo-robotics.ai/eo-1

  3. IPEC-COMMUNITY. EO-1-3B Model on HuggingFace. https://huggingface.co/IPEC-COMMUNITY/EO-1-3B 2

  4. Brohan, A., et al. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv:2307.15818, 2023. 2

  5. Chi, C., et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. RSS, 2023.

  6. Octo Model Team. Octo: An Open-Source Generalist Robot Policy. arXiv:2405.12213, 2024. 2

  7. IPEC-COMMUNITY. EO-Data1.5M Dataset on HuggingFace. https://huggingface.co/datasets/IPEC-COMMUNITY/EO-Data1.5M

  8. Kim, M.J., et al. OpenVLA: An Open-Source Vision-Language-Action Model. CoRL, 2024.

  9. Black, K., et al. π0: A Vision-Language-Action Flow Model for General Robot Control. Physical Intelligence, 2025.

  10. Goyal, A., et al. VLA-0: Building State-of-the-Art VLAs with Zero Modification. arXiv:2510.13054, 2025.