EO-1：开放统一具身基础模型

概述

EO-1（Embodied One）是上海人工智能实验室（Shanghai AI Lab）联合复旦大学、AgiBot、西北工业大学于 2025 年发布的开放统一具身基础模型，旨在赋予自主机器人类人的多模态推理与物理交互能力。¹²

EO-1 的核心创新在于提出交错视觉-文本-动作（Interleaved Vision-Text-Action）预训练范式，在统一 decoder-only Transformer 架构内同时支持自回归（AR）和 Flow Matching 两种动作生成范式，无需改变模型权重即可在推理时灵活切换。该工作开源了模型权重（3B 参数）、完整训练代码和大规模交错数据集 EO-Data-1.5M，为具身智能社区提供了重要的开放基础设施。¹³

1. 研究背景与动机

1.1 现有 VLA 模型的局限性

视觉-语言-动作（Vision-Language-Action, VLA）模型在大规模机器人与视觉-文本数据联合训练后，在通用机器人控制任务上取得了显著进展。然而，当前主流方案存在以下共性问题：

问题	描述
范式割裂	自回归（AR）和扩散/Flow Matching 范式各自独立发展，模型无法同时掌握两种生成方式
架构碎片化	许多方案引入额外的 action head 或修改 VLM 词汇表，增加部署复杂度
数据利用率低	视觉、文本、动作三种模态的时序关联与因果依赖未被充分建模
开源不充分	多数模型仅提供推理接口，训练流程和大规模数据不可复现

1.2 核心目标

EO-1 旨在构建一个统一、开放、可扩展的具身基础模型：

在单一模型内同时支持 AR 和 Flow Matching 动作生成
采用 decoder-only Transformer 架构，复用成熟 VLM 能力
通过交错预训练建模视觉-文本-动作的时序因果关系
开源模型、代码与 1.5M 条轨迹的大规模数据集

2. 核心创新：交错视觉-文本-动作预训练

2.1 什么是交错预训练？

传统 VLA 模型的训练通常将动作视为离散 token 序列，纯粹用自回归方式生成（如 RT-2⁴）。另一种路线则采用扩散模型或 Flow Matching 来建模连续动作分布（如 Diffusion Policy⁵、Octo⁶）。

EO-1 提出的交错预训练（Interleaved Vision-Text-Action Pretraining）将视觉、语言和动作三种模态视为一个统一的序列，在预训练阶段同时学习：

视觉-语言对齐：理解场景图像与自然语言指令的语义关联
动作序列建模：预测连续动作的时序演化
跨模态因果依赖：建模视觉观测 → 语言推理 → 动作执行的完整因果链

具体而言，训练序列的格式如下：

[Vision Tokens] [Language Tokens] [Action Tokens] [Vision Tokens] [Language Tokens] [Action Tokens] ...

这种交错结构确保模型在生成每个动作 token 时，既能感知当前视觉状态，又能参考历史文本指令和动作上下文。

2.2 自回归 vs. Flow Matching 的统一建模

EO-1 的关键突破在于：同一套模型权重可以同时用于 AR 和 Flow Matching 推理。

自回归（AR）模式

在 AR 模式下，模型将动作序列视为离散 token，采用标准 next-token prediction 损失：

L_{AR} = - t = 1 \sum T lo g P (a_{t} ∣ a_{< t}, V, L; θ)

其中 $a_{t}$ 为第 $t$ 步动作， $V$ 为视觉上下文， $L$ 为语言指令。

Flow Matching（FM）模式

Flow Matching 是一种新兴的连续动作生成范式，通过学习从噪声分布到数据分布的常微分方程（ODE）路径来生成动作序列。EO-1 在不改变模型架构的情况下，通过条件调节机制使同一模型支持 FM 推理：

将 Flow Matching 的时间步 $t$ 和条件向量注入到模型的 attention 机制中
模型学习预测在给定时间步下的动作隐变量
推理时通过 ODE 求解器沿学习到的向量场从噪声推进到干净动作

这种设计使得 EO-1 可以根据任务需求和部署场景灵活选择生成范式，而无需重新训练或加载不同模型。

3. 统一 Decoder-Only Transformer 架构

3.1 整体架构

EO-1 采用 decoder-only Transformer 作为统一架构，主体基于 Qwen2.5-VL-3B-Instruct 作为视觉-语言 backbone。模型总参数量为 3B。³

┌─────────────────────────────────────────────────────────────┐
│                     EO-1 统一架构 (3B)                       │
├─────────────────────────────────────────────────────────────┤
│  ┌─────────────┐                                            │
│  │ Vision Input │ ──► Vision Encoder (Qwen2.5-VL)           │
│  │ (多视角图像) │                                            │
│  └─────────────┘           │                                 │
│  ┌─────────────┐           ▼                                 │
│  │ Language    │ ──► Embedding Layer                        │
│  │ Instruction │           │                                 │
│  └─────────────┘           │                                 │
│  ┌─────────────┐           ▼                                 │
│  │ Action      │ ──► Action Token Embedding                 │
│  │ Sequence    │           │                                 │
│  └─────────────┘           ▼                                 │
│                   ┌────────────────┐                         │
│                   │  Decoder-Only  │ ◄── 统一 Transformer   │
│                   │  Transformer   │     (交错输入序列)       │
│                   │  (L layers)   │                         │
│                   └───────┬────────┘                         │
│                           ▼                                  │
│                   ┌────────────────┐                         │
│                   │   Output Head  │                         │
│                   │  ─────────────  │                         │
│                   │  [AR Head]     │ ◄── 自回归动作预测      │
│                   │  [FM Head]     │ ◄── Flow Matching 条件  │
│                   └────────────────┘                         │
└─────────────────────────────────────────────────────────────┘

架构要点：

视觉编码器：复用 Qwen2.5-VL 的视觉 backbone，支持多视角图像输入
Embedding 层：视觉 token、语言 token 和动作 token 共享统一 embedding 空间
统一 Transformer：标准的 causal Transformer，解码时自回归生成
双范式输出头：AR 模式直接预测离散动作 token；FM 模式输出 Flow Matching 条件向量

3.2 动作表示

EO-1 将连续动作建模为可学习的动作 token，通过以下方式融入语言模型框架：

在预训练过程中为每个连续动作维度分配一组可学习的 embedding
将多步动作序列展平为 token 序列，与语言 token 交错排列
AR 推理时作为标准语言模型预测下一个动作 token
FM 推理时通过时间步条件调节预测动作的隐变量演化

这种设计避免了传统 VLA 中修改 VLM 词汇表或添加专用 action head 的做法，保持了架构的简洁性和通用性。

3.3 架构设计原则

EO-1 的架构设计遵循以下核心原则：

原则	实现方式
最小侵入	复用成熟 VLM backbone，不修改预训练权重的主干结构
统一表示	视觉、语言、动作共享统一的 token 化表示空间
范式无关	单一模型支持 AR 和 FM 两种推理范式
可扩展	基于标准 decoder-only 架构，便于扩展到更大规模

4. 训练数据与流程

4.1 EO-Data-1.5M 数据集

EO-1 的训练依赖于团队开源的大规模交错视觉-文本-动作数据集 EO-Data-1.5M，这是目前最大的开放具身多模态数据集之一。⁷

数据集包含 150 万条以上的机器人轨迹，涵盖：

AgiBot-World：大规模双臂机器人操作数据
Bridge Dataset：厨房任务的人类遥操作数据
DROID：多样化家庭场景数据
LLaVA 系列：视觉-语言预训练数据（用于保持语言理解能力）
RoboVQA：机器人视觉问答数据
RoboMIND：人形机器人数据
EO-Data1.5M：团队自建的高质量交错数据

该数据集的核心特点是强调时序动态性和跨模态因果依赖，不仅仅是简单的动作-状态对，而是包含了完整的视觉观测序列、语言指令和动作序列的交错标注。

4.2 预训练流程

EO-1 的训练分为两个阶段：

第一阶段：VLM 能力保持

在大规模视觉-语言数据上进行继续预训练
保持 Qwen2.5-VL 的语言理解、视觉感知和推理能力

第二阶段：交错视觉-文本-动作联合训练

在机器人轨迹数据与视觉-语言数据上进行混合训练
通过交错输入格式建模跨模态因果关系
同时优化 AR 损失和 FM 条件预测损失

5. 实验结果

5.1 LIBERO Benchmark

EO-1 在具身智能领域广泛使用的 LIBERO benchmark 上进行了系统评估。LIBERO 包含多个任务套件，测试模型在不同空间参照、目标对象和指令复杂度下的泛化能力。¹

实验设置	说明
LIBERO-Spatial	测试空间关系推理（如”把杯子放到左侧”）
LIBERO-Object	测试物体操控泛化（不同物体类别）
LIBERO-Social	测试多人协作与社会交互场景
LIBERO-Long	测试长时序任务规划与执行

实验结果表明，EO-1 在多个任务套件上相比基线方法取得了显著提升，尤其是在需要复杂推理和长时序规划的任务中表现突出。¹

5.2 与其他 VLA 模型的对比

模型	参数量	架构类型	生成范式	开源	数据规模
EO-1	3B	Decoder-only	AR + FM	✅ 完全开源	1.5M 轨迹
OpenVLA⁸	7B	Decoder-only	AR	✅ 开源权重	~550K 轨迹
RT-2⁴	55B (PaLM-E)	VLA	AR	❌ 未开源	~130K 轨迹
Octo⁶	93M-1.2B	Transformer	扩散	✅ 开源	~800K 轨迹
π0⁹	3B	Transformer	扩散	❌ 未开源	~30K 轨迹
VLA-0¹⁰	-	VLA	AR	部分开源	-

EO-1 的优势在于：

最小的可部署规模：3B 参数即可达到优异性能，适合实际机器人部署
双范式支持：业界首次实现单一模型同时支持 AR 和 FM
完全开源：模型权重、训练代码和数据集全部开源

5.3 开放世界泛化能力

除仿真 benchmark 外，EO-1 还在真实机器人上进行了开放世界任务测试，展示了：

对新颖物体和场景的自然语言指令泛化
复杂多步任务的长时序规划与执行
跨不同机器人本体（双臂、人形）的迁移能力

6. 开源生态

6.1 资源链接

资源	链接
论文	arXiv:2508.21112
代码	EO-Robotics/EO1 (GitHub)
模型权重	IPEC-COMMUNITY/EO-1-3B (HuggingFace)
数据集	IPEC-COMMUNITY/EO-Data1.5M (HuggingFace)
官网	eo-robotics.ai/eo-1

6.2 开源内容

✅ 3B 参数模型权重：基于 Qwen2.5-VL-3B-Instruct，支持 HuggingFace Transformers 加载
✅ 完整训练代码：包括交错预训练、AR 和 FM 推理的完整实现
✅ EO-Data-1.5M 数据集：1.5M+ 条轨迹的大规模交错多模态机器人数据
✅ 预训练模型变体：针对 Bridge 等特定数据集微调的版本

7. 技术意义与未来展望

7.1 主要贡献

EO-1 为具身智能领域提供了以下核心贡献：

范式统一：首次在单一 decoder-only 模型内同时实现 AR 和 Flow Matching 动作生成
交错预训练范式：提出建模视觉-文本-动作时序因果依赖的统一训练框架
最小化架构改动：基于成熟 VLM 的简洁设计，便于社区复现和改进
开放基础设施：提供从模型、数据到代码的完整开源工具链

7.2 局限性

当前模型规模（3B）在处理极长时序任务和极高复杂度指令时仍有提升空间
Flow Matching 推理效率相比 AR 仍有差距，实际部署中需要权衡速度和精度
数据集虽然规模大，但覆盖的任务类型和场景多样性仍有限

7.3 未来方向

扩展到更大规模模型（7B+）以提升推理能力
探索 AR 和 FM 的自适应切换机制
在更多真实机器人平台和开放世界场景中验证泛化能力
联合社区力量扩展 EO-Data 数据集的覆盖范围

参考文献

Qu, D., Song, H., Chen, Q., et al. EO-1: An Open Unified Embodied Foundation Model for General Robot Control. arXiv:2508.21112, 2025. (arXiv) ↩ ↩² ↩³ ↩⁴
EO Robotics. EO-1 Official Website. https://eo-robotics.ai/eo-1 ↩
IPEC-COMMUNITY. EO-1-3B Model on HuggingFace. https://huggingface.co/IPEC-COMMUNITY/EO-1-3B ↩ ↩²
Brohan, A., et al. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv:2307.15818, 2023. ↩ ↩²
Chi, C., et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. RSS, 2023. ↩
Octo Model Team. Octo: An Open-Source Generalist Robot Policy. arXiv:2405.12213, 2024. ↩ ↩²
IPEC-COMMUNITY. EO-Data1.5M Dataset on HuggingFace. https://huggingface.co/datasets/IPEC-COMMUNITY/EO-Data1.5M ↩
Kim, M.J., et al. OpenVLA: An Open-Source Vision-Language-Action Model. CoRL, 2024. ↩
Black, K., et al. π0: A Vision-Language-Action Flow Model for General Robot Control. Physical Intelligence, 2025. ↩
Goyal, A., et al. VLA-0: Building State-of-the-Art VLAs with Zero Modification. arXiv:2510.13054, 2025. ↩

Metaphor

探索

EO-1：开放统一具身基础模型

概述

1. 研究背景与动机

1.1 现有 VLA 模型的局限性

1.2 核心目标

2. 核心创新：交错视觉-文本-动作预训练

2.1 什么是交错预训练？

2.2 自回归 vs. Flow Matching 的统一建模

自回归（AR）模式

Flow Matching（FM）模式

3. 统一 Decoder-Only Transformer 架构

3.1 整体架构

3.2 动作表示

3.3 架构设计原则

4. 训练数据与流程

4.1 EO-Data-1.5M 数据集

4.2 预训练流程

5. 实验结果

5.1 LIBERO Benchmark

5.2 与其他 VLA 模型的对比

5.3 开放世界泛化能力

6. 开源生态

6.1 资源链接

6.2 开源内容

7. 技术意义与未来展望

7.1 主要贡献

7.2 局限性

7.3 未来方向

参考文献

关系图谱

目录

反向链接

Metaphor

探索

EO-1：开放统一具身基础模型

概述

1. 研究背景与动机

1.1 现有 VLA 模型的局限性

1.2 核心目标

2. 核心创新：交错视觉-文本-动作预训练

2.1 什么是交错预训练？

2.2 自回归 vs. Flow Matching 的统一建模

自回归（AR）模式

Flow Matching（FM）模式

3. 统一 Decoder-Only Transformer 架构

3.1 整体架构

3.2 动作表示

3.3 架构设计原则

4. 训练数据与流程

4.1 EO-Data-1.5M 数据集

4.2 预训练流程

5. 实验结果

5.1 LIBERO Benchmark

5.2 与其他 VLA 模型的对比

5.3 开放世界泛化能力

6. 开源生态

6.1 资源链接

6.2 开源内容

7. 技术意义与未来展望

7.1 主要贡献

7.2 局限性

7.3 未来方向

参考文献

Footnotes

关系图谱

目录

反向链接