概述
EO-1(Embodied One)是上海人工智能实验室(Shanghai AI Lab)联合复旦大学、AgiBot、西北工业大学于 2025 年发布的开放统一具身基础模型,旨在赋予自主机器人类人的多模态推理与物理交互能力。12
EO-1 的核心创新在于提出交错视觉-文本-动作(Interleaved Vision-Text-Action)预训练范式,在统一 decoder-only Transformer 架构内同时支持自回归(AR)和 Flow Matching 两种动作生成范式,无需改变模型权重即可在推理时灵活切换。该工作开源了模型权重(3B 参数)、完整训练代码和大规模交错数据集 EO-Data-1.5M,为具身智能社区提供了重要的开放基础设施。13
1. 研究背景与动机
1.1 现有 VLA 模型的局限性
视觉-语言-动作(Vision-Language-Action, VLA)模型在大规模机器人与视觉-文本数据联合训练后,在通用机器人控制任务上取得了显著进展。然而,当前主流方案存在以下共性问题:
| 问题 | 描述 |
|---|---|
| 范式割裂 | 自回归(AR)和扩散/Flow Matching 范式各自独立发展,模型无法同时掌握两种生成方式 |
| 架构碎片化 | 许多方案引入额外的 action head 或修改 VLM 词汇表,增加部署复杂度 |
| 数据利用率低 | 视觉、文本、动作三种模态的时序关联与因果依赖未被充分建模 |
| 开源不充分 | 多数模型仅提供推理接口,训练流程和大规模数据不可复现 |
1.2 核心目标
EO-1 旨在构建一个统一、开放、可扩展的具身基础模型:
- 在单一模型内同时支持 AR 和 Flow Matching 动作生成
- 采用 decoder-only Transformer 架构,复用成熟 VLM 能力
- 通过交错预训练建模视觉-文本-动作的时序因果关系
- 开源模型、代码与 1.5M 条轨迹的大规模数据集
2. 核心创新:交错视觉-文本-动作预训练
2.1 什么是交错预训练?
传统 VLA 模型的训练通常将动作视为离散 token 序列,纯粹用自回归方式生成(如 RT-24)。另一种路线则采用扩散模型或 Flow Matching 来建模连续动作分布(如 Diffusion Policy5、Octo6)。
EO-1 提出的交错预训练(Interleaved Vision-Text-Action Pretraining)将视觉、语言和动作三种模态视为一个统一的序列,在预训练阶段同时学习:
- 视觉-语言对齐:理解场景图像与自然语言指令的语义关联
- 动作序列建模:预测连续动作的时序演化
- 跨模态因果依赖:建模视觉观测 → 语言推理 → 动作执行的完整因果链
具体而言,训练序列的格式如下:
[Vision Tokens] [Language Tokens] [Action Tokens] [Vision Tokens] [Language Tokens] [Action Tokens] ...
这种交错结构确保模型在生成每个动作 token 时,既能感知当前视觉状态,又能参考历史文本指令和动作上下文。
2.2 自回归 vs. Flow Matching 的统一建模
EO-1 的关键突破在于:同一套模型权重可以同时用于 AR 和 Flow Matching 推理。
自回归(AR)模式
在 AR 模式下,模型将动作序列视为离散 token,采用标准 next-token prediction 损失:
其中 为第 步动作, 为视觉上下文, 为语言指令。
Flow Matching(FM)模式
Flow Matching 是一种新兴的连续动作生成范式,通过学习从噪声分布到数据分布的常微分方程(ODE)路径来生成动作序列。EO-1 在不改变模型架构的情况下,通过条件调节机制使同一模型支持 FM 推理:
- 将 Flow Matching 的时间步 和条件向量注入到模型的 attention 机制中
- 模型学习预测在给定时间步下的动作隐变量
- 推理时通过 ODE 求解器沿学习到的向量场从噪声推进到干净动作
这种设计使得 EO-1 可以根据任务需求和部署场景灵活选择生成范式,而无需重新训练或加载不同模型。
3. 统一 Decoder-Only Transformer 架构
3.1 整体架构
EO-1 采用 decoder-only Transformer 作为统一架构,主体基于 Qwen2.5-VL-3B-Instruct 作为视觉-语言 backbone。模型总参数量为 3B。3
┌─────────────────────────────────────────────────────────────┐
│ EO-1 统一架构 (3B) │
├─────────────────────────────────────────────────────────────┤
│ ┌─────────────┐ │
│ │ Vision Input │ ──► Vision Encoder (Qwen2.5-VL) │
│ │ (多视角图像) │ │
│ └─────────────┘ │ │
│ ┌─────────────┐ ▼ │
│ │ Language │ ──► Embedding Layer │
│ │ Instruction │ │ │
│ └─────────────┘ │ │
│ ┌─────────────┐ ▼ │
│ │ Action │ ──► Action Token Embedding │
│ │ Sequence │ │ │
│ └─────────────┘ ▼ │
│ ┌────────────────┐ │
│ │ Decoder-Only │ ◄── 统一 Transformer │
│ │ Transformer │ (交错输入序列) │
│ │ (L layers) │ │
│ └───────┬────────┘ │
│ ▼ │
│ ┌────────────────┐ │
│ │ Output Head │ │
│ │ ───────────── │ │
│ │ [AR Head] │ ◄── 自回归动作预测 │
│ │ [FM Head] │ ◄── Flow Matching 条件 │
│ └────────────────┘ │
└─────────────────────────────────────────────────────────────┘
架构要点:
- 视觉编码器:复用 Qwen2.5-VL 的视觉 backbone,支持多视角图像输入
- Embedding 层:视觉 token、语言 token 和动作 token 共享统一 embedding 空间
- 统一 Transformer:标准的 causal Transformer,解码时自回归生成
- 双范式输出头:AR 模式直接预测离散动作 token;FM 模式输出 Flow Matching 条件向量
3.2 动作表示
EO-1 将连续动作建模为可学习的动作 token,通过以下方式融入语言模型框架:
- 在预训练过程中为每个连续动作维度分配一组可学习的 embedding
- 将多步动作序列展平为 token 序列,与语言 token 交错排列
- AR 推理时作为标准语言模型预测下一个动作 token
- FM 推理时通过时间步条件调节预测动作的隐变量演化
这种设计避免了传统 VLA 中修改 VLM 词汇表或添加专用 action head 的做法,保持了架构的简洁性和通用性。
3.3 架构设计原则
EO-1 的架构设计遵循以下核心原则:
| 原则 | 实现方式 |
|---|---|
| 最小侵入 | 复用成熟 VLM backbone,不修改预训练权重的主干结构 |
| 统一表示 | 视觉、语言、动作共享统一的 token 化表示空间 |
| 范式无关 | 单一模型支持 AR 和 FM 两种推理范式 |
| 可扩展 | 基于标准 decoder-only 架构,便于扩展到更大规模 |
4. 训练数据与流程
4.1 EO-Data-1.5M 数据集
EO-1 的训练依赖于团队开源的大规模交错视觉-文本-动作数据集 EO-Data-1.5M,这是目前最大的开放具身多模态数据集之一。7
数据集包含 150 万条以上的机器人轨迹,涵盖:
- AgiBot-World:大规模双臂机器人操作数据
- Bridge Dataset:厨房任务的人类遥操作数据
- DROID:多样化家庭场景数据
- LLaVA 系列:视觉-语言预训练数据(用于保持语言理解能力)
- RoboVQA:机器人视觉问答数据
- RoboMIND:人形机器人数据
- EO-Data1.5M:团队自建的高质量交错数据
该数据集的核心特点是强调时序动态性和跨模态因果依赖,不仅仅是简单的动作-状态对,而是包含了完整的视觉观测序列、语言指令和动作序列的交错标注。
4.2 预训练流程
EO-1 的训练分为两个阶段:
第一阶段:VLM 能力保持
- 在大规模视觉-语言数据上进行继续预训练
- 保持 Qwen2.5-VL 的语言理解、视觉感知和推理能力
第二阶段:交错视觉-文本-动作联合训练
- 在机器人轨迹数据与视觉-语言数据上进行混合训练
- 通过交错输入格式建模跨模态因果关系
- 同时优化 AR 损失和 FM 条件预测损失
5. 实验结果
5.1 LIBERO Benchmark
EO-1 在具身智能领域广泛使用的 LIBERO benchmark 上进行了系统评估。LIBERO 包含多个任务套件,测试模型在不同空间参照、目标对象和指令复杂度下的泛化能力。1
| 实验设置 | 说明 |
|---|---|
| LIBERO-Spatial | 测试空间关系推理(如”把杯子放到左侧”) |
| LIBERO-Object | 测试物体操控泛化(不同物体类别) |
| LIBERO-Social | 测试多人协作与社会交互场景 |
| LIBERO-Long | 测试长时序任务规划与执行 |
实验结果表明,EO-1 在多个任务套件上相比基线方法取得了显著提升,尤其是在需要复杂推理和长时序规划的任务中表现突出。1
5.2 与其他 VLA 模型的对比
| 模型 | 参数量 | 架构类型 | 生成范式 | 开源 | 数据规模 |
|---|---|---|---|---|---|
| EO-1 | 3B | Decoder-only | AR + FM | ✅ 完全开源 | 1.5M 轨迹 |
| OpenVLA8 | 7B | Decoder-only | AR | ✅ 开源权重 | ~550K 轨迹 |
| RT-24 | 55B (PaLM-E) | VLA | AR | ❌ 未开源 | ~130K 轨迹 |
| Octo6 | 93M-1.2B | Transformer | 扩散 | ✅ 开源 | ~800K 轨迹 |
| π09 | 3B | Transformer | 扩散 | ❌ 未开源 | ~30K 轨迹 |
| VLA-010 | - | VLA | AR | 部分开源 | - |
EO-1 的优势在于:
- 最小的可部署规模:3B 参数即可达到优异性能,适合实际机器人部署
- 双范式支持:业界首次实现单一模型同时支持 AR 和 FM
- 完全开源:模型权重、训练代码和数据集全部开源
5.3 开放世界泛化能力
除仿真 benchmark 外,EO-1 还在真实机器人上进行了开放世界任务测试,展示了:
- 对新颖物体和场景的自然语言指令泛化
- 复杂多步任务的长时序规划与执行
- 跨不同机器人本体(双臂、人形)的迁移能力
6. 开源生态
6.1 资源链接
| 资源 | 链接 |
|---|---|
| 论文 | arXiv:2508.21112 |
| 代码 | EO-Robotics/EO1 (GitHub) |
| 模型权重 | IPEC-COMMUNITY/EO-1-3B (HuggingFace) |
| 数据集 | IPEC-COMMUNITY/EO-Data1.5M (HuggingFace) |
| 官网 | eo-robotics.ai/eo-1 |
6.2 开源内容
- ✅ 3B 参数模型权重:基于 Qwen2.5-VL-3B-Instruct,支持 HuggingFace Transformers 加载
- ✅ 完整训练代码:包括交错预训练、AR 和 FM 推理的完整实现
- ✅ EO-Data-1.5M 数据集:1.5M+ 条轨迹的大规模交错多模态机器人数据
- ✅ 预训练模型变体:针对 Bridge 等特定数据集微调的版本
7. 技术意义与未来展望
7.1 主要贡献
EO-1 为具身智能领域提供了以下核心贡献:
- 范式统一:首次在单一 decoder-only 模型内同时实现 AR 和 Flow Matching 动作生成
- 交错预训练范式:提出建模视觉-文本-动作时序因果依赖的统一训练框架
- 最小化架构改动:基于成熟 VLM 的简洁设计,便于社区复现和改进
- 开放基础设施:提供从模型、数据到代码的完整开源工具链
7.2 局限性
- 当前模型规模(3B)在处理极长时序任务和极高复杂度指令时仍有提升空间
- Flow Matching 推理效率相比 AR 仍有差距,实际部署中需要权衡速度和精度
- 数据集虽然规模大,但覆盖的任务类型和场景多样性仍有限
7.3 未来方向
- 扩展到更大规模模型(7B+)以提升推理能力
- 探索 AR 和 FM 的自适应切换机制
- 在更多真实机器人平台和开放世界场景中验证泛化能力
- 联合社区力量扩展 EO-Data 数据集的覆盖范围
参考文献
Footnotes
-
Qu, D., Song, H., Chen, Q., et al. EO-1: An Open Unified Embodied Foundation Model for General Robot Control. arXiv:2508.21112, 2025. (arXiv) ↩ ↩2 ↩3 ↩4
-
EO Robotics. EO-1 Official Website. https://eo-robotics.ai/eo-1 ↩
-
IPEC-COMMUNITY. EO-1-3B Model on HuggingFace. https://huggingface.co/IPEC-COMMUNITY/EO-1-3B ↩ ↩2
-
Brohan, A., et al. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv:2307.15818, 2023. ↩ ↩2
-
Chi, C., et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. RSS, 2023. ↩
-
Octo Model Team. Octo: An Open-Source Generalist Robot Policy. arXiv:2405.12213, 2024. ↩ ↩2
-
IPEC-COMMUNITY. EO-Data1.5M Dataset on HuggingFace. https://huggingface.co/datasets/IPEC-COMMUNITY/EO-Data1.5M ↩
-
Kim, M.J., et al. OpenVLA: An Open-Source Vision-Language-Action Model. CoRL, 2024. ↩
-
Black, K., et al. π0: A Vision-Language-Action Flow Model for General Robot Control. Physical Intelligence, 2025. ↩
-
Goyal, A., et al. VLA-0: Building State-of-the-Art VLAs with Zero Modification. arXiv:2510.13054, 2025. ↩