一、引言
视觉-语言-动作(Vision-Language-Action, VLA)模型是近年来机器人领域的重要突破,它将视觉感知、自然语言理解和机器人动作控制统一在单一的多模态大模型框架中。与传统的视觉导航或操作策略不同,VLA模型能够理解自然语言指令,结合视觉观察进行推理,并输出可直接控制机器人的动作序列。1
VLA模型的兴起源于大型视觉-语言模型(VLM)在数字领域取得的巨大成功。研究人员开始探索如何将这些能力迁移到物理世界的机器人控制中,从而催生了一个新的研究方向——具身人工智能。
二、发展历程
2.1 早期探索阶段(2023-2024)
2023年至2024年初是VLA模型的萌芽期。这一阶段的主要工作包括:
- RT-2(Google DeepMind):首次将视觉-语言模型与机器人动作结合,提出了将动作表示为文本令牌的方法2
- OpenVLA:斯坦福大学、UC Berkeley等机构发布的开源VLA模型,7B参数,在97万条机器人轨迹数据上预训练3
- π0(Physical Intelligence):首个真正意义上通用的机器人基础模型,能够控制多种不同类型的机器人4
2.2 架构突破阶段(2024-2025)
2024年下半年至2025年,VLA模型进入快速发展期:
- 扩散动作生成:以π0为代表的流匹配(Flow Matching)方法开始流行,取代了早期的离散动作令牌方法4
- 双系统架构:System 1(快速反应)+ System 2(慢速推理)的混合架构成为新趋势5
- 具身化扩展:GR00T N1、Gemini Robotics等面向人形机器人的VLA模型相继发布67
2.3 统一与泛化阶段(2025至今)
当前阶段的特点是追求更强的泛化能力和统一架构:
- 跨具身泛化:Being-H0.5、UniVLA等模型尝试在不同机器人形态间迁移89
- 世界模型整合:RynnVLA-002等模型将动作预测与世界模型统一10
- 开源生态:NVIDIA GR00T、阿里RynnBrain等开源项目推动了社区发展610
三、架构分类
VLA模型的融合策略是决定其性能的关键因素。根据多模态信息融合的时机和方式,可分为三类:
3.1 融合策略对比
┌─────────────────────────────────────────────────────────────────────────────┐
│ VLA架构融合策略对比 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ 图像输入 │ │ 图像输入 │ │ 图像输入 │ │
│ └──────┬──────┘ └──────┬──────┘ └──────┬──────┘ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ 视觉编码器 │ │ 视觉编码器 │ │ 视觉编码器 │ │
│ │ (Early │ │ (Early │ │ (Early │ │
│ │ Encoder) │ │ Encoder) │ │ Encoder) │ │
│ └──────┬──────┘ └──────┬──────┘ └──────┬──────┘ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ 多模态融合 │ │ 多模态融合 │ │ 多模态融合 │ │
│ │ (Token │ │ (Cross- │ │ (Late │ │
│ │ Concate) │ │ Attention) │ │ Fusion) │ │
│ └──────┬──────┘ └──────┬──────┘ └──────┬──────┘ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ 语言模型主干 │ │
│ │ (Vicuna/Llama/Qwen等) │ │
│ └──────────────────────────┬──────────────────────────────────┘ │
│ │ │
│ ┌───────────────────┼───────────────────┐ │
│ ▼ ▼ ▼ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ 动作输出 │ │ 动作输出 │ │ 动作输出 │ │
│ │ (Action │ │ (Action │ │ (Action │ │
│ │ Tokens) │ │ Tokens) │ │ Tokens) │ │
│ └─────────────┘ └─────────────┘ └─────────────┘ │
│ │
│ Early Fusion Mid Fusion Late Fusion │
│ (早期融合) (中期融合) (晚期融合) │
│ │
│ • OpenVLA • GR00T N1 • RT-2 │
│ • π0 • Gemini Robotics • 多数VLM+ Adapter方案 │
│ • RynnBrain • HybridVLA │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
3.2 各类架构详解
早期融合(Early Fusion)
原理:在输入层直接将视觉令牌与语言令牌拼接,统一输入语言模型进行处理。
代表模型:
优点:
- 视觉与语言特征在早期即深度交互
- 训练效率高,端到端优化简单
- 能够学习到更丰富的跨模态表示
缺点:
- 对视觉编码器的质量依赖度高
- 推理速度受限于语言模型规模
中期融合(Mid Fusion)
原理:在语言模型的中间层通过交叉注意力机制融合视觉信息。
代表模型:
- GR00T N1:NVIDIA推出的具身基础模型,采用DiT架构处理多模态输入6
- Gemini Robotics:基于Gemini 2.0的VLA模型,支持多图像输入7
- HybridVLA:结合扩散和自回归的混合架构11
优点:
- 视觉信息可按需注入,灵活可控
- 适合处理多视角视觉输入
- 可利用预训练语言模型的推理能力
缺点:
- 架构设计复杂
- 训练难度较高
晚期融合(Late Fusion)
原理:视觉和语言分别编码,在输出层或决策层进行融合。
代表模型:
- RT-2:视觉编码和语言编码独立,输出层整合为动作令牌2
- 多数采用”VLM + 动作头”范式的模型
优点:
- 架构清晰,易于模块化
- 可复用成熟的VLM和视觉编码器
缺点:
- 跨模态交互受限
- 泛化能力相对较弱12
3.3 动作表示方法
| 方法 | 描述 | 代表模型 | 优缺点 |
|---|---|---|---|
| 离散动作令牌 | 将连续动作离散化为文本令牌 | RT-2、OpenVLA | 实现简单,但精度损失 |
| 扩散/流匹配 | 用扩散模型生成连续动作 | π0、GR00T N1 | 动作平滑,但推理慢 |
| 混合方法 | 结合自回归和扩散 | HybridVLA | 兼顾精度和效率 |
四、主流VLA模型对比
4.1 模型综合对比表
| 模型 | 机构 | 发布时间 | 参数规模 | 架构类型 | 预训练数据 | 开源 | 特点 |
|---|---|---|---|---|---|---|---|
| GR00T N1 | NVIDIA | 2025.03 | 7B+ | DiT + Diffusion | 9000+小时 | 部分 | 人形机器人专用,物理推理 |
| Ψ₀ | USC PSI Lab | 2025.03 | - | Diffusion VLA | 人形数据 | 开源 | 通用人形智能, loco-manipulation |
| Gemini Robotics | Google DeepMind | 2025.03 | - | Gemini 2.0 | 专有数据 | 否 | ER版本支持世界模型 |
| EO-1 | 上海AI Lab | 2025.08 | - | Interleaved VTA | 多源数据 | 开源 | 视觉-文本-动作交错预训练 |
| Being-H0.5 | BeingBeyond | 2026.01 | - | UniHand | 35000+小时 | 开源 | 跨具身泛化,人类中心学习 |
| RynnBrain | 阿里DAMO | 2026.02 | - | Qwen3-VL | 专有数据 | 开源 | 具身基础模型家族 |
| π0 | Physical Intelligence | 2024.10 | 7B | Flow Matching | 多机器人数据 | 开源 | 首个通用机器人基础模型 |
| OpenVLA | Stanford/Berkeley | 2024.06 | 7B | Early Fusion | 97万轨迹 | 开源 | 最早的开源VLA之一 |
| UniVLA | BAAI/CASIA | 2025.06 | - | 统一架构 | 多源数据 | 开源 | 统一感知-动作输出 |
| HybridVLA | PKU | 2025.03 | - | Hybrid | 专有数据 | 开源 | 扩散+自回归混合 |
4.2 关键技术指标对比
| 模型 | 动作频率 | 泛化能力 | 灵巧操作 | 多机器人支持 | 复杂推理 |
|---|---|---|---|---|---|
| GR00T N1 | 30Hz | ★★★★★ | ★★★★☆ | ★★★☆☆ | ★★★★★ |
| Ψ₀ | 30Hz | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★☆ |
| Gemini Robotics | - | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ |
| EO-1 | - | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ |
| Being-H0.5 | - | ★★★★★ | ★★★★★ | ★★★★★ | ★★★☆☆ |
| π0 | 50Hz | ★★★★☆ | ★★★★★ | ★★★★★ | ★★★☆☆ |
| OpenVLA | 5-10Hz | ★★★☆☆ | ★★★☆☆ | ★★★☆☆ | ★★★☆☆ |
五、代表性模型详解
5.1 GR00T N1(NVIDIA)
GR00T N1是NVIDIA推出的人形机器人基础模型,其核心特点包括:
架构设计:
- 采用Diffusion Transformer(DiT)架构处理多模态输入
- 支持视觉、本体感受、文本等多模态信息
- 动作生成使用流匹配方法
关键技术:
- 物理推理:能够理解物体的物理属性(质量、摩擦力等)
- 双手操作:专注人形机器人的灵巧操作
- NIM微服务:提供标准化的部署方案6
5.2 Ψ₀(USC PSI Lab)
Ψ₀是南加州大学物理超智能实验室开发的通用人形VLA模型:
架构特点:
- 开源的人形loco-manipulation基础模型
- 支持行走与操作的协同控制
- 基于扩散的动作生成
创新点:
- 专门针对人形机器人形态优化
- 强调从人类运动数据中迁移技能13
5.3 Gemini Robotics(Google)
Gemini Robotics是基于Gemini 2.0的VLA模型家族:
核心能力:
- Gemini Robotics-1.5:通用VLA模型,支持多种任务
- Gemini Robotics-ER:Embody Reasoning版本,支持世界模型
技术亮点:
- 先进的视觉理解能力
- 支持视觉提示(Visual Prompting)
- 强大的长程推理能力7
5.4 EO-1(上海AI Lab)
EO-1是上海人工智能实验室推出的交错视觉-文本-动作预训练模型:
核心贡献:
- 提出VTA(Vision-Text-Action)交错预训练范式
- 在多种机器人平台上验证了效果
- 强调视觉、语言、动作的时序交错建模14
5.5 π0(Physical Intelligence)
π0是首个真正意义上的通用机器人基础模型:
技术特点:
- Flow Matching动作生成
- 支持单臂、双臂、移动机器人等多种形态
- 可通过微调适应新任务
影响力:
- 开源推动了社区发展
- 验证了大规模预训练+微调的范式4
5.6 RynnBrain(阿里DAMO)
RynnBrain是阿里巴巴DAMO Academy推出的开源具身基础模型系列:
模型家族:
- RynnVLA-001:基于人类演示的机器人操作
- RynnVLA-002:统一VLA+世界模型
- 基于Qwen3-VL构建
特点:
- 面向开源社区
- 支持多种机器人应用场景10
六、技术趋势
6.1 流匹配动作生成
流匹配(Flow Matching)已成为VLA模型动作生成的主流方法,相比传统的扩散模型和自回归方法,具有以下优势:
工作原理:
其中 是时间 的动作状态, 是学习的向量场。
优势:
- 轨迹级生成:直接生成完整的动作轨迹
- 时间效率:通常只需10-20步去噪即可
- 动作平滑:生成的动作序列自然连贯
代表性工作:
6.2 双系统架构
双系统VLA架构借鉴了人类认知中的System 1(快思考)和System 2(慢思考)理论:
架构设计:
┌────────────────────────────────────────────────────────────────┐
│ 双系统VLA架构 │
├────────────────────────────────────────────────────────────────┤
│ │
│ System 2 (慢速推理) System 1 (快速反应) │
│ ┌──────────────────┐ ┌──────────────────┐ │
│ │ MLLM (如LLaVA) │ │ 轻量级VLA │ │
│ │ • 任务规划 │ ──────▶ │ • 快速动作生成 │ │
│ │ • 复杂推理 │ │ • 实时响应 │ │
│ │ • 长期决策 │ │ • 高频控制 │ │
│ └──────────────────┘ └──────────────────┘ │
│ │ │ │
│ └───────────┬───────────────┘ │
│ ▼ │
│ ┌──────────────────┐ │
│ │ 动作执行 │ │
│ └──────────────────┘ │
└────────────────────────────────────────────────────────────────┘
代表工作:
优势:
- System 1保证实时响应能力
- System 2处理复杂推理任务
- 两者互补,提升整体性能
6.3 其他技术趋势
-
统一世界模型
- 动作预测与未来预测统一
- RynnVLA-002等模型同时学习VLA和世界模型
-
跨具身泛化
- 从人类视频中学习技能(Being-H0.5)
- 减少对特定机器人数据的依赖
-
高效推理
- 异步VLA处理非均匀时间步
- LoRA等轻量微调技术
七、总结与展望
7.1 当前挑战
尽管VLA模型取得了显著进展,但仍面临以下挑战:
| 挑战 | 描述 | 潜在方向 |
|---|---|---|
| 数据效率 | 需要大量机器人数据 | 仿真数据、人类视频迁移 |
| 泛化能力 | 跨任务、跨场景泛化 | 更大规模、更多样化的预训练 |
| 实时性 | 高频动作生成 | 模型压缩、异步架构 |
| 安全性 | 物理世界中的安全部署 | 约束学习、人类在环 |
7.2 未来展望
-
更大规模的预训练:随着数据量增加,VLA将具备更强的通用能力
-
具身化基础模型:类似GPT-4o的多模态理解与生成能力将迁移到机器人
-
开源生态:GR00T N1、RynnBrain等开源项目将加速社区发展
-
人机协作:VLA模型将支持更自然的人机交互
参考资料
本文档整理了截至2026年5月的VLA基础模型发展现状,重点关注具身机器人领域的最新进展。
Footnotes
-
Ma Y, Song Z, Zhuang Y, et al. A Survey on Vision-Language-Action Models for Embodied AI[J]. arXiv preprint arXiv:2405.14093, 2024. ↩
-
Brohan A, Brown N, Carbajal J, et al. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control[J]. arXiv preprint arXiv:2307.14818, 2023. ↩ ↩2
-
Kim M J, Pertsch K, Karamcheti S, et al. OpenVLA: An Open-Source Vision-Language-Action Model[J]. arXiv preprint arXiv:2406.09246, 2024. ↩ ↩2
-
Black K, Brown N, Driess D, et al. π₀: A Vision-Language-Action Flow Model for General Robot Control[J]. arXiv preprint arXiv:2410.24164, 2024. ↩ ↩2 ↩3 ↩4 ↩5
-
Cui C, Ding P, Song W, et al. OPENHELIX: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation[J]. arXiv preprint arXiv:2505.03912, 2025. ↩ ↩2
-
NVIDIA. GR00T N1: An Open Foundation Model for Generalist Humanoid Robots[J]. arXiv preprint arXiv:2503.14734, 2025. ↩ ↩2 ↩3 ↩4
-
Gemini Robotics Team. Gemini Robotics: Bringing AI into the Physical World[J]. arXiv preprint arXiv:2503.20020, 2025. ↩ ↩2 ↩3
-
BeingBeyond Team. Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization[J]. arXiv preprint arXiv:2601.12993, 2026. ↩
-
Wang Y, Li X, Zhang J, et al. Unified Vision-Language-Action Model[J]. arXiv preprint arXiv:2506.19850, 2025. ↩
-
Dang R, Guo B, Hou K, et al. RynnBrain: Open Embodied Foundation Models[J]. arXiv preprint arXiv:2602.14979, 2026. ↩ ↩2 ↩3
-
Liu J, Chen H, An P, et al. HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model[J]. arXiv preprint arXiv:2503.10631, 2025. ↩
-
Huang H, Liu L, Fu L, et al. Early Fusion Helps Vision Language Action Models Generalize Better[C]. ICLR 2025. ↩
-
Wei S, Jing H, Li B, et al. Ψ₀: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation[J]. arXiv preprint arXiv:2603.12263, 2026. ↩
-
Qu D, Song H, Chen Q, et al. EO-1: Interleaved Vision-Text-Action Pretraining for General Robot Control[J]. arXiv preprint arXiv:2508.21112, 2025. ↩
-
Zhao B, Lee A, Chuang I, et al. VITA: Vision-to-Action Flow Matching Policy[J]. arXiv preprint arXiv:2507.13231, 2025. ↩
-
Jiang Y, Cheng S, Ding Y, et al. AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models[J]. arXiv preprint arXiv:2511.14148, 2025. ↩
-
Song H, Qu D, Yao Y, et al. Hume: Introducing System-2 Thinking in Visual-Language-Action Model[J]. arXiv preprint arXiv:2505.21432, 2025. ↩
-
Galaxea Team. Galaxea Open-World Dataset and G0 Dual-System VLA Model[J]. arXiv preprint arXiv:2509.00576, 2025. ↩