一、引言

视觉-语言-动作(Vision-Language-Action, VLA)模型是近年来机器人领域的重要突破,它将视觉感知、自然语言理解和机器人动作控制统一在单一的多模态大模型框架中。与传统的视觉导航或操作策略不同,VLA模型能够理解自然语言指令,结合视觉观察进行推理,并输出可直接控制机器人的动作序列。1

VLA模型的兴起源于大型视觉-语言模型(VLM)在数字领域取得的巨大成功。研究人员开始探索如何将这些能力迁移到物理世界的机器人控制中,从而催生了一个新的研究方向——具身人工智能

二、发展历程

2.1 早期探索阶段(2023-2024)

2023年至2024年初是VLA模型的萌芽期。这一阶段的主要工作包括:

  • RT-2(Google DeepMind):首次将视觉-语言模型与机器人动作结合,提出了将动作表示为文本令牌的方法2
  • OpenVLA:斯坦福大学、UC Berkeley等机构发布的开源VLA模型,7B参数,在97万条机器人轨迹数据上预训练3
  • π0(Physical Intelligence):首个真正意义上通用的机器人基础模型,能够控制多种不同类型的机器人4

2.2 架构突破阶段(2024-2025)

2024年下半年至2025年,VLA模型进入快速发展期:

  • 扩散动作生成:以π0为代表的流匹配(Flow Matching)方法开始流行,取代了早期的离散动作令牌方法4
  • 双系统架构:System 1(快速反应)+ System 2(慢速推理)的混合架构成为新趋势5
  • 具身化扩展:GR00T N1、Gemini Robotics等面向人形机器人的VLA模型相继发布67

2.3 统一与泛化阶段(2025至今)

当前阶段的特点是追求更强的泛化能力和统一架构:

  • 跨具身泛化:Being-H0.5、UniVLA等模型尝试在不同机器人形态间迁移89
  • 世界模型整合:RynnVLA-002等模型将动作预测与世界模型统一10
  • 开源生态:NVIDIA GR00T、阿里RynnBrain等开源项目推动了社区发展610

三、架构分类

VLA模型的融合策略是决定其性能的关键因素。根据多模态信息融合的时机和方式,可分为三类:

3.1 融合策略对比

┌─────────────────────────────────────────────────────────────────────────────┐
│                        VLA架构融合策略对比                                   │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  ┌─────────────┐      ┌─────────────┐      ┌─────────────┐                 │
│  │   图像输入   │      │   图像输入   │      │   图像输入   │                 │
│  └──────┬──────┘      └──────┬──────┘      └──────┬──────┘                 │
│         │                   │                   │                         │
│         ▼                   ▼                   ▼                         │
│  ┌─────────────┐      ┌─────────────┐      ┌─────────────┐                 │
│  │ 视觉编码器   │      │ 视觉编码器   │      │ 视觉编码器   │                 │
│  │ (Early     │      │ (Early     │      │ (Early     │                 │
│  │  Encoder)  │      │  Encoder)   │      │  Encoder)  │                 │
│  └──────┬──────┘      └──────┬──────┘      └──────┬──────┘                 │
│         │                   │                   │                         │
│         ▼                   ▼                   ▼                         │
│  ┌─────────────┐      ┌─────────────┐      ┌─────────────┐                 │
│  │  多模态融合  │      │  多模态融合  │      │  多模态融合  │                 │
│  │ (Token      │      │ (Cross-     │      │ (Late      │                 │
│  │  Concate)   │      │  Attention) │      │  Fusion)   │                 │
│  └──────┬──────┘      └──────┬──────┘      └──────┬──────┘                 │
│         │                   │                   │                         │
│         ▼                   ▼                   ▼                         │
│  ┌─────────────────────────────────────────────────────────────┐            │
│  │                    语言模型主干                              │            │
│  │              (Vicuna/Llama/Qwen等)                          │            │
│  └──────────────────────────┬──────────────────────────────────┘            │
│                             │                                             │
│         ┌───────────────────┼───────────────────┐                          │
│         ▼                   ▼                   ▼                          │
│  ┌─────────────┐      ┌─────────────┐      ┌─────────────┐                 │
│  │   动作输出   │      │   动作输出   │      │   动作输出   │                 │
│  │ (Action    │      │ (Action    │      │ (Action    │                 │
│  │  Tokens)   │      │  Tokens)   │      │  Tokens)   │                 │
│  └─────────────┘      └─────────────┘      └─────────────┘                 │
│                                                                             │
│  Early Fusion          Mid Fusion           Late Fusion                     │
│  (早期融合)            (中期融合)           (晚期融合)                       │
│                                                                             │
│  • OpenVLA            • GR00T N1            • RT-2                         │
│  • π0                 • Gemini Robotics     • 多数VLM+ Adapter方案         │
│  • RynnBrain          • HybridVLA                                         │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

3.2 各类架构详解

早期融合(Early Fusion)

原理:在输入层直接将视觉令牌与语言令牌拼接,统一输入语言模型进行处理。

代表模型

  • OpenVLA:视觉编码器(SigLIP)输出的特征直接与文本令牌拼接,送入LLaMA语言模型3
  • π0:同样采用早期融合策略,视觉和语言信息在Transformer中充分交互4

优点

  • 视觉与语言特征在早期即深度交互
  • 训练效率高,端到端优化简单
  • 能够学习到更丰富的跨模态表示

缺点

  • 对视觉编码器的质量依赖度高
  • 推理速度受限于语言模型规模

中期融合(Mid Fusion)

原理:在语言模型的中间层通过交叉注意力机制融合视觉信息。

代表模型

  • GR00T N1:NVIDIA推出的具身基础模型,采用DiT架构处理多模态输入6
  • Gemini Robotics:基于Gemini 2.0的VLA模型,支持多图像输入7
  • HybridVLA:结合扩散和自回归的混合架构11

优点

  • 视觉信息可按需注入,灵活可控
  • 适合处理多视角视觉输入
  • 可利用预训练语言模型的推理能力

缺点

  • 架构设计复杂
  • 训练难度较高

晚期融合(Late Fusion)

原理:视觉和语言分别编码,在输出层或决策层进行融合。

代表模型

  • RT-2:视觉编码和语言编码独立,输出层整合为动作令牌2
  • 多数采用”VLM + 动作头”范式的模型

优点

  • 架构清晰,易于模块化
  • 可复用成熟的VLM和视觉编码器

缺点

  • 跨模态交互受限
  • 泛化能力相对较弱12

3.3 动作表示方法

方法描述代表模型优缺点
离散动作令牌将连续动作离散化为文本令牌RT-2、OpenVLA实现简单,但精度损失
扩散/流匹配用扩散模型生成连续动作π0、GR00T N1动作平滑,但推理慢
混合方法结合自回归和扩散HybridVLA兼顾精度和效率

四、主流VLA模型对比

4.1 模型综合对比表

模型机构发布时间参数规模架构类型预训练数据开源特点
GR00T N1NVIDIA2025.037B+DiT + Diffusion9000+小时部分人形机器人专用,物理推理
Ψ₀USC PSI Lab2025.03-Diffusion VLA人形数据开源通用人形智能, loco-manipulation
Gemini RoboticsGoogle DeepMind2025.03-Gemini 2.0专有数据ER版本支持世界模型
EO-1上海AI Lab2025.08-Interleaved VTA多源数据开源视觉-文本-动作交错预训练
Being-H0.5BeingBeyond2026.01-UniHand35000+小时开源跨具身泛化,人类中心学习
RynnBrain阿里DAMO2026.02-Qwen3-VL专有数据开源具身基础模型家族
π0Physical Intelligence2024.107BFlow Matching多机器人数据开源首个通用机器人基础模型
OpenVLAStanford/Berkeley2024.067BEarly Fusion97万轨迹开源最早的开源VLA之一
UniVLABAAI/CASIA2025.06-统一架构多源数据开源统一感知-动作输出
HybridVLAPKU2025.03-Hybrid专有数据开源扩散+自回归混合

4.2 关键技术指标对比

模型动作频率泛化能力灵巧操作多机器人支持复杂推理
GR00T N130Hz★★★★★★★★★☆★★★☆☆★★★★★
Ψ₀30Hz★★★★☆★★★★★★★★★☆★★★★☆
Gemini Robotics-★★★★★★★★★★★★★★★★★★★★
EO-1-★★★★☆★★★★☆★★★★☆★★★★☆
Being-H0.5-★★★★★★★★★★★★★★★★★★☆☆
π050Hz★★★★☆★★★★★★★★★★★★★☆☆
OpenVLA5-10Hz★★★☆☆★★★☆☆★★★☆☆★★★☆☆

五、代表性模型详解

5.1 GR00T N1(NVIDIA)

GR00T N1是NVIDIA推出的人形机器人基础模型,其核心特点包括:

架构设计

  • 采用Diffusion Transformer(DiT)架构处理多模态输入
  • 支持视觉、本体感受、文本等多模态信息
  • 动作生成使用流匹配方法

关键技术

  • 物理推理:能够理解物体的物理属性(质量、摩擦力等)
  • 双手操作:专注人形机器人的灵巧操作
  • NIM微服务:提供标准化的部署方案6

5.2 Ψ₀(USC PSI Lab)

Ψ₀是南加州大学物理超智能实验室开发的通用人形VLA模型:

架构特点

  • 开源的人形loco-manipulation基础模型
  • 支持行走与操作的协同控制
  • 基于扩散的动作生成

创新点

  • 专门针对人形机器人形态优化
  • 强调从人类运动数据中迁移技能13

5.3 Gemini Robotics(Google)

Gemini Robotics是基于Gemini 2.0的VLA模型家族:

核心能力

  • Gemini Robotics-1.5:通用VLA模型,支持多种任务
  • Gemini Robotics-ER:Embody Reasoning版本,支持世界模型

技术亮点

  • 先进的视觉理解能力
  • 支持视觉提示(Visual Prompting)
  • 强大的长程推理能力7

5.4 EO-1(上海AI Lab)

EO-1是上海人工智能实验室推出的交错视觉-文本-动作预训练模型:

核心贡献

  • 提出VTA(Vision-Text-Action)交错预训练范式
  • 在多种机器人平台上验证了效果
  • 强调视觉、语言、动作的时序交错建模14

5.5 π0(Physical Intelligence)

π0是首个真正意义上的通用机器人基础模型:

技术特点

  • Flow Matching动作生成
  • 支持单臂、双臂、移动机器人等多种形态
  • 可通过微调适应新任务

影响力

  • 开源推动了社区发展
  • 验证了大规模预训练+微调的范式4

5.6 RynnBrain(阿里DAMO)

RynnBrain是阿里巴巴DAMO Academy推出的开源具身基础模型系列:

模型家族

  • RynnVLA-001:基于人类演示的机器人操作
  • RynnVLA-002:统一VLA+世界模型
  • 基于Qwen3-VL构建

特点

  • 面向开源社区
  • 支持多种机器人应用场景10

六、技术趋势

6.1 流匹配动作生成

流匹配(Flow Matching)已成为VLA模型动作生成的主流方法,相比传统的扩散模型和自回归方法,具有以下优势:

工作原理

其中 是时间 的动作状态, 是学习的向量场。

优势

  • 轨迹级生成:直接生成完整的动作轨迹
  • 时间效率:通常只需10-20步去噪即可
  • 动作平滑:生成的动作序列自然连贯

代表性工作

  • π0:首个大规模应用的Flow Matching VLA4
  • VITA:视觉到动作的流匹配策略15
  • AsyncVLA:异步流匹配,处理非均匀时间步16

6.2 双系统架构

双系统VLA架构借鉴了人类认知中的System 1(快思考)和System 2(慢思考)理论:

架构设计

┌────────────────────────────────────────────────────────────────┐
│                     双系统VLA架构                               │
├────────────────────────────────────────────────────────────────┤
│                                                                │
│   System 2 (慢速推理)              System 1 (快速反应)          │
│   ┌──────────────────┐           ┌──────────────────┐         │
│   │ MLLM (如LLaVA)   │           │ 轻量级VLA        │         │
│   │ • 任务规划       │  ──────▶  │ • 快速动作生成   │         │
│   │ • 复杂推理       │           │ • 实时响应       │         │
│   │ • 长期决策       │           │ • 高频控制       │         │
│   └──────────────────┘           └──────────────────┘         │
│              │                           │                    │
│              └───────────┬───────────────┘                    │
│                          ▼                                    │
│                  ┌──────────────────┐                         │
│                  │  动作执行        │                         │
│                  └──────────────────┘                         │
└────────────────────────────────────────────────────────────────┘

代表工作

  • OPENHELIX:系统分析双系统VLA的设计选择5
  • Hume:引入System 2思维的人形机器人VLA17
  • G0:Galaxea双系统模型18

优势

  • System 1保证实时响应能力
  • System 2处理复杂推理任务
  • 两者互补,提升整体性能

6.3 其他技术趋势

  1. 统一世界模型

    • 动作预测与未来预测统一
    • RynnVLA-002等模型同时学习VLA和世界模型
  2. 跨具身泛化

    • 从人类视频中学习技能(Being-H0.5)
    • 减少对特定机器人数据的依赖
  3. 高效推理

    • 异步VLA处理非均匀时间步
    • LoRA等轻量微调技术

七、总结与展望

7.1 当前挑战

尽管VLA模型取得了显著进展,但仍面临以下挑战:

挑战描述潜在方向
数据效率需要大量机器人数据仿真数据、人类视频迁移
泛化能力跨任务、跨场景泛化更大规模、更多样化的预训练
实时性高频动作生成模型压缩、异步架构
安全性物理世界中的安全部署约束学习、人类在环

7.2 未来展望

  1. 更大规模的预训练:随着数据量增加,VLA将具备更强的通用能力

  2. 具身化基础模型:类似GPT-4o的多模态理解与生成能力将迁移到机器人

  3. 开源生态:GR00T N1、RynnBrain等开源项目将加速社区发展

  4. 人机协作:VLA模型将支持更自然的人机交互

参考资料


本文档整理了截至2026年5月的VLA基础模型发展现状,重点关注具身机器人领域的最新进展。

Footnotes

  1. Ma Y, Song Z, Zhuang Y, et al. A Survey on Vision-Language-Action Models for Embodied AI[J]. arXiv preprint arXiv:2405.14093, 2024.

  2. Brohan A, Brown N, Carbajal J, et al. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control[J]. arXiv preprint arXiv:2307.14818, 2023. 2

  3. Kim M J, Pertsch K, Karamcheti S, et al. OpenVLA: An Open-Source Vision-Language-Action Model[J]. arXiv preprint arXiv:2406.09246, 2024. 2

  4. Black K, Brown N, Driess D, et al. π₀: A Vision-Language-Action Flow Model for General Robot Control[J]. arXiv preprint arXiv:2410.24164, 2024. 2 3 4 5

  5. Cui C, Ding P, Song W, et al. OPENHELIX: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation[J]. arXiv preprint arXiv:2505.03912, 2025. 2

  6. NVIDIA. GR00T N1: An Open Foundation Model for Generalist Humanoid Robots[J]. arXiv preprint arXiv:2503.14734, 2025. 2 3 4

  7. Gemini Robotics Team. Gemini Robotics: Bringing AI into the Physical World[J]. arXiv preprint arXiv:2503.20020, 2025. 2 3

  8. BeingBeyond Team. Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization[J]. arXiv preprint arXiv:2601.12993, 2026.

  9. Wang Y, Li X, Zhang J, et al. Unified Vision-Language-Action Model[J]. arXiv preprint arXiv:2506.19850, 2025.

  10. Dang R, Guo B, Hou K, et al. RynnBrain: Open Embodied Foundation Models[J]. arXiv preprint arXiv:2602.14979, 2026. 2 3

  11. Liu J, Chen H, An P, et al. HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model[J]. arXiv preprint arXiv:2503.10631, 2025.

  12. Huang H, Liu L, Fu L, et al. Early Fusion Helps Vision Language Action Models Generalize Better[C]. ICLR 2025.

  13. Wei S, Jing H, Li B, et al. Ψ₀: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation[J]. arXiv preprint arXiv:2603.12263, 2026.

  14. Qu D, Song H, Chen Q, et al. EO-1: Interleaved Vision-Text-Action Pretraining for General Robot Control[J]. arXiv preprint arXiv:2508.21112, 2025.

  15. Zhao B, Lee A, Chuang I, et al. VITA: Vision-to-Action Flow Matching Policy[J]. arXiv preprint arXiv:2507.13231, 2025.

  16. Jiang Y, Cheng S, Ding Y, et al. AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models[J]. arXiv preprint arXiv:2511.14148, 2025.

  17. Song H, Qu D, Yao Y, et al. Hume: Introducing System-2 Thinking in Visual-Language-Action Model[J]. arXiv preprint arXiv:2505.21432, 2025.

  18. Galaxea Team. Galaxea Open-World Dataset and G0 Dual-System VLA Model[J]. arXiv preprint arXiv:2509.00576, 2025.