VLA视觉-语言-动作基础模型综述

一、引言

视觉-语言-动作（Vision-Language-Action, VLA）模型是近年来机器人领域的重要突破，它将视觉感知、自然语言理解和机器人动作控制统一在单一的多模态大模型框架中。与传统的视觉导航或操作策略不同，VLA模型能够理解自然语言指令，结合视觉观察进行推理，并输出可直接控制机器人的动作序列。¹

VLA模型的兴起源于大型视觉-语言模型（VLM）在数字领域取得的巨大成功。研究人员开始探索如何将这些能力迁移到物理世界的机器人控制中，从而催生了一个新的研究方向——具身人工智能。

二、发展历程

2.1 早期探索阶段（2023-2024）

2023年至2024年初是VLA模型的萌芽期。这一阶段的主要工作包括：

RT-2（Google DeepMind）：首次将视觉-语言模型与机器人动作结合，提出了将动作表示为文本令牌的方法²
OpenVLA：斯坦福大学、UC Berkeley等机构发布的开源VLA模型，7B参数，在97万条机器人轨迹数据上预训练³
π0（Physical Intelligence）：首个真正意义上通用的机器人基础模型，能够控制多种不同类型的机器人⁴

2.2 架构突破阶段（2024-2025）

2024年下半年至2025年，VLA模型进入快速发展期：

扩散动作生成：以π0为代表的流匹配（Flow Matching）方法开始流行，取代了早期的离散动作令牌方法⁴
双系统架构：System 1（快速反应）+ System 2（慢速推理）的混合架构成为新趋势⁵
具身化扩展：GR00T N1、Gemini Robotics等面向人形机器人的VLA模型相继发布⁶⁷

2.3 统一与泛化阶段（2025至今）

当前阶段的特点是追求更强的泛化能力和统一架构：

跨具身泛化：Being-H0.5、UniVLA等模型尝试在不同机器人形态间迁移⁸⁹
世界模型整合：RynnVLA-002等模型将动作预测与世界模型统一¹⁰
开源生态：NVIDIA GR00T、阿里RynnBrain等开源项目推动了社区发展⁶¹⁰

三、架构分类

VLA模型的融合策略是决定其性能的关键因素。根据多模态信息融合的时机和方式，可分为三类：

3.1 融合策略对比

┌─────────────────────────────────────────────────────────────────────────────┐
│                        VLA架构融合策略对比                                   │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  ┌─────────────┐      ┌─────────────┐      ┌─────────────┐                 │
│  │   图像输入   │      │   图像输入   │      │   图像输入   │                 │
│  └──────┬──────┘      └──────┬──────┘      └──────┬──────┘                 │
│         │                   │                   │                         │
│         ▼                   ▼                   ▼                         │
│  ┌─────────────┐      ┌─────────────┐      ┌─────────────┐                 │
│  │ 视觉编码器   │      │ 视觉编码器   │      │ 视觉编码器   │                 │
│  │ (Early     │      │ (Early     │      │ (Early     │                 │
│  │  Encoder)  │      │  Encoder)   │      │  Encoder)  │                 │
│  └──────┬──────┘      └──────┬──────┘      └──────┬──────┘                 │
│         │                   │                   │                         │
│         ▼                   ▼                   ▼                         │
│  ┌─────────────┐      ┌─────────────┐      ┌─────────────┐                 │
│  │  多模态融合  │      │  多模态融合  │      │  多模态融合  │                 │
│  │ (Token      │      │ (Cross-     │      │ (Late      │                 │
│  │  Concate)   │      │  Attention) │      │  Fusion)   │                 │
│  └──────┬──────┘      └──────┬──────┘      └──────┬──────┘                 │
│         │                   │                   │                         │
│         ▼                   ▼                   ▼                         │
│  ┌─────────────────────────────────────────────────────────────┐            │
│  │                    语言模型主干                              │            │
│  │              (Vicuna/Llama/Qwen等)                          │            │
│  └──────────────────────────┬──────────────────────────────────┘            │
│                             │                                             │
│         ┌───────────────────┼───────────────────┐                          │
│         ▼                   ▼                   ▼                          │
│  ┌─────────────┐      ┌─────────────┐      ┌─────────────┐                 │
│  │   动作输出   │      │   动作输出   │      │   动作输出   │                 │
│  │ (Action    │      │ (Action    │      │ (Action    │                 │
│  │  Tokens)   │      │  Tokens)   │      │  Tokens)   │                 │
│  └─────────────┘      └─────────────┘      └─────────────┘                 │
│                                                                             │
│  Early Fusion          Mid Fusion           Late Fusion                     │
│  (早期融合)            (中期融合)           (晚期融合)                       │
│                                                                             │
│  • OpenVLA            • GR00T N1            • RT-2                         │
│  • π0                 • Gemini Robotics     • 多数VLM+ Adapter方案         │
│  • RynnBrain          • HybridVLA                                         │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

3.2 各类架构详解

早期融合（Early Fusion）

原理：在输入层直接将视觉令牌与语言令牌拼接，统一输入语言模型进行处理。

代表模型：

OpenVLA：视觉编码器（SigLIP）输出的特征直接与文本令牌拼接，送入LLaMA语言模型³
π0：同样采用早期融合策略，视觉和语言信息在Transformer中充分交互⁴

优点：

视觉与语言特征在早期即深度交互
训练效率高，端到端优化简单
能够学习到更丰富的跨模态表示

缺点：

对视觉编码器的质量依赖度高
推理速度受限于语言模型规模

中期融合（Mid Fusion）

原理：在语言模型的中间层通过交叉注意力机制融合视觉信息。

代表模型：

GR00T N1：NVIDIA推出的具身基础模型，采用DiT架构处理多模态输入⁶
Gemini Robotics：基于Gemini 2.0的VLA模型，支持多图像输入⁷
HybridVLA：结合扩散和自回归的混合架构¹¹

优点：

视觉信息可按需注入，灵活可控
适合处理多视角视觉输入
可利用预训练语言模型的推理能力

缺点：

架构设计复杂
训练难度较高

晚期融合（Late Fusion）

原理：视觉和语言分别编码，在输出层或决策层进行融合。

代表模型：

RT-2：视觉编码和语言编码独立，输出层整合为动作令牌²
多数采用”VLM + 动作头”范式的模型

优点：

架构清晰，易于模块化
可复用成熟的VLM和视觉编码器

缺点：

跨模态交互受限
泛化能力相对较弱¹²

3.3 动作表示方法

方法	描述	代表模型	优缺点
离散动作令牌	将连续动作离散化为文本令牌	RT-2、OpenVLA	实现简单，但精度损失
扩散/流匹配	用扩散模型生成连续动作	π0、GR00T N1	动作平滑，但推理慢
混合方法	结合自回归和扩散	HybridVLA	兼顾精度和效率

四、主流VLA模型对比

4.1 模型综合对比表

模型	机构	发布时间	参数规模	架构类型	预训练数据	开源	特点
GR00T N1	NVIDIA	2025.03	7B+	DiT + Diffusion	9000+小时	部分	人形机器人专用，物理推理
Ψ₀	USC PSI Lab	2025.03	-	Diffusion VLA	人形数据	开源	通用人形智能， loco-manipulation
Gemini Robotics	Google DeepMind	2025.03	-	Gemini 2.0	专有数据	否	ER版本支持世界模型
EO-1	上海AI Lab	2025.08	-	Interleaved VTA	多源数据	开源	视觉-文本-动作交错预训练
Being-H0.5	BeingBeyond	2026.01	-	UniHand	35000+小时	开源	跨具身泛化，人类中心学习
RynnBrain	阿里DAMO	2026.02	-	Qwen3-VL	专有数据	开源	具身基础模型家族
π0	Physical Intelligence	2024.10	7B	Flow Matching	多机器人数据	开源	首个通用机器人基础模型
OpenVLA	Stanford/Berkeley	2024.06	7B	Early Fusion	97万轨迹	开源	最早的开源VLA之一
UniVLA	BAAI/CASIA	2025.06	-	统一架构	多源数据	开源	统一感知-动作输出
HybridVLA	PKU	2025.03	-	Hybrid	专有数据	开源	扩散+自回归混合

4.2 关键技术指标对比

模型	动作频率	泛化能力	灵巧操作	多机器人支持	复杂推理
GR00T N1	30Hz	★★★★★	★★★★☆	★★★☆☆	★★★★★
Ψ₀	30Hz	★★★★☆	★★★★★	★★★★☆	★★★★☆
Gemini Robotics	-	★★★★★	★★★★★	★★★★★	★★★★★
EO-1	-	★★★★☆	★★★★☆	★★★★☆	★★★★☆
Being-H0.5	-	★★★★★	★★★★★	★★★★★	★★★☆☆
π0	50Hz	★★★★☆	★★★★★	★★★★★	★★★☆☆
OpenVLA	5-10Hz	★★★☆☆	★★★☆☆	★★★☆☆	★★★☆☆

五、代表性模型详解

5.1 GR00T N1（NVIDIA）

GR00T N1是NVIDIA推出的人形机器人基础模型，其核心特点包括：

架构设计：

采用Diffusion Transformer（DiT）架构处理多模态输入
支持视觉、本体感受、文本等多模态信息
动作生成使用流匹配方法

关键技术：

物理推理：能够理解物体的物理属性（质量、摩擦力等）
双手操作：专注人形机器人的灵巧操作
NIM微服务：提供标准化的部署方案⁶

5.2 Ψ₀（USC PSI Lab）

Ψ₀是南加州大学物理超智能实验室开发的通用人形VLA模型：

架构特点：

开源的人形loco-manipulation基础模型
支持行走与操作的协同控制
基于扩散的动作生成

创新点：

专门针对人形机器人形态优化
强调从人类运动数据中迁移技能¹³

5.3 Gemini Robotics（Google）

Gemini Robotics是基于Gemini 2.0的VLA模型家族：

核心能力：

Gemini Robotics-1.5：通用VLA模型，支持多种任务
Gemini Robotics-ER：Embody Reasoning版本，支持世界模型

技术亮点：

先进的视觉理解能力
支持视觉提示（Visual Prompting）
强大的长程推理能力⁷

5.4 EO-1（上海AI Lab）

EO-1是上海人工智能实验室推出的交错视觉-文本-动作预训练模型：

核心贡献：

提出VTA（Vision-Text-Action）交错预训练范式
在多种机器人平台上验证了效果
强调视觉、语言、动作的时序交错建模¹⁴

5.5 π0（Physical Intelligence）

π0是首个真正意义上的通用机器人基础模型：

技术特点：

Flow Matching动作生成
支持单臂、双臂、移动机器人等多种形态
可通过微调适应新任务

影响力：

开源推动了社区发展
验证了大规模预训练+微调的范式⁴

5.6 RynnBrain（阿里DAMO）

RynnBrain是阿里巴巴DAMO Academy推出的开源具身基础模型系列：

模型家族：

RynnVLA-001：基于人类演示的机器人操作
RynnVLA-002：统一VLA+世界模型
基于Qwen3-VL构建

特点：

面向开源社区
支持多种机器人应用场景¹⁰

六、技术趋势

6.1 流匹配动作生成

流匹配（Flow Matching）已成为VLA模型动作生成的主流方法，相比传统的扩散模型和自回归方法，具有以下优势：

工作原理：

\frac{d a ( t )}{d t} = v_{θ} (a (t), t, obs, inst)

其中 $a (t)$ 是时间 $t$ 的动作状态， $v_{θ}$ 是学习的向量场。

优势：

轨迹级生成：直接生成完整的动作轨迹
时间效率：通常只需10-20步去噪即可
动作平滑：生成的动作序列自然连贯

代表性工作：

π0：首个大规模应用的Flow Matching VLA⁴
VITA：视觉到动作的流匹配策略¹⁵
AsyncVLA：异步流匹配，处理非均匀时间步¹⁶

6.2 双系统架构

双系统VLA架构借鉴了人类认知中的System 1（快思考）和System 2（慢思考）理论：

架构设计：

┌────────────────────────────────────────────────────────────────┐
│                     双系统VLA架构                               │
├────────────────────────────────────────────────────────────────┤
│                                                                │
│   System 2 (慢速推理)              System 1 (快速反应)          │
│   ┌──────────────────┐           ┌──────────────────┐         │
│   │ MLLM (如LLaVA)   │           │ 轻量级VLA        │         │
│   │ • 任务规划       │  ──────▶  │ • 快速动作生成   │         │
│   │ • 复杂推理       │           │ • 实时响应       │         │
│   │ • 长期决策       │           │ • 高频控制       │         │
│   └──────────────────┘           └──────────────────┘         │
│              │                           │                    │
│              └───────────┬───────────────┘                    │
│                          ▼                                    │
│                  ┌──────────────────┐                         │
│                  │  动作执行        │                         │
│                  └──────────────────┘                         │
└────────────────────────────────────────────────────────────────┘

代表工作：

OPENHELIX：系统分析双系统VLA的设计选择⁵
Hume：引入System 2思维的人形机器人VLA¹⁷
G0：Galaxea双系统模型¹⁸

优势：

System 1保证实时响应能力
System 2处理复杂推理任务
两者互补，提升整体性能

6.3 其他技术趋势

统一世界模型
- 动作预测与未来预测统一
- RynnVLA-002等模型同时学习VLA和世界模型
跨具身泛化
- 从人类视频中学习技能（Being-H0.5）
- 减少对特定机器人数据的依赖
高效推理
- 异步VLA处理非均匀时间步
- LoRA等轻量微调技术

七、总结与展望

7.1 当前挑战

尽管VLA模型取得了显著进展，但仍面临以下挑战：

挑战	描述	潜在方向
数据效率	需要大量机器人数据	仿真数据、人类视频迁移
泛化能力	跨任务、跨场景泛化	更大规模、更多样化的预训练
实时性	高频动作生成	模型压缩、异步架构
安全性	物理世界中的安全部署	约束学习、人类在环

7.2 未来展望

更大规模的预训练：随着数据量增加，VLA将具备更强的通用能力
具身化基础模型：类似GPT-4o的多模态理解与生成能力将迁移到机器人
开源生态：GR00T N1、RynnBrain等开源项目将加速社区发展
人机协作：VLA模型将支持更自然的人机交互

参考资料

本文档整理了截至2026年5月的VLA基础模型发展现状，重点关注具身机器人领域的最新进展。

Ma Y, Song Z, Zhuang Y, et al. A Survey on Vision-Language-Action Models for Embodied AI[J]. arXiv preprint arXiv:2405.14093, 2024. ↩
Brohan A, Brown N, Carbajal J, et al. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control[J]. arXiv preprint arXiv:2307.14818, 2023. ↩ ↩²
Kim M J, Pertsch K, Karamcheti S, et al. OpenVLA: An Open-Source Vision-Language-Action Model[J]. arXiv preprint arXiv:2406.09246, 2024. ↩ ↩²
Black K, Brown N, Driess D, et al. π₀: A Vision-Language-Action Flow Model for General Robot Control[J]. arXiv preprint arXiv:2410.24164, 2024. ↩ ↩² ↩³ ↩⁴ ↩⁵
Cui C, Ding P, Song W, et al. OPENHELIX: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation[J]. arXiv preprint arXiv:2505.03912, 2025. ↩ ↩²
NVIDIA. GR00T N1: An Open Foundation Model for Generalist Humanoid Robots[J]. arXiv preprint arXiv:2503.14734, 2025. ↩ ↩² ↩³ ↩⁴
Gemini Robotics Team. Gemini Robotics: Bringing AI into the Physical World[J]. arXiv preprint arXiv:2503.20020, 2025. ↩ ↩² ↩³
BeingBeyond Team. Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization[J]. arXiv preprint arXiv:2601.12993, 2026. ↩
Wang Y, Li X, Zhang J, et al. Unified Vision-Language-Action Model[J]. arXiv preprint arXiv:2506.19850, 2025. ↩
Dang R, Guo B, Hou K, et al. RynnBrain: Open Embodied Foundation Models[J]. arXiv preprint arXiv:2602.14979, 2026. ↩ ↩² ↩³
Liu J, Chen H, An P, et al. HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model[J]. arXiv preprint arXiv:2503.10631, 2025. ↩
Huang H, Liu L, Fu L, et al. Early Fusion Helps Vision Language Action Models Generalize Better[C]. ICLR 2025. ↩
Wei S, Jing H, Li B, et al. Ψ₀: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation[J]. arXiv preprint arXiv:2603.12263, 2026. ↩
Qu D, Song H, Chen Q, et al. EO-1: Interleaved Vision-Text-Action Pretraining for General Robot Control[J]. arXiv preprint arXiv:2508.21112, 2025. ↩
Zhao B, Lee A, Chuang I, et al. VITA: Vision-to-Action Flow Matching Policy[J]. arXiv preprint arXiv:2507.13231, 2025. ↩
Jiang Y, Cheng S, Ding Y, et al. AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models[J]. arXiv preprint arXiv:2511.14148, 2025. ↩
Song H, Qu D, Yao Y, et al. Hume: Introducing System-2 Thinking in Visual-Language-Action Model[J]. arXiv preprint arXiv:2505.21432, 2025. ↩
Galaxea Team. Galaxea Open-World Dataset and G0 Dual-System VLA Model[J]. arXiv preprint arXiv:2509.00576, 2025. ↩

Metaphor

探索

VLA视觉-语言-动作基础模型综述

一、引言

二、发展历程

2.1 早期探索阶段（2023-2024）

2.2 架构突破阶段（2024-2025）

2.3 统一与泛化阶段（2025至今）

三、架构分类

3.1 融合策略对比

3.2 各类架构详解

早期融合（Early Fusion）

中期融合（Mid Fusion）

晚期融合（Late Fusion）

3.3 动作表示方法

四、主流VLA模型对比

4.1 模型综合对比表

4.2 关键技术指标对比

五、代表性模型详解

5.1 GR00T N1（NVIDIA）

5.2 Ψ₀（USC PSI Lab）

5.3 Gemini Robotics（Google）

5.4 EO-1（上海AI Lab）

5.5 π0（Physical Intelligence）

5.6 RynnBrain（阿里DAMO）

六、技术趋势

6.1 流匹配动作生成

6.2 双系统架构

6.3 其他技术趋势

七、总结与展望

7.1 当前挑战

7.2 未来展望

参考资料

关系图谱

目录

反向链接

Metaphor

探索

VLA视觉-语言-动作基础模型综述

一、引言

二、发展历程

2.1 早期探索阶段（2023-2024）

2.2 架构突破阶段（2024-2025）

2.3 统一与泛化阶段（2025至今）

三、架构分类

3.1 融合策略对比

3.2 各类架构详解

早期融合（Early Fusion）

中期融合（Mid Fusion）

晚期融合（Late Fusion）

3.3 动作表示方法

四、主流VLA模型对比

4.1 模型综合对比表

4.2 关键技术指标对比

五、代表性模型详解

5.1 GR00T N1（NVIDIA）

5.2 Ψ₀（USC PSI Lab）

5.3 Gemini Robotics（Google）

5.4 EO-1（上海AI Lab）

5.5 π0（Physical Intelligence）

5.6 RynnBrain（阿里DAMO）

六、技术趋势

6.1 流匹配动作生成

6.2 双系统架构

6.3 其他技术趋势

七、总结与展望

7.1 当前挑战

7.2 未来展望

参考资料

Footnotes

关系图谱

目录

反向链接