一、概述

Gemini Robotics是Google DeepMind于2025年3月发布的机器人AI模型系列,旨在将Gemini 2.0的多模态推理能力带入物理世界。该系列包含两个核心模型12

模型类型定位
Gemini RoboticsVLA(视觉-语言-动作)模型直接输出机器人动作控制
Gemini Robotics-ERER(具身推理)模型高级推理与规划,不直接输出动作

1.1 核心创新点

  1. Gemini 2.0基础:继承Gemini 2.0的多模态推理能力,支持文本、图像、视频理解
  2. 零样本泛化:无需针对新任务进行微调即可执行复杂操作
  3. 具身推理能力:理解物理世界的空间关系、物理规律和因果逻辑
  4. 多形态适配:支持多种机器人形态(机械臂、人形机器人等)

二、模型架构

2.1 整体架构图

┌─────────────────────────────────────────────────────────────────────────────┐
│                         Gemini Robotics 架构                                  │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  ┌─────────────────────────────────────────────────────────────────────┐    │
│  │                        多模态输入                                     │    │
│  │  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────────────────┐  │    │
│  │  │  文本指令  │  │  图像/视频 │  │  机器人状态 │  │  具身感知信息        │  │    │
│  │  │  Text    │  │  Vision  │  │  State   │  │  Embodiment         │  │    │
│  │  └────┬─────┘  └────┬─────┘  └────┬─────┘  └──────────┬───────────┘  │    │
│  └───────┼─────────────┼─────────────┼──────────────────┼─────────────┘    │
│          │             │             │                  │                   │
│          ▼             ▼             ▼                  ▼                   │
│  ┌─────────────────────────────────────────────────────────────────────┐    │
│  │                     Gemini 2.0 多模态主干                             │    │
│  │  ┌─────────────────────────────────────────────────────────────┐    │    │
│  │  │                      Transformer 架构                       │    │    │
│  │  │     (图文token融合 + 具身推理 + 物理世界建模 + 代码生成)      │    │    │
│  │  └─────────────────────────────────────────────────────────────┘    │    │
│  └─────────────────────────────────────────────────────────────────────┘    │
│                                    │                                         │
│                                    ▼                                         │
│  ┌─────────────────────────────────────────────────────────────────────┐    │
│  │                          任务适配层                                   │    │
│  │  ┌────────────────────┐    ┌────────────────────┐                   │    │
│  │  │  VLA Head          │    │  ER Head           │                   │    │
│  │  │  (动作预测)         │    │  (推理问答)         │                   │    │
│  │  │                    │    │                    │                   │    │
│  │  │  输出:关节控制     │    │  输出:文本回答     │                   │    │
│  │  │  频率:10-30Hz     │    │  用于:规划/校验    │                   │    │
│  │  └────────────────────┘    └────────────────────┘                   │    │
│  └─────────────────────────────────────────────────────────────────────┘    │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

2.2 VLA与ER模型区分

┌─────────────────────────────────────────────────────────────────────────────┐
│                        VLA vs ER 模型对比                                    │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│    ┌─────────────────────────┐         ┌─────────────────────────┐        │
│    │   Gemini Robotics       │         │   Gemini Robotics-ER    │        │
│    │   (VLA Model)           │         │   (Embodied Reasoning)  │        │
│    ├─────────────────────────┤         ├─────────────────────────┤        │
│    │                         │         │                         │        │
│    │  输入:                   │         │  输入:                   │        │
│    │  • 视觉观测              │         │  • 视觉观测              │        │
│    │  • 自然语言指令          │         │  • 场景描述/问题        │        │
│    │  • 机器人本体状态        │         │  • 任务目标             │        │
│    │                         │         │                         │        │
│    │  输出:                   │         │  输出:                   │        │
│    │  ┌─────────────────┐    │         │  ┌─────────────────┐    │        │
│    │  │ 动作序列        │    │         │  │ 推理文本        │    │        │
│    │  │ (关节角度/力)   │    │         │  │ • 空间关系      │    │        │
│    │  │ 10-30Hz实时控制 │    │         │  │ • 物理规律      │    │        │
│    │  └─────────────────┘    │         │  │ • 动作规划      │    │        │
│    │                         │         │  │ • 因果推断      │    │        │
│    │  用途: 直接控制         │         │  └─────────────────┘    │        │
│    │                         │         │                         │        │
│    │                         │         │  用途: 推理与规划辅助   │        │
│    └─────────────────────────┘         └─────────────────────────┘        │
│                                                                             │
│    关系: ER模型可作为VLA模型的高级规划器,或与VLA协同工作                      │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

三、核心技术能力

3.1 零样本代码生成控制

Gemini Robotics继承了Gemini 2.0的代码生成能力,能够根据自然语言指令生成控制代码,实现零样本任务执行。

核心特点:

  • 代码合成:将高层指令转化为机器人可执行的控制代码
  • 动态调整:运行时根据反馈调整控制策略
  • 多语言支持:可生成Python、C++、ROS代码等多种格式
# 示例:自然语言指令 → 机器人控制代码生成
指令: "将红色积木放到蓝色盒子里面"

┌─────────────────────────────────────────────────────────────┐
│              Gemini Robotics 代码生成                        │
├─────────────────────────────────────────────────────────────┤
│                                                             │
def grasp_red_block():                                     │
# 视觉定位红色积木                                      │
│      block_pos = detect_object("red_block")                │
│                                                             │
# 生成抓取姿态                                          │
│      grasp_pose = calculate_grasp_pose(block_pos)           │
│                                                             │
# 移动机械臂执行抓取                                    │
│      arm.move_to(grasp_pose)                                │
│      gripper.close()                                        │
│                                                             │
def place_in_blue_box():                                   │
# 定位蓝色盒子                                          │
│      box_pos = detect_object("blue_box")                    │
│      target_pose = calculate_place_pose(box_pos)            │
│                                                             │
# 移动并释放                                            │
│      arm.move_to(target_pose)                               │
│      gripper.open()                                         │
│                                                             │
# 执行序列                                                  │
│  grasp_red_block()                                          │
│  place_in_blue_box()                                        │
│                                                             │
└─────────────────────────────────────────────────────────────┘

3.2 少样本上下文学习

Gemini Robotics支持通过少量示例(Few-shot)快速适应新任务,无需传统意义上的微调。

上下文学习机制:

┌─────────────────────────────────────────────────────────────────────────────┐
│                         少样本上下文学习                                      │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  提示模板:                                                                  │
│  ┌─────────────────────────────────────────────────────────────────────┐    │
│  │                                                                     │    │
│  │  示例1: [图像1: 抓取苹果] → [动作序列A]                             │    │
│  │  示例2: [图像2: 放置香蕉] → [动作序列B]                             │    │
│  │  示例3: [图像3: 推杯子]   → [动作序列C]                             │    │
│  │                                                                     │    │
│  │  当前任务: [图像4: 抓取草莓并放入碗中]                               │    │
│  │                                                                     │    │
│  │  ─────────────────────────────────────                             │    │
│  │  预测动作: [动作序列D]                                              │    │
│  │                                                                     │    │
│  └─────────────────────────────────────────────────────────────────────┘    │
│                                                                             │
│  优势:                                                                      │
│  ✓ 无需梯度更新,仅通过提示即可适应新任务                                    │
│  ✓ 可在线快速调整控制策略                                                  │
│  ✓ 保持预训练知识的泛化能力                                                │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

3.3 物理世界理解能力

Gemini Robotics展现出对物理世界规律的深刻理解:

能力类别具体表现技术实现
空间推理理解物体相对位置、三维空间结构立体视觉 + 深度感知
物理规律预测物体运动、碰撞、稳定性物理先验知识嵌入
因果推断理解动作与结果的因果关系序列建模 + 推理链
材质识别识别物体材质(刚性、柔性、多孔性)多模态特征融合
交互预测预测接触时的力反馈和形变触觉先验 + 视觉联合

四、ERQA基准评测

4.1 ERQA概述

ERQA(Embodied Reasoning Question Answer)是由Google DeepMind发布的具身推理问答基准,用于评估AI模型在物理世界交互场景中的推理能力。3

基准特点:

  • 多选题形式:400道视觉问答题目
  • 五大推理维度:空间推理、轨迹推理、动作推理、状态估计、多视角推理
  • 开源可用:GitHub仓库已开放(embodiedreasoning/ERQA

4.2 评测维度

┌─────────────────────────────────────────────────────────────────────────────┐
│                           ERQA 评测维度                                     │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  1. 空间推理 (Spatial Reasoning)                                            │
│     ┌────────────────────────────────────────────────────────────┐          │
│     │  例: "物体A在物体B的哪个方向?"                              │          │
│     │  考察: 三维空间关系理解                                      │          │
│     └────────────────────────────────────────────────────────────┘          │
│                                                                             │
│  2. 轨迹推理 (Trajectory Reasoning)                                         │
│     ┌────────────────────────────────────────────────────────────┐          │
│     │  例: "如果从当前位置向右移动,物体的轨迹是什么?"            │          │
│     │  考察: 运动预测与路径规划                                     │          │
│     └────────────────────────────────────────────────────────────┘          │
│                                                                             │
│  3. 动作推理 (Action Reasoning)                                            │
│     ┌────────────────────────────────────────────────────────────┐          │
│     │  例: "需要什么动作序列才能到达目标状态?"                     │          │
│     │  考察: 逆动作规划与策略推理                                   │          │
│     └────────────────────────────────────────────────────────────┘          │
│                                                                             │
│  4. 状态估计 (State Estimation)                                            │
│     ┌────────────────────────────────────────────────────────────┐          │
│     │  例: "给定观察,物体当前处于什么状态?"                       │          │
│     │  考察: 隐状态推断与物理建模                                   │          │
│     └────────────────────────────────────────────────────────────┘          │
│                                                                             │
│  5. 多视角推理 (Multi-view Reasoning)                                       │
│     ┌────────────────────────────────────────────────────────────┐          │
│     │  例: "从顶部视角看,这个场景是什么布局?"                     │          │
│     │  考察: 视角变换与三维重建                                      │          │
│     └────────────────────────────────────────────────────────────┘          │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

4.3 评测结果对比

模型ERQA得分说明
GPT-565.7%领先水平
Gemini Robotics-ER62.3%ER专项优化
Qwen3.6 Plus58.1%开源最强
GPT-4o54.6%基线对比
Gemini 2.0 Flash51.2%轻量版

五、Gemini Robotics 1.5 技术进展

2025年9月,Google DeepMind发布了Gemini Robotics 1.5技术报告,带来了多项技术突破。4

5.1 核心技术升级

┌─────────────────────────────────────────────────────────────────────────────┐
│                    Gemini Robotics 1.5 技术创新                               │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  ┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐             │
│  │   高级具身推理   │  │   思维链推理     │  │   运动迁移      │             │
│  │ Advanced ER     │  │ Chain-of-Thought│  │ Motion Transfer │             │
│  ├─────────────────┤  ├─────────────────┤  ├─────────────────┤             │
│  │ • 更精确的空间  │  │ • 显式推理过程  │  │ • 跨机器人形态  │             │
│  │   理解          │  │ • 可解释性增强  │  │   技能迁移      │             │
│  │ • 物理规律应用  │  │ • 复杂任务分解  │  │ • 动作原语库    │             │
│  │ • 场景预测      │  │ • 自纠错能力    │  │ • 模仿学习增强  │             │
│  └─────────────────┘  └─────────────────┘  └─────────────────┘             │
│                                                                             │
│  ┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐             │
│  │   多形态支持     │  │   灵巧操作      │  │   实时响应      │             │
│  │   Multi-        │  │   Dexterous     │  │   Real-time     │             │
│  │   embodiment    │  │   Manipulation  │  │   Response      │             │
│  ├─────────────────┤  ├─────────────────┤  ├─────────────────┤             │
│  │ • 机械臂        │  │ • 精细手指控制  │  │ • 10-30Hz控制  │             │
│  │ • 人形机器人    │  │ • 柔性物体操作  │  │ • 低延迟推理   │             │
│  │ • 移动平台      │  │ • 工具使用      │  │ • 闭环反馈     │             │
│  │ • 异构多机器人  │  │ • 多指灵巧手    │  │ • 动态避障     │             │
│  └─────────────────┘  └─────────────────┘  └─────────────────┘             │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

5.2 三大核心创新

5.2.1 高级具身推理(Advanced Embodied Reasoning)

在Gemini Robotics-ER基础上进一步提升:

  • 精确空间建模:毫米级精度理解物体位置关系
  • 物理模拟集成:内嵌简化物理引擎进行运动预测
  • 场景状态追踪:长时间任务中的状态一致性维护

5.2.2 思维链推理(Chain-of-Thought for Robotics)

引入类似”慢思考”的推理机制:

输入: "把桌上的杯子放到洗碗机里"
       │
       ▼
┌─────────────────────────────────────────┐
│  Step 1: 定位杯子位置                    │
│  "检测到杯子在桌面中央偏左位置"          │
│       │                                 │
│       ▼                                 │
│  Step 2: 分析杯子特征                    │
│  "玻璃材质,需轻拿轻放"                  │
│       │                                 │
│       ▼                                 │
│  Step 3: 规划抓取策略                    │
│  "从侧面或上方抓取,避免滑落"            │
│       │                                 │
│       ▼                                 │
│  Step 4: 生成动作序列                    │
│  "接近 → 对准 → 闭合 → 提起 → 移动 → ..." │
│       │                                 │
│       ▼                                 │
│  Step 5: 预测执行结果                    │
│  "如果抓取成功,杯子将稳定移动到目标位置" │
└─────────────────────────────────────────┘

5.2.3 运动迁移(Motion Transfer)

实现跨机器人形态的技能迁移:

  • 动作原语库:预定义的动作原语可跨平台复用
  • 形态适配层:自动调整动作参数以适应不同机器人
  • 零样本泛化:在一个机器人上学到的技能可迁移到其他形态

六、与其他VLA模型对比

6.1 主流VLA模型对比表

特性Gemini RoboticsRT-2OpenVLAπ0GR00T N1
基础模型Gemini 2.0PaLM-ELlama自研Nemotron
参数量~20B~55B7B7B22B
动作表示连续+离散离散令牌离散令牌流匹配流匹配
控制频率10-30Hz1-5Hz5-10Hz25Hz5-30Hz
零样本能力★★★★★★★★★★★★★★★★
灵巧操作★★★★★★★★★★★★★★★★★
具身推理★★★★★★★★★★★★★★
开源程度部分开源不可完全开源部分开源部分开源

6.2 关键差异分析

┌─────────────────────────────────────────────────────────────────────────────┐
│                        Gemini Robotics 差异化优势                             │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  ┌─────────────────────────────────────────────────────────────────────┐    │
│  │                    1. 多模态推理的深度整合                           │    │
│  │                                                                     │    │
│  │  传统VLA: 视觉→语言→动作(串联式)                                   │    │
│  │  Gemini:  视觉↔语言↔动作(并行式交叉注意力)                         │    │
│  │                                                                     │    │
│  │  优势: 推理过程可利用所有模态信息,避免信息丢失                       │    │
│  └─────────────────────────────────────────────────────────────────────┘    │
│                                                                             │
│  ┌─────────────────────────────────────────────────────────────────────┐    │
│  │                    2. ER专用模型的精细设计                           │    │
│  │                                                                     │    │
│  │  ┌────────────────┐                                                  │    │
│  │  │ Gemini Robotics │ ──→ 直接动作控制(高频)                        │    │
│  │  │   (VLA)        │                                                  │    │
│  │  └────────────────┘                                                  │    │
│  │           ↓ 协同                                                     │    │
│  │  ┌────────────────┐                                                  │    │
│  │  │ Gemini         │ ──→ 推理规划(高精度)                           │    │
│  │  │ Robotics-ER    │                                                  │    │
│  │  └────────────────┘                                                  │    │
│  │                                                                     │    │
│  │  优势: 不同任务使用最适合的模型,避免一刀切                          │    │
│  └─────────────────────────────────────────────────────────────────────┘    │
│                                                                             │
│  ┌─────────────────────────────────────────────────────────────────────┐    │
│  │                    3. 物理世界常识的嵌入                             │    │
│  │                                                                     │    │
│  │  Gemini Robotics 2.0: 物理规律、因果关系、材质属性、稳定性判断        │    │
│  │  这些"常识"使模型能够处理训练数据中从未见过的场景                     │    │
│  └─────────────────────────────────────────────────────────────────────┘    │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

七、应用场景

7.1 典型应用案例

场景任务描述技术要点
家庭服务整理房间、摆放餐具、操作家电日常物品理解、精细操作
厨房助手准备沙拉、折叠衣物、制作咖啡食材识别、工具使用、时序规划
工业装配电子产品组装、零件分拣、包装精确定位、容错处理、质量检测
医疗辅助手术器械递送、康复训练、药品分发安全优先、高精度控制
仓储物流货物分拣、打包、搬运多物体操作、路径优化

7.2 Gemini Robotics-ER应用架构

┌─────────────────────────────────────────────────────────────────────────────┐
│                    Gemini Robotics-ER 应用架构                               │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│                      ┌─────────────────┐                                    │
│                      │   用户指令       │                                    │
│                      │  "整理这个房间"  │                                    │
│                      └────────┬────────┘                                    │
│                               │                                              │
│                               ▼                                              │
│                      ┌─────────────────┐                                    │
│                      │ Gemini Robotics │                                    │
│                      │      -ER        │  推理与规划                          │
│                      │                 │                                    │
│                      │ • 场景分析      │                                    │
│                      │ • 任务分解      │                                    │
│                      │ • 动作规划      │                                    │
│                      └────────┬────────┘                                    │
│                               │                                              │
│              ┌────────────────┼────────────────┐                            │
│              │                │                │                            │
│              ▼                ▼                ▼                            │
│       ┌──────────┐     ┌──────────┐     ┌──────────┐                         │
│       │ 任务1    │     │ 任务2    │     │ 任务3    │  ...                    │
│       │ 收拾衣物  │     │ 摆放物品  │     │ 清洁地面  │                         │
│       └────┬─────┘     └────┬─────┘     └────┬─────┘                         │
│            │                │                │                                │
│            ▼                ▼                ▼                                │
│       ┌─────────────────────────────────────────────┐                       │
│       │            Gemini Robotics (VLA)             │                       │
│       │              动作执行层                      │                       │
│       │                                            │                       │
│       │   ┌────────┐  ┌────────┐  ┌────────┐        │                       │
│       │   │感知融合 │  │策略生成 │  │动作输出 │        │                       │
│       │   └────────┘  └────────┘  └────────┘        │                       │
│       └──────────────────────┬──────────────────────┘                       │
│                              │                                               │
│                              ▼                                               │
│                      ┌─────────────────┐                                    │
│                      │   机器人执行器   │                                    │
│                      │   • 低层控制    │                                    │
│                      │   • 传感器反馈  │                                    │
│                      └────────┬────────┘                                    │
│                               │                                              │
│                               ▼                                              │
│                      ┌─────────────────┐                                    │
│                      │   执行结果反馈   │                                    │
│                      └─────────────────┘                                    │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

八、技术规格与限制

8.1 模型规格

规格项Gemini RoboticsGemini Robotics-ER
基础模型Gemini 2.0Gemini 2.0
参数量~20B~20B
上下文窗口1M tokens1M tokens
支持模态文本、图像、视频、音频、具身状态文本、图像、视频、音频
输出形式动作序列推理文本
控制频率10-30HzN/A

8.2 当前限制

  1. 实时性挑战:复杂推理需要额外计算时间
  2. 物理接触:对精细力控任务仍有提升空间
  3. 长程任务:多步骤任务的长期状态一致性
  4. 安全边界:需要额外的安全层确保人机协作安全
  5. 硬件依赖:对机器人硬件接口有标准化需求

九、参考资料


相关链接


相关词条

具身人工智能 | VLA基础模型综述 | NVIDIA GR00T N1 | Physical Intelligence π0

Footnotes

  1. Gemini Robotics: Bringing AI into the Physical World. Google DeepMind, 2025. arXiv:2503.20020

  2. Introducing Gemini Robotics and Gemini Robotics-ER. Google DeepMind Blog, March 2025.

  3. ERQA Benchmark. GitHub Repository: embodiedreasoning/ERQA.

  4. Gemini Robotics 1.5: Pushing the Frontier of Generalist Robots with Advanced Embodied Reasoning, Thinking, and Motion Transfer. Google DeepMind, 2025. arXiv:2510.03342