Gemini Robotics

一、概述

Gemini Robotics是Google DeepMind于2025年3月发布的机器人AI模型系列，旨在将Gemini 2.0的多模态推理能力带入物理世界。该系列包含两个核心模型¹²：

模型	类型	定位
Gemini Robotics	VLA（视觉-语言-动作）模型	直接输出机器人动作控制
Gemini Robotics-ER	ER（具身推理）模型	高级推理与规划，不直接输出动作

1.1 核心创新点

Gemini 2.0基础：继承Gemini 2.0的多模态推理能力，支持文本、图像、视频理解
零样本泛化：无需针对新任务进行微调即可执行复杂操作
具身推理能力：理解物理世界的空间关系、物理规律和因果逻辑
多形态适配：支持多种机器人形态（机械臂、人形机器人等）

二、模型架构

2.1 整体架构图

┌─────────────────────────────────────────────────────────────────────────────┐
│                         Gemini Robotics 架构                                  │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  ┌─────────────────────────────────────────────────────────────────────┐    │
│  │                        多模态输入                                     │    │
│  │  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────────────────┐  │    │
│  │  │  文本指令  │  │  图像/视频 │  │  机器人状态 │  │  具身感知信息        │  │    │
│  │  │  Text    │  │  Vision  │  │  State   │  │  Embodiment         │  │    │
│  │  └────┬─────┘  └────┬─────┘  └────┬─────┘  └──────────┬───────────┘  │    │
│  └───────┼─────────────┼─────────────┼──────────────────┼─────────────┘    │
│          │             │             │                  │                   │
│          ▼             ▼             ▼                  ▼                   │
│  ┌─────────────────────────────────────────────────────────────────────┐    │
│  │                     Gemini 2.0 多模态主干                             │    │
│  │  ┌─────────────────────────────────────────────────────────────┐    │    │
│  │  │                      Transformer 架构                       │    │    │
│  │  │     (图文token融合 + 具身推理 + 物理世界建模 + 代码生成)      │    │    │
│  │  └─────────────────────────────────────────────────────────────┘    │    │
│  └─────────────────────────────────────────────────────────────────────┘    │
│                                    │                                         │
│                                    ▼                                         │
│  ┌─────────────────────────────────────────────────────────────────────┐    │
│  │                          任务适配层                                   │    │
│  │  ┌────────────────────┐    ┌────────────────────┐                   │    │
│  │  │  VLA Head          │    │  ER Head           │                   │    │
│  │  │  (动作预测)         │    │  (推理问答)         │                   │    │
│  │  │                    │    │                    │                   │    │
│  │  │  输出：关节控制     │    │  输出：文本回答     │                   │    │
│  │  │  频率：10-30Hz     │    │  用于：规划/校验    │                   │    │
│  │  └────────────────────┘    └────────────────────┘                   │    │
│  └─────────────────────────────────────────────────────────────────────┘    │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

2.2 VLA与ER模型区分

┌─────────────────────────────────────────────────────────────────────────────┐
│                        VLA vs ER 模型对比                                    │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│    ┌─────────────────────────┐         ┌─────────────────────────┐        │
│    │   Gemini Robotics       │         │   Gemini Robotics-ER    │        │
│    │   (VLA Model)           │         │   (Embodied Reasoning)  │        │
│    ├─────────────────────────┤         ├─────────────────────────┤        │
│    │                         │         │                         │        │
│    │  输入:                   │         │  输入:                   │        │
│    │  • 视觉观测              │         │  • 视觉观测              │        │
│    │  • 自然语言指令          │         │  • 场景描述/问题        │        │
│    │  • 机器人本体状态        │         │  • 任务目标             │        │
│    │                         │         │                         │        │
│    │  输出:                   │         │  输出:                   │        │
│    │  ┌─────────────────┐    │         │  ┌─────────────────┐    │        │
│    │  │ 动作序列        │    │         │  │ 推理文本        │    │        │
│    │  │ (关节角度/力)   │    │         │  │ • 空间关系      │    │        │
│    │  │ 10-30Hz实时控制 │    │         │  │ • 物理规律      │    │        │
│    │  └─────────────────┘    │         │  │ • 动作规划      │    │        │
│    │                         │         │  │ • 因果推断      │    │        │
│    │  用途: 直接控制         │         │  └─────────────────┘    │        │
│    │                         │         │                         │        │
│    │                         │         │  用途: 推理与规划辅助   │        │
│    └─────────────────────────┘         └─────────────────────────┘        │
│                                                                             │
│    关系: ER模型可作为VLA模型的高级规划器，或与VLA协同工作                      │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

三、核心技术能力

3.1 零样本代码生成控制

Gemini Robotics继承了Gemini 2.0的代码生成能力，能够根据自然语言指令生成控制代码，实现零样本任务执行。

核心特点：

代码合成：将高层指令转化为机器人可执行的控制代码
动态调整：运行时根据反馈调整控制策略
多语言支持：可生成Python、C++、ROS代码等多种格式

# 示例：自然语言指令 → 机器人控制代码生成
指令: "将红色积木放到蓝色盒子里面"
      ↓
┌─────────────────────────────────────────────────────────────┐
│              Gemini Robotics 代码生成                        │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  def grasp_red_block():                                     │
│      # 视觉定位红色积木                                      │
│      block_pos = detect_object("red_block")                │
│                                                             │
│      # 生成抓取姿态                                          │
│      grasp_pose = calculate_grasp_pose(block_pos)           │
│                                                             │
│      # 移动机械臂执行抓取                                    │
│      arm.move_to(grasp_pose)                                │
│      gripper.close()                                        │
│                                                             │
│  def place_in_blue_box():                                   │
│      # 定位蓝色盒子                                          │
│      box_pos = detect_object("blue_box")                    │
│      target_pose = calculate_place_pose(box_pos)            │
│                                                             │
│      # 移动并释放                                            │
│      arm.move_to(target_pose)                               │
│      gripper.open()                                         │
│                                                             │
│  # 执行序列                                                  │
│  grasp_red_block()                                          │
│  place_in_blue_box()                                        │
│                                                             │
└─────────────────────────────────────────────────────────────┘

3.2 少样本上下文学习

Gemini Robotics支持通过少量示例（Few-shot）快速适应新任务，无需传统意义上的微调。

上下文学习机制：

┌─────────────────────────────────────────────────────────────────────────────┐
│                         少样本上下文学习                                      │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  提示模板:                                                                  │
│  ┌─────────────────────────────────────────────────────────────────────┐    │
│  │                                                                     │    │
│  │  示例1: [图像1: 抓取苹果] → [动作序列A]                             │    │
│  │  示例2: [图像2: 放置香蕉] → [动作序列B]                             │    │
│  │  示例3: [图像3: 推杯子]   → [动作序列C]                             │    │
│  │                                                                     │    │
│  │  当前任务: [图像4: 抓取草莓并放入碗中]                               │    │
│  │                                                                     │    │
│  │  ─────────────────────────────────────                             │    │
│  │  预测动作: [动作序列D]                                              │    │
│  │                                                                     │    │
│  └─────────────────────────────────────────────────────────────────────┘    │
│                                                                             │
│  优势:                                                                      │
│  ✓ 无需梯度更新，仅通过提示即可适应新任务                                    │
│  ✓ 可在线快速调整控制策略                                                  │
│  ✓ 保持预训练知识的泛化能力                                                │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

3.3 物理世界理解能力

Gemini Robotics展现出对物理世界规律的深刻理解：

能力类别	具体表现	技术实现
空间推理	理解物体相对位置、三维空间结构	立体视觉 + 深度感知
物理规律	预测物体运动、碰撞、稳定性	物理先验知识嵌入
因果推断	理解动作与结果的因果关系	序列建模 + 推理链
材质识别	识别物体材质（刚性、柔性、多孔性）	多模态特征融合
交互预测	预测接触时的力反馈和形变	触觉先验 + 视觉联合

四、ERQA基准评测

4.1 ERQA概述

ERQA（Embodied Reasoning Question Answer）是由Google DeepMind发布的具身推理问答基准，用于评估AI模型在物理世界交互场景中的推理能力。³

基准特点：

多选题形式：400道视觉问答题目
五大推理维度：空间推理、轨迹推理、动作推理、状态估计、多视角推理
开源可用：GitHub仓库已开放（embodiedreasoning/ERQA）

4.2 评测维度

┌─────────────────────────────────────────────────────────────────────────────┐
│                           ERQA 评测维度                                     │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  1. 空间推理 (Spatial Reasoning)                                            │
│     ┌────────────────────────────────────────────────────────────┐          │
│     │  例: "物体A在物体B的哪个方向？"                              │          │
│     │  考察: 三维空间关系理解                                      │          │
│     └────────────────────────────────────────────────────────────┘          │
│                                                                             │
│  2. 轨迹推理 (Trajectory Reasoning)                                         │
│     ┌────────────────────────────────────────────────────────────┐          │
│     │  例: "如果从当前位置向右移动，物体的轨迹是什么？"            │          │
│     │  考察: 运动预测与路径规划                                     │          │
│     └────────────────────────────────────────────────────────────┘          │
│                                                                             │
│  3. 动作推理 (Action Reasoning)                                            │
│     ┌────────────────────────────────────────────────────────────┐          │
│     │  例: "需要什么动作序列才能到达目标状态？"                     │          │
│     │  考察: 逆动作规划与策略推理                                   │          │
│     └────────────────────────────────────────────────────────────┘          │
│                                                                             │
│  4. 状态估计 (State Estimation)                                            │
│     ┌────────────────────────────────────────────────────────────┐          │
│     │  例: "给定观察，物体当前处于什么状态？"                       │          │
│     │  考察: 隐状态推断与物理建模                                   │          │
│     └────────────────────────────────────────────────────────────┘          │
│                                                                             │
│  5. 多视角推理 (Multi-view Reasoning)                                       │
│     ┌────────────────────────────────────────────────────────────┐          │
│     │  例: "从顶部视角看，这个场景是什么布局？"                     │          │
│     │  考察: 视角变换与三维重建                                      │          │
│     └────────────────────────────────────────────────────────────┘          │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

4.3 评测结果对比

模型	ERQA得分	说明
GPT-5	65.7%	领先水平
Gemini Robotics-ER	62.3%	ER专项优化
Qwen3.6 Plus	58.1%	开源最强
GPT-4o	54.6%	基线对比
Gemini 2.0 Flash	51.2%	轻量版

五、Gemini Robotics 1.5 技术进展

2025年9月，Google DeepMind发布了Gemini Robotics 1.5技术报告，带来了多项技术突破。⁴

5.1 核心技术升级

┌─────────────────────────────────────────────────────────────────────────────┐
│                    Gemini Robotics 1.5 技术创新                               │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  ┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐             │
│  │   高级具身推理   │  │   思维链推理     │  │   运动迁移      │             │
│  │ Advanced ER     │  │ Chain-of-Thought│  │ Motion Transfer │             │
│  ├─────────────────┤  ├─────────────────┤  ├─────────────────┤             │
│  │ • 更精确的空间  │  │ • 显式推理过程  │  │ • 跨机器人形态  │             │
│  │   理解          │  │ • 可解释性增强  │  │   技能迁移      │             │
│  │ • 物理规律应用  │  │ • 复杂任务分解  │  │ • 动作原语库    │             │
│  │ • 场景预测      │  │ • 自纠错能力    │  │ • 模仿学习增强  │             │
│  └─────────────────┘  └─────────────────┘  └─────────────────┘             │
│                                                                             │
│  ┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐             │
│  │   多形态支持     │  │   灵巧操作      │  │   实时响应      │             │
│  │   Multi-        │  │   Dexterous     │  │   Real-time     │             │
│  │   embodiment    │  │   Manipulation  │  │   Response      │             │
│  ├─────────────────┤  ├─────────────────┤  ├─────────────────┤             │
│  │ • 机械臂        │  │ • 精细手指控制  │  │ • 10-30Hz控制  │             │
│  │ • 人形机器人    │  │ • 柔性物体操作  │  │ • 低延迟推理   │             │
│  │ • 移动平台      │  │ • 工具使用      │  │ • 闭环反馈     │             │
│  │ • 异构多机器人  │  │ • 多指灵巧手    │  │ • 动态避障     │             │
│  └─────────────────┘  └─────────────────┘  └─────────────────┘             │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

5.2 三大核心创新

5.2.1 高级具身推理（Advanced Embodied Reasoning）

在Gemini Robotics-ER基础上进一步提升：

精确空间建模：毫米级精度理解物体位置关系
物理模拟集成：内嵌简化物理引擎进行运动预测
场景状态追踪：长时间任务中的状态一致性维护

5.2.2 思维链推理（Chain-of-Thought for Robotics）

引入类似”慢思考”的推理机制：

输入: "把桌上的杯子放到洗碗机里"
       │
       ▼
┌─────────────────────────────────────────┐
│  Step 1: 定位杯子位置                    │
│  "检测到杯子在桌面中央偏左位置"          │
│       │                                 │
│       ▼                                 │
│  Step 2: 分析杯子特征                    │
│  "玻璃材质，需轻拿轻放"                  │
│       │                                 │
│       ▼                                 │
│  Step 3: 规划抓取策略                    │
│  "从侧面或上方抓取，避免滑落"            │
│       │                                 │
│       ▼                                 │
│  Step 4: 生成动作序列                    │
│  "接近 → 对准 → 闭合 → 提起 → 移动 → ..." │
│       │                                 │
│       ▼                                 │
│  Step 5: 预测执行结果                    │
│  "如果抓取成功，杯子将稳定移动到目标位置" │
└─────────────────────────────────────────┘

5.2.3 运动迁移（Motion Transfer）

实现跨机器人形态的技能迁移：

动作原语库：预定义的动作原语可跨平台复用
形态适配层：自动调整动作参数以适应不同机器人
零样本泛化：在一个机器人上学到的技能可迁移到其他形态

六、与其他VLA模型对比

6.1 主流VLA模型对比表

特性	Gemini Robotics	RT-2	OpenVLA	π0	GR00T N1
基础模型	Gemini 2.0	PaLM-E	Llama	自研	Nemotron
参数量	~20B	~55B	7B	7B	22B
动作表示	连续+离散	离散令牌	离散令牌	流匹配	流匹配
控制频率	10-30Hz	1-5Hz	5-10Hz	25Hz	5-30Hz
零样本能力	★★★★★	★★★	★★	★★	★★★★
灵巧操作	★★★★★	★★	★★	★★★★	★★★★
具身推理	★★★★★	★★	★★	★★	★★★
开源程度	部分开源	不可	完全开源	部分开源	部分开源

6.2 关键差异分析

┌─────────────────────────────────────────────────────────────────────────────┐
│                        Gemini Robotics 差异化优势                             │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  ┌─────────────────────────────────────────────────────────────────────┐    │
│  │                    1. 多模态推理的深度整合                           │    │
│  │                                                                     │    │
│  │  传统VLA: 视觉→语言→动作（串联式）                                   │    │
│  │  Gemini:  视觉↔语言↔动作（并行式交叉注意力）                         │    │
│  │                                                                     │    │
│  │  优势: 推理过程可利用所有模态信息，避免信息丢失                       │    │
│  └─────────────────────────────────────────────────────────────────────┘    │
│                                                                             │
│  ┌─────────────────────────────────────────────────────────────────────┐    │
│  │                    2. ER专用模型的精细设计                           │    │
│  │                                                                     │    │
│  │  ┌────────────────┐                                                  │    │
│  │  │ Gemini Robotics │ ──→ 直接动作控制（高频）                        │    │
│  │  │   (VLA)        │                                                  │    │
│  │  └────────────────┘                                                  │    │
│  │           ↓ 协同                                                     │    │
│  │  ┌────────────────┐                                                  │    │
│  │  │ Gemini         │ ──→ 推理规划（高精度）                           │    │
│  │  │ Robotics-ER    │                                                  │    │
│  │  └────────────────┘                                                  │    │
│  │                                                                     │    │
│  │  优势: 不同任务使用最适合的模型，避免一刀切                          │    │
│  └─────────────────────────────────────────────────────────────────────┘    │
│                                                                             │
│  ┌─────────────────────────────────────────────────────────────────────┐    │
│  │                    3. 物理世界常识的嵌入                             │    │
│  │                                                                     │    │
│  │  Gemini Robotics 2.0: 物理规律、因果关系、材质属性、稳定性判断        │    │
│  │  这些"常识"使模型能够处理训练数据中从未见过的场景                     │    │
│  └─────────────────────────────────────────────────────────────────────┘    │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

七、应用场景

7.1 典型应用案例

场景	任务描述	技术要点
家庭服务	整理房间、摆放餐具、操作家电	日常物品理解、精细操作
厨房助手	准备沙拉、折叠衣物、制作咖啡	食材识别、工具使用、时序规划
工业装配	电子产品组装、零件分拣、包装	精确定位、容错处理、质量检测
医疗辅助	手术器械递送、康复训练、药品分发	安全优先、高精度控制
仓储物流	货物分拣、打包、搬运	多物体操作、路径优化

7.2 Gemini Robotics-ER应用架构

┌─────────────────────────────────────────────────────────────────────────────┐
│                    Gemini Robotics-ER 应用架构                               │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│                      ┌─────────────────┐                                    │
│                      │   用户指令       │                                    │
│                      │  "整理这个房间"  │                                    │
│                      └────────┬────────┘                                    │
│                               │                                              │
│                               ▼                                              │
│                      ┌─────────────────┐                                    │
│                      │ Gemini Robotics │                                    │
│                      │      -ER        │  推理与规划                          │
│                      │                 │                                    │
│                      │ • 场景分析      │                                    │
│                      │ • 任务分解      │                                    │
│                      │ • 动作规划      │                                    │
│                      └────────┬────────┘                                    │
│                               │                                              │
│              ┌────────────────┼────────────────┐                            │
│              │                │                │                            │
│              ▼                ▼                ▼                            │
│       ┌──────────┐     ┌──────────┐     ┌──────────┐                         │
│       │ 任务1    │     │ 任务2    │     │ 任务3    │  ...                    │
│       │ 收拾衣物  │     │ 摆放物品  │     │ 清洁地面  │                         │
│       └────┬─────┘     └────┬─────┘     └────┬─────┘                         │
│            │                │                │                                │
│            ▼                ▼                ▼                                │
│       ┌─────────────────────────────────────────────┐                       │
│       │            Gemini Robotics (VLA)             │                       │
│       │              动作执行层                      │                       │
│       │                                            │                       │
│       │   ┌────────┐  ┌────────┐  ┌────────┐        │                       │
│       │   │感知融合 │  │策略生成 │  │动作输出 │        │                       │
│       │   └────────┘  └────────┘  └────────┘        │                       │
│       └──────────────────────┬──────────────────────┘                       │
│                              │                                               │
│                              ▼                                               │
│                      ┌─────────────────┐                                    │
│                      │   机器人执行器   │                                    │
│                      │   • 低层控制    │                                    │
│                      │   • 传感器反馈  │                                    │
│                      └────────┬────────┘                                    │
│                               │                                              │
│                               ▼                                              │
│                      ┌─────────────────┐                                    │
│                      │   执行结果反馈   │                                    │
│                      └─────────────────┘                                    │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

八、技术规格与限制

8.1 模型规格

规格项	Gemini Robotics	Gemini Robotics-ER
基础模型	Gemini 2.0	Gemini 2.0
参数量	~20B	~20B
上下文窗口	1M tokens	1M tokens
支持模态	文本、图像、视频、音频、具身状态	文本、图像、视频、音频
输出形式	动作序列	推理文本
控制频率	10-30Hz	N/A

8.2 当前限制

实时性挑战：复杂推理需要额外计算时间
物理接触：对精细力控任务仍有提升空间
长程任务：多步骤任务的长期状态一致性
安全边界：需要额外的安全层确保人机协作安全
硬件依赖：对机器人硬件接口有标准化需求

Metaphor

探索

Gemini Robotics

一、概述

1.1 核心创新点

二、模型架构

2.1 整体架构图

2.2 VLA与ER模型区分

三、核心技术能力

3.1 零样本代码生成控制

3.2 少样本上下文学习

3.3 物理世界理解能力

四、ERQA基准评测

4.1 ERQA概述

4.2 评测维度

4.3 评测结果对比

五、Gemini Robotics 1.5 技术进展

5.1 核心技术升级

5.2 三大核心创新

5.2.1 高级具身推理（Advanced Embodied Reasoning）

5.2.2 思维链推理（Chain-of-Thought for Robotics）

5.2.3 运动迁移（Motion Transfer）

六、与其他VLA模型对比

6.1 主流VLA模型对比表

6.2 关键差异分析

七、应用场景

7.1 典型应用案例

7.2 Gemini Robotics-ER应用架构

八、技术规格与限制

8.1 模型规格

8.2 当前限制

九、参考资料

相关链接

相关词条

关系图谱

目录

反向链接

Metaphor

探索

Gemini Robotics

一、概述

1.1 核心创新点

二、模型架构

2.1 整体架构图

2.2 VLA与ER模型区分

三、核心技术能力

3.1 零样本代码生成控制

3.2 少样本上下文学习

3.3 物理世界理解能力

四、ERQA基准评测

4.1 ERQA概述

4.2 评测维度

4.3 评测结果对比

五、Gemini Robotics 1.5 技术进展

5.1 核心技术升级

5.2 三大核心创新

5.2.1 高级具身推理（Advanced Embodied Reasoning）

5.2.2 思维链推理（Chain-of-Thought for Robotics）

5.2.3 运动迁移（Motion Transfer）

六、与其他VLA模型对比

6.1 主流VLA模型对比表

6.2 关键差异分析

七、应用场景

7.1 典型应用案例

7.2 Gemini Robotics-ER应用架构

八、技术规格与限制

8.1 模型规格

8.2 当前限制

九、参考资料

相关链接

相关词条

Footnotes

关系图谱

目录

反向链接