一、概述
Gemini Robotics是Google DeepMind于2025年3月发布的机器人AI模型系列,旨在将Gemini 2.0的多模态推理能力带入物理世界。该系列包含两个核心模型12:
| 模型 | 类型 | 定位 |
|---|---|---|
| Gemini Robotics | VLA(视觉-语言-动作)模型 | 直接输出机器人动作控制 |
| Gemini Robotics-ER | ER(具身推理)模型 | 高级推理与规划,不直接输出动作 |
1.1 核心创新点
- Gemini 2.0基础:继承Gemini 2.0的多模态推理能力,支持文本、图像、视频理解
- 零样本泛化:无需针对新任务进行微调即可执行复杂操作
- 具身推理能力:理解物理世界的空间关系、物理规律和因果逻辑
- 多形态适配:支持多种机器人形态(机械臂、人形机器人等)
二、模型架构
2.1 整体架构图
┌─────────────────────────────────────────────────────────────────────────────┐
│ Gemini Robotics 架构 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 多模态输入 │ │
│ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────────────────┐ │ │
│ │ │ 文本指令 │ │ 图像/视频 │ │ 机器人状态 │ │ 具身感知信息 │ │ │
│ │ │ Text │ │ Vision │ │ State │ │ Embodiment │ │ │
│ │ └────┬─────┘ └────┬─────┘ └────┬─────┘ └──────────┬───────────┘ │ │
│ └───────┼─────────────┼─────────────┼──────────────────┼─────────────┘ │
│ │ │ │ │ │
│ ▼ ▼ ▼ ▼ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ Gemini 2.0 多模态主干 │ │
│ │ ┌─────────────────────────────────────────────────────────────┐ │ │
│ │ │ Transformer 架构 │ │ │
│ │ │ (图文token融合 + 具身推理 + 物理世界建模 + 代码生成) │ │ │
│ │ └─────────────────────────────────────────────────────────────┘ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 任务适配层 │ │
│ │ ┌────────────────────┐ ┌────────────────────┐ │ │
│ │ │ VLA Head │ │ ER Head │ │ │
│ │ │ (动作预测) │ │ (推理问答) │ │ │
│ │ │ │ │ │ │ │
│ │ │ 输出:关节控制 │ │ 输出:文本回答 │ │ │
│ │ │ 频率:10-30Hz │ │ 用于:规划/校验 │ │ │
│ │ └────────────────────┘ └────────────────────┘ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
2.2 VLA与ER模型区分
┌─────────────────────────────────────────────────────────────────────────────┐
│ VLA vs ER 模型对比 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────┐ ┌─────────────────────────┐ │
│ │ Gemini Robotics │ │ Gemini Robotics-ER │ │
│ │ (VLA Model) │ │ (Embodied Reasoning) │ │
│ ├─────────────────────────┤ ├─────────────────────────┤ │
│ │ │ │ │ │
│ │ 输入: │ │ 输入: │ │
│ │ • 视觉观测 │ │ • 视觉观测 │ │
│ │ • 自然语言指令 │ │ • 场景描述/问题 │ │
│ │ • 机器人本体状态 │ │ • 任务目标 │ │
│ │ │ │ │ │
│ │ 输出: │ │ 输出: │ │
│ │ ┌─────────────────┐ │ │ ┌─────────────────┐ │ │
│ │ │ 动作序列 │ │ │ │ 推理文本 │ │ │
│ │ │ (关节角度/力) │ │ │ │ • 空间关系 │ │ │
│ │ │ 10-30Hz实时控制 │ │ │ │ • 物理规律 │ │ │
│ │ └─────────────────┘ │ │ │ • 动作规划 │ │ │
│ │ │ │ │ • 因果推断 │ │ │
│ │ 用途: 直接控制 │ │ └─────────────────┘ │ │
│ │ │ │ │ │
│ │ │ │ 用途: 推理与规划辅助 │ │
│ └─────────────────────────┘ └─────────────────────────┘ │
│ │
│ 关系: ER模型可作为VLA模型的高级规划器,或与VLA协同工作 │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
三、核心技术能力
3.1 零样本代码生成控制
Gemini Robotics继承了Gemini 2.0的代码生成能力,能够根据自然语言指令生成控制代码,实现零样本任务执行。
核心特点:
- 代码合成:将高层指令转化为机器人可执行的控制代码
- 动态调整:运行时根据反馈调整控制策略
- 多语言支持:可生成Python、C++、ROS代码等多种格式
# 示例:自然语言指令 → 机器人控制代码生成
指令: "将红色积木放到蓝色盒子里面"
↓
┌─────────────────────────────────────────────────────────────┐
│ Gemini Robotics 代码生成 │
├─────────────────────────────────────────────────────────────┤
│ │
│ def grasp_red_block(): │
│ # 视觉定位红色积木 │
│ block_pos = detect_object("red_block") │
│ │
│ # 生成抓取姿态 │
│ grasp_pose = calculate_grasp_pose(block_pos) │
│ │
│ # 移动机械臂执行抓取 │
│ arm.move_to(grasp_pose) │
│ gripper.close() │
│ │
│ def place_in_blue_box(): │
│ # 定位蓝色盒子 │
│ box_pos = detect_object("blue_box") │
│ target_pose = calculate_place_pose(box_pos) │
│ │
│ # 移动并释放 │
│ arm.move_to(target_pose) │
│ gripper.open() │
│ │
│ # 执行序列 │
│ grasp_red_block() │
│ place_in_blue_box() │
│ │
└─────────────────────────────────────────────────────────────┘3.2 少样本上下文学习
Gemini Robotics支持通过少量示例(Few-shot)快速适应新任务,无需传统意义上的微调。
上下文学习机制:
┌─────────────────────────────────────────────────────────────────────────────┐
│ 少样本上下文学习 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 提示模板: │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 示例1: [图像1: 抓取苹果] → [动作序列A] │ │
│ │ 示例2: [图像2: 放置香蕉] → [动作序列B] │ │
│ │ 示例3: [图像3: 推杯子] → [动作序列C] │ │
│ │ │ │
│ │ 当前任务: [图像4: 抓取草莓并放入碗中] │ │
│ │ │ │
│ │ ───────────────────────────────────── │ │
│ │ 预测动作: [动作序列D] │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
│ 优势: │
│ ✓ 无需梯度更新,仅通过提示即可适应新任务 │
│ ✓ 可在线快速调整控制策略 │
│ ✓ 保持预训练知识的泛化能力 │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
3.3 物理世界理解能力
Gemini Robotics展现出对物理世界规律的深刻理解:
| 能力类别 | 具体表现 | 技术实现 |
|---|---|---|
| 空间推理 | 理解物体相对位置、三维空间结构 | 立体视觉 + 深度感知 |
| 物理规律 | 预测物体运动、碰撞、稳定性 | 物理先验知识嵌入 |
| 因果推断 | 理解动作与结果的因果关系 | 序列建模 + 推理链 |
| 材质识别 | 识别物体材质(刚性、柔性、多孔性) | 多模态特征融合 |
| 交互预测 | 预测接触时的力反馈和形变 | 触觉先验 + 视觉联合 |
四、ERQA基准评测
4.1 ERQA概述
ERQA(Embodied Reasoning Question Answer)是由Google DeepMind发布的具身推理问答基准,用于评估AI模型在物理世界交互场景中的推理能力。3
基准特点:
- 多选题形式:400道视觉问答题目
- 五大推理维度:空间推理、轨迹推理、动作推理、状态估计、多视角推理
- 开源可用:GitHub仓库已开放(
embodiedreasoning/ERQA)
4.2 评测维度
┌─────────────────────────────────────────────────────────────────────────────┐
│ ERQA 评测维度 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 1. 空间推理 (Spatial Reasoning) │
│ ┌────────────────────────────────────────────────────────────┐ │
│ │ 例: "物体A在物体B的哪个方向?" │ │
│ │ 考察: 三维空间关系理解 │ │
│ └────────────────────────────────────────────────────────────┘ │
│ │
│ 2. 轨迹推理 (Trajectory Reasoning) │
│ ┌────────────────────────────────────────────────────────────┐ │
│ │ 例: "如果从当前位置向右移动,物体的轨迹是什么?" │ │
│ │ 考察: 运动预测与路径规划 │ │
│ └────────────────────────────────────────────────────────────┘ │
│ │
│ 3. 动作推理 (Action Reasoning) │
│ ┌────────────────────────────────────────────────────────────┐ │
│ │ 例: "需要什么动作序列才能到达目标状态?" │ │
│ │ 考察: 逆动作规划与策略推理 │ │
│ └────────────────────────────────────────────────────────────┘ │
│ │
│ 4. 状态估计 (State Estimation) │
│ ┌────────────────────────────────────────────────────────────┐ │
│ │ 例: "给定观察,物体当前处于什么状态?" │ │
│ │ 考察: 隐状态推断与物理建模 │ │
│ └────────────────────────────────────────────────────────────┘ │
│ │
│ 5. 多视角推理 (Multi-view Reasoning) │
│ ┌────────────────────────────────────────────────────────────┐ │
│ │ 例: "从顶部视角看,这个场景是什么布局?" │ │
│ │ 考察: 视角变换与三维重建 │ │
│ └────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
4.3 评测结果对比
| 模型 | ERQA得分 | 说明 |
|---|---|---|
| GPT-5 | 65.7% | 领先水平 |
| Gemini Robotics-ER | 62.3% | ER专项优化 |
| Qwen3.6 Plus | 58.1% | 开源最强 |
| GPT-4o | 54.6% | 基线对比 |
| Gemini 2.0 Flash | 51.2% | 轻量版 |
五、Gemini Robotics 1.5 技术进展
2025年9月,Google DeepMind发布了Gemini Robotics 1.5技术报告,带来了多项技术突破。4
5.1 核心技术升级
┌─────────────────────────────────────────────────────────────────────────────┐
│ Gemini Robotics 1.5 技术创新 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐ │
│ │ 高级具身推理 │ │ 思维链推理 │ │ 运动迁移 │ │
│ │ Advanced ER │ │ Chain-of-Thought│ │ Motion Transfer │ │
│ ├─────────────────┤ ├─────────────────┤ ├─────────────────┤ │
│ │ • 更精确的空间 │ │ • 显式推理过程 │ │ • 跨机器人形态 │ │
│ │ 理解 │ │ • 可解释性增强 │ │ 技能迁移 │ │
│ │ • 物理规律应用 │ │ • 复杂任务分解 │ │ • 动作原语库 │ │
│ │ • 场景预测 │ │ • 自纠错能力 │ │ • 模仿学习增强 │ │
│ └─────────────────┘ └─────────────────┘ └─────────────────┘ │
│ │
│ ┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐ │
│ │ 多形态支持 │ │ 灵巧操作 │ │ 实时响应 │ │
│ │ Multi- │ │ Dexterous │ │ Real-time │ │
│ │ embodiment │ │ Manipulation │ │ Response │ │
│ ├─────────────────┤ ├─────────────────┤ ├─────────────────┤ │
│ │ • 机械臂 │ │ • 精细手指控制 │ │ • 10-30Hz控制 │ │
│ │ • 人形机器人 │ │ • 柔性物体操作 │ │ • 低延迟推理 │ │
│ │ • 移动平台 │ │ • 工具使用 │ │ • 闭环反馈 │ │
│ │ • 异构多机器人 │ │ • 多指灵巧手 │ │ • 动态避障 │ │
│ └─────────────────┘ └─────────────────┘ └─────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
5.2 三大核心创新
5.2.1 高级具身推理(Advanced Embodied Reasoning)
在Gemini Robotics-ER基础上进一步提升:
- 精确空间建模:毫米级精度理解物体位置关系
- 物理模拟集成:内嵌简化物理引擎进行运动预测
- 场景状态追踪:长时间任务中的状态一致性维护
5.2.2 思维链推理(Chain-of-Thought for Robotics)
引入类似”慢思考”的推理机制:
输入: "把桌上的杯子放到洗碗机里"
│
▼
┌─────────────────────────────────────────┐
│ Step 1: 定位杯子位置 │
│ "检测到杯子在桌面中央偏左位置" │
│ │ │
│ ▼ │
│ Step 2: 分析杯子特征 │
│ "玻璃材质,需轻拿轻放" │
│ │ │
│ ▼ │
│ Step 3: 规划抓取策略 │
│ "从侧面或上方抓取,避免滑落" │
│ │ │
│ ▼ │
│ Step 4: 生成动作序列 │
│ "接近 → 对准 → 闭合 → 提起 → 移动 → ..." │
│ │ │
│ ▼ │
│ Step 5: 预测执行结果 │
│ "如果抓取成功,杯子将稳定移动到目标位置" │
└─────────────────────────────────────────┘
5.2.3 运动迁移(Motion Transfer)
实现跨机器人形态的技能迁移:
- 动作原语库:预定义的动作原语可跨平台复用
- 形态适配层:自动调整动作参数以适应不同机器人
- 零样本泛化:在一个机器人上学到的技能可迁移到其他形态
六、与其他VLA模型对比
6.1 主流VLA模型对比表
| 特性 | Gemini Robotics | RT-2 | OpenVLA | π0 | GR00T N1 |
|---|---|---|---|---|---|
| 基础模型 | Gemini 2.0 | PaLM-E | Llama | 自研 | Nemotron |
| 参数量 | ~20B | ~55B | 7B | 7B | 22B |
| 动作表示 | 连续+离散 | 离散令牌 | 离散令牌 | 流匹配 | 流匹配 |
| 控制频率 | 10-30Hz | 1-5Hz | 5-10Hz | 25Hz | 5-30Hz |
| 零样本能力 | ★★★★★ | ★★★ | ★★ | ★★ | ★★★★ |
| 灵巧操作 | ★★★★★ | ★★ | ★★ | ★★★★ | ★★★★ |
| 具身推理 | ★★★★★ | ★★ | ★★ | ★★ | ★★★ |
| 开源程度 | 部分开源 | 不可 | 完全开源 | 部分开源 | 部分开源 |
6.2 关键差异分析
┌─────────────────────────────────────────────────────────────────────────────┐
│ Gemini Robotics 差异化优势 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 1. 多模态推理的深度整合 │ │
│ │ │ │
│ │ 传统VLA: 视觉→语言→动作(串联式) │ │
│ │ Gemini: 视觉↔语言↔动作(并行式交叉注意力) │ │
│ │ │ │
│ │ 优势: 推理过程可利用所有模态信息,避免信息丢失 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 2. ER专用模型的精细设计 │ │
│ │ │ │
│ │ ┌────────────────┐ │ │
│ │ │ Gemini Robotics │ ──→ 直接动作控制(高频) │ │
│ │ │ (VLA) │ │ │
│ │ └────────────────┘ │ │
│ │ ↓ 协同 │ │
│ │ ┌────────────────┐ │ │
│ │ │ Gemini │ ──→ 推理规划(高精度) │ │
│ │ │ Robotics-ER │ │ │
│ │ └────────────────┘ │ │
│ │ │ │
│ │ 优势: 不同任务使用最适合的模型,避免一刀切 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 3. 物理世界常识的嵌入 │ │
│ │ │ │
│ │ Gemini Robotics 2.0: 物理规律、因果关系、材质属性、稳定性判断 │ │
│ │ 这些"常识"使模型能够处理训练数据中从未见过的场景 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
七、应用场景
7.1 典型应用案例
| 场景 | 任务描述 | 技术要点 |
|---|---|---|
| 家庭服务 | 整理房间、摆放餐具、操作家电 | 日常物品理解、精细操作 |
| 厨房助手 | 准备沙拉、折叠衣物、制作咖啡 | 食材识别、工具使用、时序规划 |
| 工业装配 | 电子产品组装、零件分拣、包装 | 精确定位、容错处理、质量检测 |
| 医疗辅助 | 手术器械递送、康复训练、药品分发 | 安全优先、高精度控制 |
| 仓储物流 | 货物分拣、打包、搬运 | 多物体操作、路径优化 |
7.2 Gemini Robotics-ER应用架构
┌─────────────────────────────────────────────────────────────────────────────┐
│ Gemini Robotics-ER 应用架构 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────┐ │
│ │ 用户指令 │ │
│ │ "整理这个房间" │ │
│ └────────┬────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────┐ │
│ │ Gemini Robotics │ │
│ │ -ER │ 推理与规划 │
│ │ │ │
│ │ • 场景分析 │ │
│ │ • 任务分解 │ │
│ │ • 动作规划 │ │
│ └────────┬────────┘ │
│ │ │
│ ┌────────────────┼────────────────┐ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 任务1 │ │ 任务2 │ │ 任务3 │ ... │
│ │ 收拾衣物 │ │ 摆放物品 │ │ 清洁地面 │ │
│ └────┬─────┘ └────┬─────┘ └────┬─────┘ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌─────────────────────────────────────────────┐ │
│ │ Gemini Robotics (VLA) │ │
│ │ 动作执行层 │ │
│ │ │ │
│ │ ┌────────┐ ┌────────┐ ┌────────┐ │ │
│ │ │感知融合 │ │策略生成 │ │动作输出 │ │ │
│ │ └────────┘ └────────┘ └────────┘ │ │
│ └──────────────────────┬──────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────┐ │
│ │ 机器人执行器 │ │
│ │ • 低层控制 │ │
│ │ • 传感器反馈 │ │
│ └────────┬────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────┐ │
│ │ 执行结果反馈 │ │
│ └─────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
八、技术规格与限制
8.1 模型规格
| 规格项 | Gemini Robotics | Gemini Robotics-ER |
|---|---|---|
| 基础模型 | Gemini 2.0 | Gemini 2.0 |
| 参数量 | ~20B | ~20B |
| 上下文窗口 | 1M tokens | 1M tokens |
| 支持模态 | 文本、图像、视频、音频、具身状态 | 文本、图像、视频、音频 |
| 输出形式 | 动作序列 | 推理文本 |
| 控制频率 | 10-30Hz | N/A |
8.2 当前限制
- 实时性挑战:复杂推理需要额外计算时间
- 物理接触:对精细力控任务仍有提升空间
- 长程任务:多步骤任务的长期状态一致性
- 安全边界:需要额外的安全层确保人机协作安全
- 硬件依赖:对机器人硬件接口有标准化需求
九、参考资料
相关链接
- Google DeepMind - Gemini Robotics
- arXiv:2503.20020
- arXiv:2510.03342
- ERQA GitHub
- Gemini Robotics 1.5 技术报告 (PDF)
相关词条
具身人工智能 | VLA基础模型综述 | NVIDIA GR00T N1 | Physical Intelligence π0
Footnotes
-
Gemini Robotics: Bringing AI into the Physical World. Google DeepMind, 2025. arXiv:2503.20020 ↩
-
Introducing Gemini Robotics and Gemini Robotics-ER. Google DeepMind Blog, March 2025. ↩
-
ERQA Benchmark. GitHub Repository: embodiedreasoning/ERQA. ↩
-
Gemini Robotics 1.5: Pushing the Frontier of Generalist Robots with Advanced Embodied Reasoning, Thinking, and Motion Transfer. Google DeepMind, 2025. arXiv:2510.03342 ↩