具身智能与机器人学习专题索引

专题定位:本专题系统整理具身人工智能(Embodied AI)与机器人学习领域的前沿研究,涵盖基础模型、技能学习、仿真迁移、数据集与评测等核心方向。

📊 知识图谱

┌─────────────────────────────────────────────────────────────────────────────────────┐
│                          具身智能与机器人学习知识图谱                                  │
├─────────────────────────────────────────────────────────────────────────────────────┤
│                                                                                     │
│    ┌─────────────────────────────────────────────────────────────────────────────┐   │
│    │                           核心概念层                                         │   │
│    │                                                                             │   │
│    │      ┌──────────────┐      ┌──────────────┐      ┌──────────────┐         │   │
│    │      │   具身AI    │─────▶│   VLA模型    │◀─────│   世界模型   │         │   │
│    │      │ Embodied AI │      │Vision-Lang-  │      │ World Models │         │   │
│    │      │             │      │   Action     │      │              │         │   │
│    │      └──────────────┘      └──────┬───────┘      └──────────────┘         │   │
│    │            │                      │                                        │   │
│    │            │              ┌───────┴───────┐                                │   │
│    │            │              ▼               ▼                                │   │
│    │            │       ┌───────────┐   ┌───────────┐                           │   │
│    │            └──────▶│ 技能学习   │   │ Sim-to-Real │                           │   │
│    │                │   │Skill Learn │   │  迁移      │                           │   │
│    │                │   └───────────┘   └───────────┘                           │   │
│    │                │         │               │                                  │   │
│    │                └─────────┴───────────────┴──────────────────────────────────▶  │
│    │                            │                                                   │
│    └────────────────────────────┼───────────────────────────────────────────────────┘   │
│                                 │                                                      │
│    ┌────────────────────────────┼───────────────────────────────────────────────────┐   │
│    │                      技术架构层                                                 │   │
│    │                                                                             │   │
│    │   ┌────────────────┐  ┌────────────────┐  ┌────────────────┐              │   │
│    │   │   感知模块     │  │   决策模块     │  │   控制模块     │              │   │
│    │   │   Perception   │  │    Planning    │  │    Control     │              │   │
│    │   ├────────────────┤  ├────────────────┤  ├────────────────┤              │   │
│    │   │ • 视觉编码器   │  │ • 任务规划     │  │ • 低层控制     │              │   │
│    │   │ • 传感器融合   │  │ • 动作预测     │  │ • 关节控制     │              │   │
│    │   │ • 状态估计     │  │ • 轨迹生成     │  │ • 力控         │              │   │
│    │   └────────────────┘  └────────────────┘  └────────────────┘              │   │
│    │                                                                             │   │
│    └────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
│    ┌────────────────────────────────────────────────────────────────────────────┐   │
│    │                       应用实践层                                              │   │
│    │                                                                             │   │
│    │   ┌────────────────┐  ┌────────────────┐  ┌────────────────┐              │   │
│    │   │  人形机器人    │  │  工业机械臂    │  │  移动操作      │              │   │
│    │   │ Humanoid Robot │  │  Manipulator   │  │Mobile Manip.   │              │   │
│    │   └────────────────┘  └────────────────┘  └────────────────┘              │   │
│    │                                                                             │   │
│    └────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
└─────────────────────────────────────────────────────────────────────────────────────┘

一、专题介绍与发展历程

1.1 什么是具身智能?

具身人工智能(Embodied AI) 是指具有物理身体的智能系统,通过传感器感知世界、通过执行器与环境交互,在物理空间中完成复杂任务。1

与传统的纯软件AI不同,具身AI的核心特征是:

特征描述
物理存在拥有机械身体(机器人、无人机、自动驾驶车辆等)
实时感知通过摄像头、力传感器、IMU等获取环境信息
动作执行通过电机、关节等执行器对物理世界产生影响
闭环控制感知→决策→动作→感知的不断循环

1.2 发展历程

┌─────────────────────────────────────────────────────────────────────────────────────┐
│                            具身智能发展时间线                                        │
├─────────────────────────────────────────────────────────────────────────────────────┤
│                                                                                     │
│  2023          2024          2025          2026                                   │
│    │             │             │             │                                     │
│    ▼             ▼             ▼             ▼                                     │
│ ┌──────┐   ┌──────────┐  ┌──────────┐  ┌──────────┐                              │
│ │ RT-2 │─▶│  OpenVLA  │─▶│  π0     │─▶│ GR00T N1 │                              │
│ │ RT-X │  │   Octo   │  │ GR00T   │  │ Ψ₀       │                              │
│ └──────┘  └──────────┘  │ Gemini  │  │ EO-1     │                              │
│                          │ Robotics│  │ RynnBrain│                              │
│                          └──────────┘  │ Being-H  │                              │
│                                          └──────────┘                              │
│                                                                                     │
│  ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓   │
│  VLA萌芽        开源崛起       规模突破       统一泛化                              │
│                                                                                     │
└─────────────────────────────────────────────────────────────────────────────────────┘

关键里程碑

年份工作意义
2023RT-2首次将VLM与机器人动作结合
2024OpenVLA/Octo开源VLA模型涌现
2024π0首个通用机器人基础模型
2025GR00T N1/Gemini Robotics人形机器人基础模型
2025EO-1统一AR+FM双范式
2026Being-H0.5/RynnBrain跨具身泛化突破

二、内容导航

2.1 VLA基础模型(核心)

文档描述优先级
VLA基础模型综述全面综述VLA模型发展历程、架构分类、主流模型对比⭐⭐⭐⭐⭐
具身AI基础具身智能核心概念、VLA模型与评估基准⭐⭐⭐⭐⭐
GR00T N1NVIDIA开源人形机器人模型,双系统架构、流匹配动作生成⭐⭐⭐⭐⭐
Ψ₀USC通用人形模型,三阶段训练、RTC实时推理⭐⭐⭐⭐
Gemini RoboticsGoogle DeepMind VLA/ER模型,物理世界理解⭐⭐⭐⭐
EO-1统一AR+FM双范式,decoder-only架构⭐⭐⭐⭐
Being-H0.5跨具身泛化,人类运动先验、MoT架构⭐⭐⭐⭐
RynnBrain阿里达摩院开源,时空定位、物理推理⭐⭐⭐⭐

2.2 技能学习与Sim-to-Real

文档描述优先级
MOMO物理技能学习物理、语言、图形技能统一学习框架⭐⭐⭐
Sim-to-Real迁移仿真到真实世界的迁移方法与最佳实践⭐⭐⭐
Imagine-then-Plan想象力驱动的机器人规划⭐⭐
RL+世界模型+LLM Agents强化学习与世界模型、LLM Agent的结合⭐⭐

2.3 数据集与评测

文档描述优先级
RoboMIND 2.0多模态双手移动操作大规模数据集⭐⭐⭐

2.4 相关领域

文档描述优先级
具身世界模型综述Astra、PAN、WoW、Ctrl-World等世界模型工作⭐⭐⭐
Ctrl-World可控机器人操作⭐⭐
具身多模态规划多模态推理与具身规划⭐⭐

三、学习路径建议

3.1 入门路径(Beginner)

┌─────────────────────────────────────────────────────────────────────────────────────┐
│                              入门学习路径                                            │
├─────────────────────────────────────────────────────────────────────────────────────┤
│                                                                                     │
│  Step 1: 理解具身AI基础                                                             │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[embodied-ai-foundation]] — 具身智能定义、核心挑战、VLA概述             │   │
│  │     • 什么是具身AI                                                            │   │
│  │     • 感知-动作循环                                                            │   │
│  │     • 与LLM、视觉模型的区别                                                    │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                      ▼                                              │
│  Step 2: 掌握VLA基本概念                                                           │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[vla-foundation-models-survey]] — VLA发展历程、架构分类                 │   │
│  │     • Early/Mid/Late Fusion架构                                             │   │
│  │     • 动作表示方法(离散token vs 扩散 vs 流匹配)                              │   │
│  │     • 主流模型对比                                                            │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                      ▼                                              │
│  Step 3: 了解关键数据集                                                            │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[robomind-2-dataset]] — RoboMIND 2.0数据集                              │   │
│  │     • 数据格式与采集方法                                                      │   │
│  │     • 技能标注                                                                │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                      ▼                                              │
│  Step 4: 入门Sim-to-Real                                                           │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[sim-to-real-transfer]] — 仿真到真实迁移基础                            │   │
│  │     • 域随机化                                                                │   │
│  │     • 域适应方法                                                              │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
└─────────────────────────────────────────────────────────────────────────────────────┘

3.2 进阶路径(Intermediate)

┌─────────────────────────────────────────────────────────────────────────────────────┐
│                              进阶学习路径                                            │
├─────────────────────────────────────────────────────────────────────────────────────┤
│                                                                                     │
│  重点方向A: 人形机器人VLA                                                           │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[gr00t-n1]] — GR00T N1双系统架构                                        │   │
│  │     • System 1 (VLM) + System 2 (Diffusion Transformer)                     │   │
│  │     • 流匹配动作生成                                                          │   │
│  │     • 隐式动作学习                                                            │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                      ▼                                              │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[psi-0]] — Ψ₀三阶段训练范式                                             │   │
│  │     • 人类视频→机器人动作迁移                                                 │   │
│  │     • MM-DiT架构                                                             │   │
│  │     • RTC实时推理机制                                                         │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
│  重点方向B: 具身推理与泛化                                                          │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[gemini-robotics]] — Gemini Robotics-ER                                  │   │
│  │     • 零样本代码生成控制                                                       │   │
│  │     • ERQA基准                                                                │   │
│  │     • 物理世界理解能力                                                         │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                      ▼                                              │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[being-h0-5-cross-embodiment]] — 跨具身泛化                             │   │
│  │     • UniHand-2.0人类运动数据                                                 │   │
│  │     • MoT解耦架构                                                            │   │
│  │     • 5-shot微调效果                                                         │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
│  重点方向C: 技能学习                                                              │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[momo-physical-skill-learning]] — MOMO物理技能学习                      │   │
│  │     • 物理+语言+视觉三位一体融合                                               │   │
│  │     • 技能图谱构建                                                            │   │
│  │     • 零样本泛化机制                                                          │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
└─────────────────────────────────────────────────────────────────────────────────────┘

3.3 研究路径(Research)

┌─────────────────────────────────────────────────────────────────────────────────────┐
│                              研究前沿路径                                            │
├─────────────────────────────────────────────────────────────────────────────────────┤
│                                                                                     │
│  前沿方向1: 统一VLA架构                                                             │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[eo-1-unified-embodied]] — EO-1统一AR+FM                                │   │
│  │     • 交错视觉-文本-动作预训练                                                 │   │
│  │     • 单一模型支持双范式                                                       │   │
│  │     • 3B参数即可部署                                                           │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                      ▼                                              │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[rynnbrain]] — RynnBrain时空定位                                        │   │
│  │     • 基于Qwen3-VL                                                            │   │
│  │     • Physics-Aware预训练                                                    │   │
│  │     • 2B/8B/30B多规模                                                        │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
│  前沿方向2: 具身世界模型                                                            │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[../machine-learning/embodied-world-models-robotics-2025]]               │   │
│  │     • Astra通用交互式世界模型                                                  │   │
│  │     • PAN物理感知世界模型                                                      │   │
│  │     • Ctrl-World可控操作                                                      │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
│  前沿方向3: RL+世界模型+LLM融合                                                    │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[rl-world-model-llm-agents]] — 三者融合                                  │   │
│  │     • 强化学习基础                                                            │   │
│  │     • 世界模型预测                                                             │   │
│  │     • LLM Agent规划                                                           │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
└─────────────────────────────────────────────────────────────────────────────────────┘

四、核心概念速查

4.1 VLA模型架构分类

架构类型融合时机代表模型特点
Early Fusion输入层OpenVLA, π0视觉与语言token早期深度交互
Mid Fusion中间层GR00T N1, Gemini交叉注意力灵活注入
Late Fusion输出层RT-2架构清晰,模块化

4.2 动作生成方法对比

方法代表模型优点缺点
离散动作TokenRT-2, OpenVLA实现简单精度损失
扩散模型π0, Octo动作平滑推理较慢
流匹配GR00T N1, Ψ₀高效高质量需调参

4.3 核心公式汇总

感知-动作闭环

VLA前向传播

流匹配向量场

Sim-to-Real域差距

4.4 关键术语表

术语英文定义
具身智能Embodied AI具有物理身体的智能系统
视觉-语言-动作模型VLA统一视觉、语言、动作的多模态模型
流匹配Flow Matching高效连续动作生成方法
域随机化Domain Randomization提高策略鲁棒性的训练技术
跨具身泛化Cross-Embodiment一个模型适配多种机器人形态
隐式动作Latent Actions低维语义动作表示

五、工具与数据集推荐

5.1 仿真平台

平台特点适用场景
Isaac Sim高保真、物理精确、NVIDIA生态人形机器人、精密操作
MuJoCo高速、物理准确、开源接触丰富任务、强化学习
PyBullet易用、开源、社区活跃快速原型、学术研究
GazeboROS集成、丰富模型库移动机器人、室外场景

5.2 开源框架

框架机构特点
robomimicUC Berkeley机器人模仿学习框架
ALOHA斯坦福低成本双臂遥操作
DatasetsDeepMindRT-X数据平台
Leo RobotPhysical Intelligenceπ0配套框架

5.3 核心数据集

数据集规模特点
Open X-Embodiment1M+轨迹60+机器人平台整合
RoboMIND 2.0100K+轨迹双手移动操作、多模态
DROID95K轨迹多样化家庭场景
LIBERO600+任务知识迁移专项评测
EO-Data-1.5M1.5M轨迹交错VTA数据

5.4 硬件平台

平台类型适用研究
Franka Panda7轴机械臂精细操作、力控制
UR5e协作机器人通用研究
Unitree H1人形机器人全身控制、 locomotion
ANYmal四足机器人复杂地形行走

六、重要论文推荐

6.1 必读经典(Must-Read)

论文会议/年份核心贡献
RT-2: Vision-Language-Action ModelsarXiv 2023首次VLA范式
OpenVLA: Open-Source VLACoRL 2024开源VLA基准
π₀: General Robot Policy2024首个通用机器人策略
GR00T N1arXiv 2025人形机器人开源基础
VLA SurveyarXiv 2024全面综述

6.2 进阶论文(Advanced)

论文机构核心贡献
Gemini RoboticsGoogle DeepMindER具身推理能力
Ψ₀USC PSI Lab人类视频→机器人迁移
Being-H0.5BeingBeyond跨具身泛化
EO-1上海AI LabAR+FM双范式统一
OctoUC BerkeleyOpen X-Embodiment策略

6.3 前沿论文(Frontier)

论文时间前沿方向
RynnBrain2026.02时空定位+物理推理
Astra World ModelICLR 2026通用交互式世界模型
HybridVLA2025扩散+自回归混合
AsyncVLA2025异步流匹配

6.4 论文阅读路线图

入门 ─────────────────────────────────────────────────────────────────────────▶ 研究
 │                                                                                    │
 ▼                                                                                    ▼
RT-2 ─▶ OpenVLA ─▶ π0 ─▶ GR00T N1 ─▶ Gemini ─▶ Ψ₀ ─▶ EO-1 ─▶ 前沿探索              │
 │                                                    │                               │
 │                                                    ▼                               │
 └──────▶ Sim-to-Real ─▶ 域随机化 ─▶ 系统辨识 ────▶ Being-H0.5 ──┘                  │
                                                                                      │
 ▼                                                                                    ▼
世界模型 ─▶ 具身推理 ─▶ 跨模态规划 ─────────────────────────────────────────────▶  │

七、相关领域链接

7.1 核心关联

7.2 外部资源


八、更新日志

2026-05-18

  • 新增 EO-1:统一AR+FM双范式开放VLA模型
  • 新增 Being-H0.5:跨具身泛化机器人基础模型
  • 新增 RynnBrain:阿里达摩院开源具身基础模型
  • 更新 GR00T N1:补充N1.5对比分析
  • 更新 Ψ₀:补充完整技术解析
  • 更新 VLA综述:新增主流模型对比表

2026-05-10

  • 新增 RoboMIND 2.0 数据集
  • 新增 MOMO 物理技能学习框架
  • 新增 Sim-to-Real 迁移方法
  • 创建专题索引

参考资料


本页面整理了截至2026年5月的具身智能与机器人学习专题全部内容。

Footnotes

  1. Physical Intelligence. “What is Embodied AI?” PI Research Blog.

此文件夹下有14条笔记。