具身智能与机器人学习专题索引
专题定位:本专题系统整理具身人工智能(Embodied AI)与机器人学习领域的前沿研究,涵盖基础模型、技能学习、仿真迁移、数据集与评测等核心方向。
📊 知识图谱
┌─────────────────────────────────────────────────────────────────────────────────────┐
│ 具身智能与机器人学习知识图谱 │
├─────────────────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────────────────────────────────────────────────────────┐ │
│ │ 核心概念层 │ │
│ │ │ │
│ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │
│ │ │ 具身AI │─────▶│ VLA模型 │◀─────│ 世界模型 │ │ │
│ │ │ Embodied AI │ │Vision-Lang- │ │ World Models │ │ │
│ │ │ │ │ Action │ │ │ │ │
│ │ └──────────────┘ └──────┬───────┘ └──────────────┘ │ │
│ │ │ │ │ │
│ │ │ ┌───────┴───────┐ │ │
│ │ │ ▼ ▼ │ │
│ │ │ ┌───────────┐ ┌───────────┐ │ │
│ │ └──────▶│ 技能学习 │ │ Sim-to-Real │ │ │
│ │ │ │Skill Learn │ │ 迁移 │ │ │
│ │ │ └───────────┘ └───────────┘ │ │
│ │ │ │ │ │ │
│ │ └─────────┴───────────────┴──────────────────────────────────▶ │
│ │ │ │
│ └────────────────────────────┼───────────────────────────────────────────────────┘ │
│ │ │
│ ┌────────────────────────────┼───────────────────────────────────────────────────┐ │
│ │ 技术架构层 │ │
│ │ │ │
│ │ ┌────────────────┐ ┌────────────────┐ ┌────────────────┐ │ │
│ │ │ 感知模块 │ │ 决策模块 │ │ 控制模块 │ │ │
│ │ │ Perception │ │ Planning │ │ Control │ │ │
│ │ ├────────────────┤ ├────────────────┤ ├────────────────┤ │ │
│ │ │ • 视觉编码器 │ │ • 任务规划 │ │ • 低层控制 │ │ │
│ │ │ • 传感器融合 │ │ • 动作预测 │ │ • 关节控制 │ │ │
│ │ │ • 状态估计 │ │ • 轨迹生成 │ │ • 力控 │ │ │
│ │ └────────────────┘ └────────────────┘ └────────────────┘ │ │
│ │ │ │
│ └────────────────────────────────────────────────────────────────────────────┘ │
│ │
│ ┌────────────────────────────────────────────────────────────────────────────┐ │
│ │ 应用实践层 │ │
│ │ │ │
│ │ ┌────────────────┐ ┌────────────────┐ ┌────────────────┐ │ │
│ │ │ 人形机器人 │ │ 工业机械臂 │ │ 移动操作 │ │ │
│ │ │ Humanoid Robot │ │ Manipulator │ │Mobile Manip. │ │ │
│ │ └────────────────┘ └────────────────┘ └────────────────┘ │ │
│ │ │ │
│ └────────────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────────────┘
一、专题介绍与发展历程
1.1 什么是具身智能?
具身人工智能(Embodied AI) 是指具有物理身体的智能系统,通过传感器感知世界、通过执行器与环境交互,在物理空间中完成复杂任务。1
与传统的纯软件AI不同,具身AI的核心特征是:
| 特征 | 描述 |
|---|
| 物理存在 | 拥有机械身体(机器人、无人机、自动驾驶车辆等) |
| 实时感知 | 通过摄像头、力传感器、IMU等获取环境信息 |
| 动作执行 | 通过电机、关节等执行器对物理世界产生影响 |
| 闭环控制 | 感知→决策→动作→感知的不断循环 |
1.2 发展历程
┌─────────────────────────────────────────────────────────────────────────────────────┐
│ 具身智能发展时间线 │
├─────────────────────────────────────────────────────────────────────────────────────┤
│ │
│ 2023 2024 2025 2026 │
│ │ │ │ │ │
│ ▼ ▼ ▼ ▼ │
│ ┌──────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ RT-2 │─▶│ OpenVLA │─▶│ π0 │─▶│ GR00T N1 │ │
│ │ RT-X │ │ Octo │ │ GR00T │ │ Ψ₀ │ │
│ └──────┘ └──────────┘ │ Gemini │ │ EO-1 │ │
│ │ Robotics│ │ RynnBrain│ │
│ └──────────┘ │ Being-H │ │
│ └──────────┘ │
│ │
│ ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓ │
│ VLA萌芽 开源崛起 规模突破 统一泛化 │
│ │
└─────────────────────────────────────────────────────────────────────────────────────┘
关键里程碑:
| 年份 | 工作 | 意义 |
|---|
| 2023 | RT-2 | 首次将VLM与机器人动作结合 |
| 2024 | OpenVLA/Octo | 开源VLA模型涌现 |
| 2024 | π0 | 首个通用机器人基础模型 |
| 2025 | GR00T N1/Gemini Robotics | 人形机器人基础模型 |
| 2025 | EO-1 | 统一AR+FM双范式 |
| 2026 | Being-H0.5/RynnBrain | 跨具身泛化突破 |
二、内容导航
2.1 VLA基础模型(核心)
2.2 技能学习与Sim-to-Real
2.3 数据集与评测
2.4 相关领域
三、学习路径建议
3.1 入门路径(Beginner)
┌─────────────────────────────────────────────────────────────────────────────────────┐
│ 入门学习路径 │
├─────────────────────────────────────────────────────────────────────────────────────┤
│ │
│ Step 1: 理解具身AI基础 │
│ ┌─────────────────────────────────────────────────────────────────────────────┐ │
│ │ 📖 [[embodied-ai-foundation]] — 具身智能定义、核心挑战、VLA概述 │ │
│ │ • 什么是具身AI │ │
│ │ • 感知-动作循环 │ │
│ │ • 与LLM、视觉模型的区别 │ │
│ └─────────────────────────────────────────────────────────────────────────────┘ │
│ ▼ │
│ Step 2: 掌握VLA基本概念 │
│ ┌─────────────────────────────────────────────────────────────────────────────┐ │
│ │ 📖 [[vla-foundation-models-survey]] — VLA发展历程、架构分类 │ │
│ │ • Early/Mid/Late Fusion架构 │ │
│ │ • 动作表示方法(离散token vs 扩散 vs 流匹配) │ │
│ │ • 主流模型对比 │ │
│ └─────────────────────────────────────────────────────────────────────────────┘ │
│ ▼ │
│ Step 3: 了解关键数据集 │
│ ┌─────────────────────────────────────────────────────────────────────────────┐ │
│ │ 📖 [[robomind-2-dataset]] — RoboMIND 2.0数据集 │ │
│ │ • 数据格式与采集方法 │ │
│ │ • 技能标注 │ │
│ └─────────────────────────────────────────────────────────────────────────────┘ │
│ ▼ │
│ Step 4: 入门Sim-to-Real │
│ ┌─────────────────────────────────────────────────────────────────────────────┐ │
│ │ 📖 [[sim-to-real-transfer]] — 仿真到真实迁移基础 │ │
│ │ • 域随机化 │ │
│ │ • 域适应方法 │ │
│ └─────────────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────────────────────────────┐
│ 进阶学习路径 │
├─────────────────────────────────────────────────────────────────────────────────────┤
│ │
│ 重点方向A: 人形机器人VLA │
│ ┌─────────────────────────────────────────────────────────────────────────────┐ │
│ │ 📖 [[gr00t-n1]] — GR00T N1双系统架构 │ │
│ │ • System 1 (VLM) + System 2 (Diffusion Transformer) │ │
│ │ • 流匹配动作生成 │ │
│ │ • 隐式动作学习 │ │
│ └─────────────────────────────────────────────────────────────────────────────┘ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────────────────┐ │
│ │ 📖 [[psi-0]] — Ψ₀三阶段训练范式 │ │
│ │ • 人类视频→机器人动作迁移 │ │
│ │ • MM-DiT架构 │ │
│ │ • RTC实时推理机制 │ │
│ └─────────────────────────────────────────────────────────────────────────────┘ │
│ │
│ 重点方向B: 具身推理与泛化 │
│ ┌─────────────────────────────────────────────────────────────────────────────┐ │
│ │ 📖 [[gemini-robotics]] — Gemini Robotics-ER │ │
│ │ • 零样本代码生成控制 │ │
│ │ • ERQA基准 │ │
│ │ • 物理世界理解能力 │ │
│ └─────────────────────────────────────────────────────────────────────────────┘ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────────────────┐ │
│ │ 📖 [[being-h0-5-cross-embodiment]] — 跨具身泛化 │ │
│ │ • UniHand-2.0人类运动数据 │ │
│ │ • MoT解耦架构 │ │
│ │ • 5-shot微调效果 │ │
│ └─────────────────────────────────────────────────────────────────────────────┘ │
│ │
│ 重点方向C: 技能学习 │
│ ┌─────────────────────────────────────────────────────────────────────────────┐ │
│ │ 📖 [[momo-physical-skill-learning]] — MOMO物理技能学习 │ │
│ │ • 物理+语言+视觉三位一体融合 │ │
│ │ • 技能图谱构建 │ │
│ │ • 零样本泛化机制 │ │
│ └─────────────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────────────┘
3.3 研究路径(Research)
┌─────────────────────────────────────────────────────────────────────────────────────┐
│ 研究前沿路径 │
├─────────────────────────────────────────────────────────────────────────────────────┤
│ │
│ 前沿方向1: 统一VLA架构 │
│ ┌─────────────────────────────────────────────────────────────────────────────┐ │
│ │ 📖 [[eo-1-unified-embodied]] — EO-1统一AR+FM │ │
│ │ • 交错视觉-文本-动作预训练 │ │
│ │ • 单一模型支持双范式 │ │
│ │ • 3B参数即可部署 │ │
│ └─────────────────────────────────────────────────────────────────────────────┘ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────────────────┐ │
│ │ 📖 [[rynnbrain]] — RynnBrain时空定位 │ │
│ │ • 基于Qwen3-VL │ │
│ │ • Physics-Aware预训练 │ │
│ │ • 2B/8B/30B多规模 │ │
│ └─────────────────────────────────────────────────────────────────────────────┘ │
│ │
│ 前沿方向2: 具身世界模型 │
│ ┌─────────────────────────────────────────────────────────────────────────────┐ │
│ │ 📖 [[../machine-learning/embodied-world-models-robotics-2025]] │ │
│ │ • Astra通用交互式世界模型 │ │
│ │ • PAN物理感知世界模型 │ │
│ │ • Ctrl-World可控操作 │ │
│ └─────────────────────────────────────────────────────────────────────────────┘ │
│ │
│ 前沿方向3: RL+世界模型+LLM融合 │
│ ┌─────────────────────────────────────────────────────────────────────────────┐ │
│ │ 📖 [[rl-world-model-llm-agents]] — 三者融合 │ │
│ │ • 强化学习基础 │ │
│ │ • 世界模型预测 │ │
│ │ • LLM Agent规划 │ │
│ └─────────────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────────────┘
四、核心概念速查
4.1 VLA模型架构分类
| 架构类型 | 融合时机 | 代表模型 | 特点 |
|---|
| Early Fusion | 输入层 | OpenVLA, π0 | 视觉与语言token早期深度交互 |
| Mid Fusion | 中间层 | GR00T N1, Gemini | 交叉注意力灵活注入 |
| Late Fusion | 输出层 | RT-2 | 架构清晰,模块化 |
4.2 动作生成方法对比
| 方法 | 代表模型 | 优点 | 缺点 |
|---|
| 离散动作Token | RT-2, OpenVLA | 实现简单 | 精度损失 |
| 扩散模型 | π0, Octo | 动作平滑 | 推理较慢 |
| 流匹配 | GR00T N1, Ψ₀ | 高效高质量 | 需调参 |
4.3 核心公式汇总
感知-动作闭环:
π∗=argπmaxE[t=0∑TγtR(st,at)]
VLA前向传播:
at=VLA(It,Lt;θ)
流匹配向量场:
dtda(t)=vθ(a(t),t,obs,inst)
Sim-to-Real域差距:
Δ=DKL(preal∣∣psim)
4.4 关键术语表
| 术语 | 英文 | 定义 |
|---|
| 具身智能 | Embodied AI | 具有物理身体的智能系统 |
| 视觉-语言-动作模型 | VLA | 统一视觉、语言、动作的多模态模型 |
| 流匹配 | Flow Matching | 高效连续动作生成方法 |
| 域随机化 | Domain Randomization | 提高策略鲁棒性的训练技术 |
| 跨具身泛化 | Cross-Embodiment | 一个模型适配多种机器人形态 |
| 隐式动作 | Latent Actions | 低维语义动作表示 |
五、工具与数据集推荐
5.1 仿真平台
| 平台 | 特点 | 适用场景 |
|---|
| Isaac Sim | 高保真、物理精确、NVIDIA生态 | 人形机器人、精密操作 |
| MuJoCo | 高速、物理准确、开源 | 接触丰富任务、强化学习 |
| PyBullet | 易用、开源、社区活跃 | 快速原型、学术研究 |
| Gazebo | ROS集成、丰富模型库 | 移动机器人、室外场景 |
5.2 开源框架
| 框架 | 机构 | 特点 |
|---|
| robomimic | UC Berkeley | 机器人模仿学习框架 |
| ALOHA | 斯坦福 | 低成本双臂遥操作 |
| Datasets | DeepMind | RT-X数据平台 |
| Leo Robot | Physical Intelligence | π0配套框架 |
5.3 核心数据集
| 数据集 | 规模 | 特点 |
|---|
| Open X-Embodiment | 1M+轨迹 | 60+机器人平台整合 |
| RoboMIND 2.0 | 100K+轨迹 | 双手移动操作、多模态 |
| DROID | 95K轨迹 | 多样化家庭场景 |
| LIBERO | 600+任务 | 知识迁移专项评测 |
| EO-Data-1.5M | 1.5M轨迹 | 交错VTA数据 |
5.4 硬件平台
| 平台 | 类型 | 适用研究 |
|---|
| Franka Panda | 7轴机械臂 | 精细操作、力控制 |
| UR5e | 协作机器人 | 通用研究 |
| Unitree H1 | 人形机器人 | 全身控制、 locomotion |
| ANYmal | 四足机器人 | 复杂地形行走 |
六、重要论文推荐
6.1 必读经典(Must-Read)
| 论文 | 会议/年份 | 核心贡献 |
|---|
| RT-2: Vision-Language-Action Models | arXiv 2023 | 首次VLA范式 |
| OpenVLA: Open-Source VLA | CoRL 2024 | 开源VLA基准 |
| π₀: General Robot Policy | 2024 | 首个通用机器人策略 |
| GR00T N1 | arXiv 2025 | 人形机器人开源基础 |
| VLA Survey | arXiv 2024 | 全面综述 |
6.2 进阶论文(Advanced)
| 论文 | 机构 | 核心贡献 |
|---|
| Gemini Robotics | Google DeepMind | ER具身推理能力 |
| Ψ₀ | USC PSI Lab | 人类视频→机器人迁移 |
| Being-H0.5 | BeingBeyond | 跨具身泛化 |
| EO-1 | 上海AI Lab | AR+FM双范式统一 |
| Octo | UC Berkeley | Open X-Embodiment策略 |
6.3 前沿论文(Frontier)
| 论文 | 时间 | 前沿方向 |
|---|
| RynnBrain | 2026.02 | 时空定位+物理推理 |
| Astra World Model | ICLR 2026 | 通用交互式世界模型 |
| HybridVLA | 2025 | 扩散+自回归混合 |
| AsyncVLA | 2025 | 异步流匹配 |
6.4 论文阅读路线图
入门 ─────────────────────────────────────────────────────────────────────────▶ 研究
│ │
▼ ▼
RT-2 ─▶ OpenVLA ─▶ π0 ─▶ GR00T N1 ─▶ Gemini ─▶ Ψ₀ ─▶ EO-1 ─▶ 前沿探索 │
│ │ │
│ ▼ │
└──────▶ Sim-to-Real ─▶ 域随机化 ─▶ 系统辨识 ────▶ Being-H0.5 ──┘ │
│
▼ ▼
世界模型 ─▶ 具身推理 ─▶ 跨模态规划 ─────────────────────────────────────────────▶ │
七、相关领域链接
7.1 核心关联
7.2 外部资源
八、更新日志
2026-05-18
- 新增 EO-1:统一AR+FM双范式开放VLA模型
- 新增 Being-H0.5:跨具身泛化机器人基础模型
- 新增 RynnBrain:阿里达摩院开源具身基础模型
- 更新 GR00T N1:补充N1.5对比分析
- 更新 Ψ₀:补充完整技术解析
- 更新 VLA综述:新增主流模型对比表
2026-05-10
- 新增 RoboMIND 2.0 数据集
- 新增 MOMO 物理技能学习框架
- 新增 Sim-to-Real 迁移方法
- 创建专题索引
参考资料
本页面整理了截至2026年5月的具身智能与机器人学习专题全部内容。