具身智能与机器人学习专题索引

专题定位：本专题系统整理具身人工智能（Embodied AI）与机器人学习领域的前沿研究，涵盖基础模型、技能学习、仿真迁移、数据集与评测等核心方向。

📊 知识图谱

┌─────────────────────────────────────────────────────────────────────────────────────┐
│                          具身智能与机器人学习知识图谱                                  │
├─────────────────────────────────────────────────────────────────────────────────────┤
│                                                                                     │
│    ┌─────────────────────────────────────────────────────────────────────────────┐   │
│    │                           核心概念层                                         │   │
│    │                                                                             │   │
│    │      ┌──────────────┐      ┌──────────────┐      ┌──────────────┐         │   │
│    │      │   具身AI    │─────▶│   VLA模型    │◀─────│   世界模型   │         │   │
│    │      │ Embodied AI │      │Vision-Lang-  │      │ World Models │         │   │
│    │      │             │      │   Action     │      │              │         │   │
│    │      └──────────────┘      └──────┬───────┘      └──────────────┘         │   │
│    │            │                      │                                        │   │
│    │            │              ┌───────┴───────┐                                │   │
│    │            │              ▼               ▼                                │   │
│    │            │       ┌───────────┐   ┌───────────┐                           │   │
│    │            └──────▶│ 技能学习   │   │ Sim-to-Real │                           │   │
│    │                │   │Skill Learn │   │  迁移      │                           │   │
│    │                │   └───────────┘   └───────────┘                           │   │
│    │                │         │               │                                  │   │
│    │                └─────────┴───────────────┴──────────────────────────────────▶  │
│    │                            │                                                   │
│    └────────────────────────────┼───────────────────────────────────────────────────┘   │
│                                 │                                                      │
│    ┌────────────────────────────┼───────────────────────────────────────────────────┐   │
│    │                      技术架构层                                                 │   │
│    │                                                                             │   │
│    │   ┌────────────────┐  ┌────────────────┐  ┌────────────────┐              │   │
│    │   │   感知模块     │  │   决策模块     │  │   控制模块     │              │   │
│    │   │   Perception   │  │    Planning    │  │    Control     │              │   │
│    │   ├────────────────┤  ├────────────────┤  ├────────────────┤              │   │
│    │   │ • 视觉编码器   │  │ • 任务规划     │  │ • 低层控制     │              │   │
│    │   │ • 传感器融合   │  │ • 动作预测     │  │ • 关节控制     │              │   │
│    │   │ • 状态估计     │  │ • 轨迹生成     │  │ • 力控         │              │   │
│    │   └────────────────┘  └────────────────┘  └────────────────┘              │   │
│    │                                                                             │   │
│    └────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
│    ┌────────────────────────────────────────────────────────────────────────────┐   │
│    │                       应用实践层                                              │   │
│    │                                                                             │   │
│    │   ┌────────────────┐  ┌────────────────┐  ┌────────────────┐              │   │
│    │   │  人形机器人    │  │  工业机械臂    │  │  移动操作      │              │   │
│    │   │ Humanoid Robot │  │  Manipulator   │  │Mobile Manip.   │              │   │
│    │   └────────────────┘  └────────────────┘  └────────────────┘              │   │
│    │                                                                             │   │
│    └────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
└─────────────────────────────────────────────────────────────────────────────────────┘

一、专题介绍与发展历程

1.1 什么是具身智能？

具身人工智能（Embodied AI） 是指具有物理身体的智能系统，通过传感器感知世界、通过执行器与环境交互，在物理空间中完成复杂任务。¹

与传统的纯软件AI不同，具身AI的核心特征是：

特征	描述
物理存在	拥有机械身体（机器人、无人机、自动驾驶车辆等）
实时感知	通过摄像头、力传感器、IMU等获取环境信息
动作执行	通过电机、关节等执行器对物理世界产生影响
闭环控制	感知→决策→动作→感知的不断循环

1.2 发展历程

┌─────────────────────────────────────────────────────────────────────────────────────┐
│                            具身智能发展时间线                                        │
├─────────────────────────────────────────────────────────────────────────────────────┤
│                                                                                     │
│  2023          2024          2025          2026                                   │
│    │             │             │             │                                     │
│    ▼             ▼             ▼             ▼                                     │
│ ┌──────┐   ┌──────────┐  ┌──────────┐  ┌──────────┐                              │
│ │ RT-2 │─▶│  OpenVLA  │─▶│  π0     │─▶│ GR00T N1 │                              │
│ │ RT-X │  │   Octo   │  │ GR00T   │  │ Ψ₀       │                              │
│ └──────┘  └──────────┘  │ Gemini  │  │ EO-1     │                              │
│                          │ Robotics│  │ RynnBrain│                              │
│                          └──────────┘  │ Being-H  │                              │
│                                          └──────────┘                              │
│                                                                                     │
│  ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓   │
│  VLA萌芽        开源崛起       规模突破       统一泛化                              │
│                                                                                     │
└─────────────────────────────────────────────────────────────────────────────────────┘

关键里程碑：

年份	工作	意义
2023	RT-2	首次将VLM与机器人动作结合
2024	OpenVLA/Octo	开源VLA模型涌现
2024	π0	首个通用机器人基础模型
2025	GR00T N1/Gemini Robotics	人形机器人基础模型
2025	EO-1	统一AR+FM双范式
2026	Being-H0.5/RynnBrain	跨具身泛化突破

二、内容导航

2.1 VLA基础模型（核心）

文档	描述	优先级
VLA基础模型综述	全面综述VLA模型发展历程、架构分类、主流模型对比	⭐⭐⭐⭐⭐
具身AI基础	具身智能核心概念、VLA模型与评估基准	⭐⭐⭐⭐⭐
GR00T N1	NVIDIA开源人形机器人模型，双系统架构、流匹配动作生成	⭐⭐⭐⭐⭐
Ψ₀	USC通用人形模型，三阶段训练、RTC实时推理	⭐⭐⭐⭐
Gemini Robotics	Google DeepMind VLA/ER模型，物理世界理解	⭐⭐⭐⭐
EO-1	统一AR+FM双范式，decoder-only架构	⭐⭐⭐⭐
Being-H0.5	跨具身泛化，人类运动先验、MoT架构	⭐⭐⭐⭐
RynnBrain	阿里达摩院开源，时空定位、物理推理	⭐⭐⭐⭐
HY-Embodied-0.5	腾讯MoT架构，32B参数超越Gemini 3.0 Pro	⭐⭐⭐⭐
Genie Envisioner	AgiBot世界基础模型，统一策略学习-评估-仿真	⭐⭐⭐⭐

2.2 技能学习与Sim-to-Real

文档	描述	优先级
MOMO物理技能学习	物理、语言、图形技能统一学习框架	⭐⭐⭐
Sim-to-Real迁移	仿真到真实世界的迁移方法与最佳实践	⭐⭐⭐
Imagine-then-Plan	想象力驱动的机器人规划	⭐⭐
RL+世界模型+LLM Agents	强化学习与世界模型、LLM Agent的结合	⭐⭐

2.3 数据集与评测

文档	描述	优先级
RoboMIND 2.0	多模态双手移动操作大规模数据集	⭐⭐⭐

2.4 相关领域

文档	描述	优先级
具身世界模型综述	Astra、PAN、WoW、Ctrl-World等世界模型工作	⭐⭐⭐
Ctrl-World	可控机器人操作	⭐⭐
具身多模态规划	多模态推理与具身规划	⭐⭐

三、学习路径建议

3.1 入门路径（Beginner）

┌─────────────────────────────────────────────────────────────────────────────────────┐
│                              入门学习路径                                            │
├─────────────────────────────────────────────────────────────────────────────────────┤
│                                                                                     │
│  Step 1: 理解具身AI基础                                                             │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[embodied-ai-foundation]] — 具身智能定义、核心挑战、VLA概述             │   │
│  │     • 什么是具身AI                                                            │   │
│  │     • 感知-动作循环                                                            │   │
│  │     • 与LLM、视觉模型的区别                                                    │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                      ▼                                              │
│  Step 2: 掌握VLA基本概念                                                           │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[vla-foundation-models-survey]] — VLA发展历程、架构分类                 │   │
│  │     • Early/Mid/Late Fusion架构                                             │   │
│  │     • 动作表示方法（离散token vs 扩散 vs 流匹配）                              │   │
│  │     • 主流模型对比                                                            │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                      ▼                                              │
│  Step 3: 了解关键数据集                                                            │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[robomind-2-dataset]] — RoboMIND 2.0数据集                              │   │
│  │     • 数据格式与采集方法                                                      │   │
│  │     • 技能标注                                                                │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                      ▼                                              │
│  Step 4: 入门Sim-to-Real                                                           │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[sim-to-real-transfer]] — 仿真到真实迁移基础                            │   │
│  │     • 域随机化                                                                │   │
│  │     • 域适应方法                                                              │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
└─────────────────────────────────────────────────────────────────────────────────────┘

3.2 进阶路径（Intermediate）

┌─────────────────────────────────────────────────────────────────────────────────────┐
│                              进阶学习路径                                            │
├─────────────────────────────────────────────────────────────────────────────────────┤
│                                                                                     │
│  重点方向A: 人形机器人VLA                                                           │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[gr00t-n1]] — GR00T N1双系统架构                                        │   │
│  │     • System 1 (VLM) + System 2 (Diffusion Transformer)                     │   │
│  │     • 流匹配动作生成                                                          │   │
│  │     • 隐式动作学习                                                            │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                      ▼                                              │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[psi-0]] — Ψ₀三阶段训练范式                                             │   │
│  │     • 人类视频→机器人动作迁移                                                 │   │
│  │     • MM-DiT架构                                                             │   │
│  │     • RTC实时推理机制                                                         │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
│  重点方向B: 具身推理与泛化                                                          │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[gemini-robotics]] — Gemini Robotics-ER                                  │   │
│  │     • 零样本代码生成控制                                                       │   │
│  │     • ERQA基准                                                                │   │
│  │     • 物理世界理解能力                                                         │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                      ▼                                              │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[being-h0-5-cross-embodiment]] — 跨具身泛化                             │   │
│  │     • UniHand-2.0人类运动数据                                                 │   │
│  │     • MoT解耦架构                                                            │   │
│  │     • 5-shot微调效果                                                         │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
│  重点方向C: 技能学习                                                              │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[momo-physical-skill-learning]] — MOMO物理技能学习                      │   │
│  │     • 物理+语言+视觉三位一体融合                                               │   │
│  │     • 技能图谱构建                                                            │   │
│  │     • 零样本泛化机制                                                          │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
└─────────────────────────────────────────────────────────────────────────────────────┘

3.3 研究路径（Research）

┌─────────────────────────────────────────────────────────────────────────────────────┐
│                              研究前沿路径                                            │
├─────────────────────────────────────────────────────────────────────────────────────┤
│                                                                                     │
│  前沿方向1: 统一VLA架构                                                             │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[eo-1-unified-embodied]] — EO-1统一AR+FM                                │   │
│  │     • 交错视觉-文本-动作预训练                                                 │   │
│  │     • 单一模型支持双范式                                                       │   │
│  │     • 3B参数即可部署                                                           │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                      ▼                                              │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[rynnbrain]] — RynnBrain时空定位                                        │   │
│  │     • 基于Qwen3-VL                                                            │   │
│  │     • Physics-Aware预训练                                                    │   │
│  │     • 2B/8B/30B多规模                                                        │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
│  前沿方向2: 具身世界模型                                                            │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[../machine-learning/embodied-world-models-robotics-2025]]               │   │
│  │     • Astra通用交互式世界模型                                                  │   │
│  │     • PAN物理感知世界模型                                                      │   │
│  │     • Ctrl-World可控操作                                                      │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
│  前沿方向3: RL+世界模型+LLM融合                                                    │
│  ┌─────────────────────────────────────────────────────────────────────────────┐   │
│  │  📖 [[rl-world-model-llm-agents]] — 三者融合                                  │   │
│  │     • 强化学习基础                                                            │   │
│  │     • 世界模型预测                                                             │   │
│  │     • LLM Agent规划                                                           │   │
│  └─────────────────────────────────────────────────────────────────────────────┘   │
│                                                                                     │
└─────────────────────────────────────────────────────────────────────────────────────┘

四、核心概念速查

4.1 VLA模型架构分类

架构类型	融合时机	代表模型	特点
Early Fusion	输入层	OpenVLA, π0	视觉与语言token早期深度交互
Mid Fusion	中间层	GR00T N1, Gemini	交叉注意力灵活注入
Late Fusion	输出层	RT-2	架构清晰，模块化

4.2 动作生成方法对比

方法	代表模型	优点	缺点
离散动作Token	RT-2, OpenVLA	实现简单	精度损失
扩散模型	π0, Octo	动作平滑	推理较慢
流匹配	GR00T N1, Ψ₀	高效高质量	需调参

4.3 核心公式汇总

感知-动作闭环：

π^{*} = ar g π max E [t = 0 \sum T γ^{t} R (s_{t}, a_{t})]

VLA前向传播：

a_{t} = V L A (I_{t}, L_{t}; θ)

流匹配向量场：

\frac{d a ( t )}{d t} = v_{θ} (a (t), t, obs, inst)

Sim-to-Real域差距：

Δ = D_{K L} (p_{re a l} ∣∣ p_{s im})

4.4 关键术语表

术语	英文	定义
具身智能	Embodied AI	具有物理身体的智能系统
视觉-语言-动作模型	VLA	统一视觉、语言、动作的多模态模型
流匹配	Flow Matching	高效连续动作生成方法
域随机化	Domain Randomization	提高策略鲁棒性的训练技术
跨具身泛化	Cross-Embodiment	一个模型适配多种机器人形态
隐式动作	Latent Actions	低维语义动作表示

五、工具与数据集推荐

5.1 仿真平台

平台	特点	适用场景
Isaac Sim	高保真、物理精确、NVIDIA生态	人形机器人、精密操作
MuJoCo	高速、物理准确、开源	接触丰富任务、强化学习
PyBullet	易用、开源、社区活跃	快速原型、学术研究
Gazebo	ROS集成、丰富模型库	移动机器人、室外场景

5.2 开源框架

框架	机构	特点
robomimic	UC Berkeley	机器人模仿学习框架
ALOHA	斯坦福	低成本双臂遥操作
Datasets	DeepMind	RT-X数据平台
Leo Robot	Physical Intelligence	π0配套框架

5.3 核心数据集

数据集	规模	特点
Open X-Embodiment	1M+轨迹	60+机器人平台整合
RoboMIND 2.0	100K+轨迹	双手移动操作、多模态
DROID	95K轨迹	多样化家庭场景
LIBERO	600+任务	知识迁移专项评测
EO-Data-1.5M	1.5M轨迹	交错VTA数据

5.4 硬件平台

平台	类型	适用研究
Franka Panda	7轴机械臂	精细操作、力控制
UR5e	协作机器人	通用研究
Unitree H1	人形机器人	全身控制、 locomotion
ANYmal	四足机器人	复杂地形行走

六、重要论文推荐

6.1 必读经典（Must-Read）

论文	会议/年份	核心贡献
RT-2: Vision-Language-Action Models	arXiv 2023	首次VLA范式
OpenVLA: Open-Source VLA	CoRL 2024	开源VLA基准
π₀: General Robot Policy	2024	首个通用机器人策略
GR00T N1	arXiv 2025	人形机器人开源基础
VLA Survey	arXiv 2024	全面综述

6.2 进阶论文（Advanced）

论文	机构	核心贡献
Gemini Robotics	Google DeepMind	ER具身推理能力
Ψ₀	USC PSI Lab	人类视频→机器人迁移
Being-H0.5	BeingBeyond	跨具身泛化
EO-1	上海AI Lab	AR+FM双范式统一
Octo	UC Berkeley	Open X-Embodiment策略

6.3 前沿论文（Frontier）

论文	时间	前沿方向
RynnBrain	2026.02	时空定位+物理推理
Astra World Model	ICLR 2026	通用交互式世界模型
HybridVLA	2025	扩散+自回归混合
AsyncVLA	2025	异步流匹配

6.4 论文阅读路线图

入门 ─────────────────────────────────────────────────────────────────────────▶ 研究
 │                                                                                    │
 ▼                                                                                    ▼
RT-2 ─▶ OpenVLA ─▶ π0 ─▶ GR00T N1 ─▶ Gemini ─▶ Ψ₀ ─▶ EO-1 ─▶ 前沿探索              │
 │                                                    │                               │
 │                                                    ▼                               │
 └──────▶ Sim-to-Real ─▶ 域随机化 ─▶ 系统辨识 ────▶ Being-H0.5 ──┘                  │
                                                                                      │
 ▼                                                                                    ▼
世界模型 ─▶ 具身推理 ─▶ 跨模态规划 ─────────────────────────────────────────────▶  │

七、相关领域链接

7.1 核心关联

领域	相关文档
具身世界模型	embodied-world-models-robotics-2025
多模态推理	embodied-multimodal-planning
强化学习	rl-world-model-llm-agents
可控操作	ctrl-world-controllable-robot-manipulation

7.2 外部资源

资源	链接
Physical Intelligence	https://physicalintelligence.company/
NVIDIA Isaac GR00T	https://developer.nvidia.com/isaac/gr00t
EO-1 Official	https://eo-robotics.ai/eo-1
RynnBrain GitHub	https://github.com/alibaba-damo-academy/RynnBrain
RoboMIND Dataset	https://robomind-dataset.github.io/
Open X-Embodiment	https://robotics-transformer-x.github.io/

八、更新日志

2026-05-18

新增 EO-1：统一AR+FM双范式开放VLA模型
新增 Being-H0.5：跨具身泛化机器人基础模型
新增 RynnBrain：阿里达摩院开源具身基础模型
更新 GR00T N1：补充N1.5对比分析
更新 Ψ₀：补充完整技术解析
更新 VLA综述：新增主流模型对比表

2026-05-10

新增 RoboMIND 2.0 数据集
新增 MOMO 物理技能学习框架
新增 Sim-to-Real 迁移方法
创建专题索引

参考资料

本页面整理了截至2026年5月的具身智能与机器人学习专题全部内容。

Physical Intelligence. “What is Embodied AI?” PI Research Blog. ↩

探索

具身智能与机器人学习专题索引

具身智能与机器人学习专题索引

📊 知识图谱

一、专题介绍与发展历程

1.1 什么是具身智能？

1.2 发展历程

二、内容导航

2.1 VLA基础模型（核心）

2.2 技能学习与Sim-to-Real

2.3 数据集与评测

2.4 相关领域

三、学习路径建议

3.1 入门路径（Beginner）

3.2 进阶路径（Intermediate）

3.3 研究路径（Research）

四、核心概念速查

4.1 VLA模型架构分类

4.2 动作生成方法对比

4.3 核心公式汇总

4.4 关键术语表

五、工具与数据集推荐

5.1 仿真平台

5.2 开源框架

5.3 核心数据集

5.4 硬件平台

六、重要论文推荐

6.1 必读经典（Must-Read）

6.2 进阶论文（Advanced）

6.3 前沿论文（Frontier）

6.4 论文阅读路线图

七、相关领域链接

7.1 核心关联

7.2 外部资源

八、更新日志

2026-05-18

2026-05-10

参考资料

Footnotes