具身AI基础

1. 什么是具身AI？

1.1 定义

具身人工智能（Embodied AI） 是指具有物理身体的智能系统，能够通过传感器感知世界，通过执行器与环境交互，并在物理空间中完成复杂任务¹。

与传统的纯软件AI不同，具身AI的核心特征是：

物理存在：拥有机械身体（机器人、无人机、自动驾驶车辆等）
实时感知：通过摄像头、力传感器、IMU等获取环境信息
动作执行：通过电机、关节等执行器对物理世界产生影响
闭环控制：感知→决策→动作→感知的不断循环

1.2 为什么需要具身认知？

具身认知（Embodied Cognition）理论认为，智能行为不仅来自大脑的计算，还来自身体与环境的持续交互²：

核心观点：思维和认知是通过身体与环境的动态交互而涌现的。

这带来了几个关键洞察：

传统AI范式	具身AI	优势
被动处理离线数据	主动探索物理世界	更强的适应性
单次推理	持续交互学习	可在线改进
虚拟空间操作	物理世界操作	可完成现实任务
感知与行动分离	感知-动作一体化	更自然的智能

数学上，具身AI可以被建模为一个部分可观测马尔可夫决策过程（POMDP）：

POMDP = (S, A, O, T, R, γ, b_{0})

其中：

$S$ ：状态空间（机器人关节角度、物体位置等）
$A$ ：动作空间（电机控制指令）
$O$ ：观测空间（传感器数据）
$T (s^{'} ∣ s, a)$ ：状态转移函数
$R (s, a)$ ：奖励函数
$γ$ ：折扣因子
$b_{0}$ ：初始信念状态

2. 具身AI的核心挑战

2.1 物理世界交互的复杂性

物理世界相比虚拟环境具有独特的挑战：

2.1.1 低层次、高频率的控制

# 典型的机器人控制频率
CONTROL_FREQUENCIES = {
    'high-level_planning': 1,      # Hz - 任务规划
    'trajectory_generation': 10,   # Hz - 轨迹生成
    'joint_control': 100,          # Hz - 关节控制
    'torque_control': 1000,        # Hz - 力矩控制
}

而大语言模型的推理延迟通常在数百毫秒到秒级，难以直接用于实时控制。

2.1.2 物理约束的多样性

约束类型	描述	示例
运动学约束	关节角度/速度限制	关节角度不超过±180°
动力学约束	力/力矩限制	最大抓取力 50N
碰撞约束	避免与环境碰撞	碰撞检测
接触约束	与物体的交互	抓取、滑擦

2.1.3 观测的不完美性

传感器噪声、遮挡、光照变化等因素导致观测充满不确定性：

p (o_{t} ∣ s_{t}) = N (h (s_{t}), Σ)

其中 $h (\cdot)$ 是观测函数， $Σ$ 是噪声协方差矩阵。

2.2 感知-动作循环（Perception-Action Loop）

感知-动作循环是具身智能的核心控制架构³：

┌─────────────────────────────────────────────────────────────────────────┐
│                     感知-动作循环 (Perception-Action Loop)                    │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                          │
│    ┌──────────────┐                                                     │
│    │   环境 (Env)  │                                                     │
│    │              │                                                     │
│    │  物理世界状态 │◄──── 动作 a_t ──── ┐                               │
│    │   s_t ∈ S   │                   │                               │
│    └──────┬───────┘                   │                               │
│           │ 观测 o_t                  │                               │
│           ▼                          │                               │
│    ┌──────────────┐                   │                               │
│    │   感知模块   │                   │                               │
│    │ Perception  │                   │                               │
│    └──────┬───────┘                   │                               │
│           │ 信念状态 b_t              │                               │
│           ▼                          │                               │
│    ┌──────────────┐     状态估计      │                               │
│    │   决策模块   │◄─────────────────┘                               │
│    │ Planning     │                                                     │
│    └──────┬───────┘                                                     │
│           │ 动作序列                                                    │
│           ▼                                                             │
│    ┌──────────────┐                                                     │
│    │   控制模块   │                                                     │
│    │   Control   │                                                     │
│    └──────────────┘                                                     │
│                                                                          │
└─────────────────────────────────────────────────────────────────────────┘

核心数学表述：最优策略 $π^{*}$ 最大化累积奖励：

π^{*} = ar g π max E [t = 0 \sum T γ^{t} R (s_{t}, a_{t})]

其中策略 $π (a_{t} ∣ b_{t})$ 根据信念状态选择动作。

2.3 Sim-to-Real迁移

在仿真环境中训练策略，然后迁移到真实机器人，是具身AI的重要范式⁴。核心挑战包括：

域随机化（Domain Randomization）：随机化仿真参数以提高鲁棒性：

θ \sim U (θ_{m i n}, θ_{m a x})

其中随机化参数包括：视觉纹理、物理参数（摩擦力、质量）、传感器噪声等。

域适应（Domain Adaptation）：使用GAN、VAE等技术减少sim与real的分布差异：

G min D max L_{G A N} (G, D) + λ \cdot L_{d o main} (G)

3. VLA（视觉-语言-动作）模型

3.1 VLA模型概述

VLA（Vision-Language-Action）模型是将视觉感知、语言理解和动作控制统一在一个模型中的架构⁵：

V L A : (I_{t}, L_{t}) \to a_{t}

其中：

$I_{t}$ ： $t$ 时刻的视觉输入（图像/点云）
$L_{t}$ ： $t$ 时刻的语言指令
$a_{t}$ ： $t$ 时刻的机器人动作

3.2 VLA模型架构

典型VLA模型的架构如下：

┌─────────────────────────────────────────────────────────────────────────┐
│                        VLA 模型架构                                        │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                          │
│   ┌─────────┐    ┌─────────┐                                           │
│   │  图像   │    │  文本   │                                           │
│   │  Token  │    │  Token  │                                           │
│   └────┬────┘    └────┬────┘                                           │
│        │              │                                                 │
│        ▼              ▼                                                 │
│   ┌─────────────────────────────────────────────────────────────────┐  │
│   │                  多模态编码器 (Encoder)                            │  │
│   │  ┌───────────┐  ┌───────────┐  ┌───────────┐                    │  │
│   │  │  Vision   │  │   LLM     │  │  Action   │                    │  │
│   │  │  Encoder  │  │  Backbone │  │  Head     │                    │  │
│   │  └───────────┘  └───────────┘  └───────────┘                    │  │
│   └─────────────────────────────────────────────────────────────────┘  │
│                              │                                            │
│                              ▼                                            │
│                        ┌───────────┐                                     │
│                        │ 动作解码   │                                     │
│                        │ Action    │                                     │
│                        │ Decoder   │                                     │
│                        └─────┬─────┘                                     │
│                              │                                            │
│                              ▼                                            │
│                        a_t ∈ R^d  (动作向量)                               │
│                                                                          │
└─────────────────────────────────────────────────────────────────────────┘

3.3 代表性VLA模型

3.3.1 Physical Intelligence π0

π0 是Physical Intelligence开发的通用机器人策略模型⁶：

# π0 模型核心思想
class PI0Model(nn.Module):
    """
    π0: 通用的机器人基础策略
    """
    def __init__(self, vision_encoder, language_model, action_head):
        self.vision_encoder = vision_encoder  # 处理RGB图像
        self.language_model = language_model  # LLaMA backbone
        self.action_head = action_head        # 动作预测头
        
    def forward(self, image, language, state=None):
        # 图像编码
        vision_features = self.vision_encoder(image)
        
        # 语言编码
        language_features = self.language_model.encode(language)
        
        # 融合多模态信息
        fused = self.fusion(vision_features, language_features, state)
        
        # 动作预测
        action = self.action_head(fused)
        
        return action

3.3.2 NVIDIA GR00T N1

GR00T N1 是NVIDIA开源的人形机器人基础模型⁷：

关键创新：采用因果transformer架构，结合自回归动作预测和大规模互联网视觉-语言预训练。

# GR00T N1 核心架构
class GR00TModel(nn.Module):
    def __init__(self):
        # 双流编码器
        self.vision_encoder = VisionTransformer(pretrained=True)  # 来自LLaVA
        self.text_encoder = TextTransformer(pretrained=True)     # 来自LLaMA
        
        # 动作解码器
        self.action_decoder = ActionTransformer(
            d_model=768,
            nhead=12,
            num_layers=6
        )
        
    def forward(self, observations, language):
        """
        观测: {图像, 机器人状态(关节角度)}
        语言: 文本指令
        """
        # 视觉-语言融合
        v_features = self.vision_encoder(observations['image'])
        l_features = self.text_encoder(language)
        
        # 跨模态注意力
        fused = self.cross_attention(v_features, l_features)
        
        # 自回归动作预测
        action = self.action_decoder(fused, observations['state'])
        
        return action

3.3.3 Gemini Robotics

Gemini Robotics 是Google DeepMind基于Gemini 2.0开发的机器人模型⁸：

模型变体	特点	应用场景
Gemini Robotics	通用抓取和操作	工业自动化
Gemini Robotics-ER	具身推理能力	复杂任务规划

3.4 VLA的训练范式

VLA模型的训练通常包含两个阶段：

阶段1：大规模预训练

L_{p re t r ain} = L_{V L M} + L_{a c t i o n}

其中 $L_{V L M}$ 来自视觉-语言任务的监督， $L_{a c t i o n}$ 来自机器人动作数据的模仿学习。

阶段2：领域微调

L_{f in e t u n e} = L_{I L} + λ \cdot L_{R L}

其中 $L_{I L}$ 是模仿学习损失， $L_{R L}$ 是强化学习辅助损失。

4. 具身AI与其他AI范式的区别

4.1 与纯语言模型的对比

维度	纯语言模型 (LLM)	具身AI (VLA)
输入模态	文本	图像+文本+传感器
输出形式	文本token	连续动作向量
时间尺度	秒级推理	毫秒级控制
交互方式	被动问答	主动探索
世界模型	隐式文本知识	显式物理建模
成功标准	文本质量	任务完成率

4.2 与视觉模型的对比

维度	视觉模型 (ViT, CLIP)	具身AI (VLA)
感知范围	静态图像理解	时序视频流处理
动作能力	无	动作预测与执行
闭环反馈	开环	闭环控制
目标函数	分类/检测/检索	最大化任务奖励

4.3 能力对比雷达图

能力维度
     │
  物理理解  ─────────────────────── 具身AI
     │                         ╱
     │                      ╱
     │                   ╱
语言推理  ──────────╱────────────────── LLM
     │           ╱
     │        ╱
     │     ╱
     │  ╱
视觉感知 ──────────────────────────────── 视觉模型
     └──────────────────────────────────────▶
              动作执行能力

5. 主要评估基准

5.1 LIBERO系列

LIBERO（LIfelong-robot BEnchmark for knoWledge cROsstalk）是一个专门评估机器人知识迁移能力的基准⁹。

版本	任务数	特点
LIBERO	40	基础 manipulation
LIBERO-Extend	160	多任务扩展
LIBERO-Spatial	50	空间推理
LIBERO-Goal	180	目标条件任务
LIBERO-X	600	多场景泛化

# LIBERO 评估代码示例
class LIBEROEvaluator:
    def __init__(self, env_id):
        self.env = make_env(env_id)
        self.success_threshold = 0.05  # 位置误差阈值
        
    def evaluate(self, policy, num_episodes=100):
        """评估策略在LIBERO上的成功率"""
        successes = []
        
        for _ in range(num_episodes):
            obs = self.env.reset()
            done = False
            
            while not done:
                action = policy(obs)
                obs, reward, done, info = self.env.step(action)
            
            # 检查任务是否成功
            success = self.check_success(info)
            successes.append(success)
        
        return np.mean(successes)

5.2 RT-X (Open X-Embodiment)

RT-X 是Google DeepMind牵头的开放具身数据集项目，整合了60+个机器人数据集，超过100万条轨迹¹⁰：

数据集组成:
├── 1M+ 轨迹数据
├── 60+ 机器人平台
├── 22+ 机构贡献
├── 527+ 技能类型
└── 100B+ 参数量级的预训练模型

RT-2模型在RT-X数据上训练，展现出：

视觉-语言-动作的统一建模
跨任务泛化能力
简单推理能力

5.3 Physical Intelligence Benchmarks

Physical Intelligence（PI）开发了一系列评估机器人能力的基准¹¹：

基准名称	关注点	指标
CALVIN	长序列操作	任务完成长度
LIBERO	知识迁移	跨任务泛化
Franka Kitchen	日常操作	成功率
BridgeData	数据效率	少样本学习

5.4 其他重要基准

基准	领域	特点
RLBench	仿真manipulation	100+任务，10000演示
MetaWorld	元学习	50个机械臂任务
Habitat	室内导航	3D环境导航
SAPIEN	物体操作	物理真实感渲染

5.5 评估指标体系

具身AI的评估通常涉及多个维度：

Score_{e mb o d i e d} = w_{1} \cdot Success + w_{2} \cdot Efficiency + w_{3} \cdot Generalization + w_{4} \cdot Safety

其中：

$Success$ ：任务成功率
$Efficiency$ ：样本/时间效率
$Generalization$ ：分布外泛化能力
$Safety$ ：碰撞避免、安全约束

6. 总结与展望

6.1 当前进展

VLA模型成熟：π0、GR00T、Gemini Robotics等模型展现了强大的通用操作能力
数据生态完善：RT-X等大规模数据集支持预训练
评估基准成熟：LIBERO等提供了可靠的评估标准

6.2 未来方向

方向	关键问题	潜在突破
长期任务	如何完成多步骤、小时级任务	世界模型+规划
精确操作	毫米级精度要求	触觉传感+视觉融合
安全保证	物理交互的安全性	形式化验证+RL
通用性	跨机器人平台部署	领域自适应

6.3 核心公式汇总

最优策略：

π^{*} = ar g π max E [t = 0 \sum T γ^{t} R (s_{t}, a_{t})]

VLA前向传播：

a_{t} = V L A (I_{t}, L_{t}; θ)

Sim-to-Real差距：

Δ = D_{K L} (p_{re a l} ∣∣ p_{s im})

参考文献

Physical Intelligence. “What is Embodied AI?” PI Research Blog. https://physicalintelligence.company/blog ↩
Embodied cognition理论: Barsalou, L.W. (2008). “Grounded cognition.” Annual Review of Psychology, 59, 617-645. ↩
Kaelbling, L.P., Littman, M.L., & Cassandra, A.R. (1998). “Planning and acting in partially observable stochastic domains.” Artificial Intelligence, 101(1-2), 99-134. ↩
具身AI综述: Liu, Y. et al. (2024). “Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI.” arXiv:2407.06886. ↩
VLA模型综述: Xu, C. et al. (2024). “An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges.” arXiv:2512.11362. ↩
Physical Intelligence. “π0: Our First Generalist Policy.” October 2024. https://physicalintelligence.company/blog/pi0 ↩
NVIDIA Research. “GR00T N1: An Open Foundation Model for Generalist Humanoid Robots.” March 2025. arXiv:2503.14734. ↩
Google DeepMind. “Gemini Robotics: Bringing AI into the Physical World.” March 2025. https://deepmind.google/blog/gemini-robotics-brings-ai-into-the-physical-world/ ↩
Meituan. “LIBERO: Lifelong-robot Benchmark for Knowledge Transfer.” https://meituan.github.io/LIBERO/ ↩
Open X-Embodiment Collaboration. “Open X-Embodiment: Robotic Learning Datasets and RT-X Models.” ICRA 2024. https://robotics-transformer-x.github.io/ ↩
Physical Intelligence Benchmarks. https://physicalintelligence.company/research ↩

Metaphor

探索

具身AI基础

1. 什么是具身AI？

1.1 定义

1.2 为什么需要具身认知？

2. 具身AI的核心挑战

2.1 物理世界交互的复杂性

2.2 感知-动作循环（Perception-Action Loop）

2.3 Sim-to-Real迁移

3. VLA（视觉-语言-动作）模型

3.1 VLA模型概述

3.2 VLA模型架构

3.3 代表性VLA模型

3.4 VLA的训练范式

4. 具身AI与其他AI范式的区别

4.1 与纯语言模型的对比

4.2 与视觉模型的对比

4.3 能力对比雷达图

5. 主要评估基准

5.1 LIBERO系列

5.2 RT-X (Open X-Embodiment)

5.3 Physical Intelligence Benchmarks

5.4 其他重要基准

5.5 评估指标体系

6. 总结与展望

6.1 当前进展

6.2 未来方向

6.3 核心公式汇总

参考文献

关系图谱

目录

反向链接

Metaphor

探索

具身AI基础

1. 什么是具身AI？

1.1 定义

1.2 为什么需要具身认知？

2. 具身AI的核心挑战

2.1 物理世界交互的复杂性

2.2 感知-动作循环（Perception-Action Loop）

2.3 Sim-to-Real迁移

3. VLA（视觉-语言-动作）模型

3.1 VLA模型概述

3.2 VLA模型架构

3.3 代表性VLA模型

3.4 VLA的训练范式

4. 具身AI与其他AI范式的区别

4.1 与纯语言模型的对比

4.2 与视觉模型的对比

4.3 能力对比雷达图

5. 主要评估基准

5.1 LIBERO系列

5.2 RT-X (Open X-Embodiment)

5.3 Physical Intelligence Benchmarks

5.4 其他重要基准

5.5 评估指标体系

6. 总结与展望

6.1 当前进展

6.2 未来方向

6.3 核心公式汇总

参考文献

Footnotes

关系图谱

目录

反向链接