Being-H0.5 跨具身泛化机器人学习

概述

Being-H0.5 是 BeingBeyond 团队于 2026 年 1 月发布的基础视觉-语言-动作（Vision-Language-Action, VLA）模型，旨在实现跨具身（Cross-Embodiment）泛化——即一个模型能够在完全不同的机器人平台上执行控制任务，而无需针对每个平台进行单独适配。¹

当前主流 VLA 模型面临两大核心挑战：

形态异质性（Morphological Heterogeneity）：不同机器人在运动学结构、传感器配置、动作表示等方面存在巨大差异
数据稀缺性（Data Scarcity）：高质量的机器人操作数据获取成本高昂，规模有限

Being-H0.5 的核心创新在于：通过大规模人类运动视频数据作为桥梁，结合解耦的专家架构，使模型学会”物理控制的一般性规律”，从而在未见过的机器人上实现零样本或少量样本泛化。¹

核心创新点

创新维度	具体内容
数据引擎	UniHand-2.0：超过 35,000 小时的多样化人类手部运动数据
预训练规模	120B tokens，400M 样本
架构设计	MoT（Mixture-of-Translation）解耦专家架构
泛化能力	5 种不同机器人平台的实验验证
高效微调	5-shot 微调即可提升 25.8% 任务成功率

动机：为什么需要跨具身泛化？

机器人的”身体”各不相同：

运动学差异：从 6 自由度机械臂到 24+ 自由度的灵巧手
传感器差异：RGB 相机、深度相机、触觉传感器、力矩传感器等
动作空间差异：关节角度、末端执行器位姿、夹爪开合度等
控制频率差异：从 10Hz 到 1000Hz 不等

传统方法为每种机器人单独训练策略，导致：

数据利用率极低（每种机器人数据仅能用于该机器人）
泛化能力差（无法适应同类型机器人的变体）
开发成本高昂（需要大量领域特定工程）

Being-H0.5 的核心理念是：学习一个”跨具身的物理控制语言”，而不是针对特定机器人的控制策略。

UniHand-2.0：大规模人类运动先验

数据规模与来源

UniHand-2.0 是 BeingBeyond 构建的超大规模人类手部运动数据集，规模达到 35,000 小时，涵盖：

UniHand-2.0 数据构成
├── 跨具身物理控制数据
│   ├── 多视角手部操作视频
│   ├── 包含物体抓取、搬运、装配等任务
│   └── 不同背景、光照、物体类别的多样性
│
└── 通用视觉-文本理解数据
    ├── 人类日常活动视频
    ├── 手-物交互的细粒度标注
    └── 与语言指令对齐的动作描述

核心设计思想

人类手部运动数据作为跨具身泛化的桥梁，其优势在于：

通用性：人类手部操作涵盖了几乎所有基本的物理交互模式
丰富性：可从海量互联网视频中获取，成本远低于机器人数据
可迁移性：将人类手部运动映射到不同机器人末端执行器，天然适合处理形态差异

统一动作空间

Being-H0.5 将所有形态的动作表示为统一的连续动作空间，通过：

将不同机器人的动作表示投影到相同的语义空间
学习动作的”意图”而非”具体关节角度”
利用语言作为跨形态的桥梁

MoT（Mixture-of-Translation）解耦架构

架构设计原理

MoT 架构是 Being-H0.5 的核心创新，其设计动机源于一个关键洞察：视觉-语言理解与动作生成是本质不同的任务，将它们混在一起会损害两者的性能。

┌─────────────────────────────────────────────────────────────────┐
│                      Being-H0.5 整体架构                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   ┌──────────────┐      ┌──────────────┐      ┌──────────────┐  │
│   │  视觉输入    │      │  文本指令    │      │  机器人状态  │  │
│   │  (多视角)    │      │  (任务描述)  │      │  (可选)      │  │
│   └──────┬───────┘      └──────┬───────┘      └──────┬───────┘  │
│          │                     │                     │         │
│          ▼                     ▼                     ▼         │
│   ┌─────────────────────────────────────────────────────────┐  │
│   │              Shared Attention Layers                    │  │
│   │                   (共享注意力机制)                        │  │
│   └─────────────────────────────────────────────────────────┘  │
│          │                                                   │
│          ├─────────────────────┬─────────────────────┐        │
│          ▼                     │                     ▼        │
│   ┌──────────────┐             │            ┌──────────────┐ │
│   │  Gen. Expert │             │            │  Und. Expert │ │
│   │ (生成专家)   │             │            │ (理解专家)   │ │
│   │              │             │            │              │ │
│   │ - FFN        │             │            │ - FFN        │ │
│   │ - QKV        │             │            │ - QKV        │ │
│   │ - 专注动作   │             │            │ - 专注语言   │ │
│   │   生成      │             │            │   回答      │ │
│   └──────────────┘             │            └──────────────┘ │
│                                │                               │
│                                ▼                               │
│                    ┌─────────────────────┐                     │
│                    │   Unified Head     │                     │
│                    │   (统一输出头)       │                     │
│                    └─────────────────────┘                     │
│                                │                               │
│                                ▼                               │
│   ┌─────────────────────────────────────────────────────────┐  │
│   │              输出：机器人动作 / 文本回答                  │  │
│   └─────────────────────────────────────────────────────────┘  │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

图 1：Being-H0.5 MoT 架构示意图

双专家机制详解

1. Gen. Expert（生成专家）

职责：专注于动作生成任务

接收视觉、文本、机器人状态等多模态输入
输出精确的机器人动作序列（关节角度、末端执行器位置等）
专门优化低层运动控制

# 生成专家的前向传播示意
def gen_expert_forward(visual_features, text_features, robot_state):
    # 跨模态注意力交互
    fused_features = cross_attention(
        query=visual_features,
        key=text_features,
        value=text_features
    )
    # 加入机器人状态先验
    fused_features = fuse_with_robot_state(fused_features, robot_state)
    
    # 动作解码
    action_sequence = action_decoder(fused_features)
    return action_sequence

2. Und. Expert（理解专家）

职责：专注于视觉-文本理解任务

处理通用视觉问答、图像描述等任务
保持模型的通用视觉-语言能力
防止生成专家过度专注于低层控制而遗忘高层语义

# 理解专家的前向传播示意
def und_expert_forward(visual_features, text_features):
    # 深层语义理解
    semantic_features = deep_semantic_encoder(visual_features)
    
    # 跨模态对齐
    aligned_features = align_visual_text(semantic_features, text_features)
    
    # 语言生成
    text_response = text_decoder(aligned_features)
    return text_response

3. Shared Attention（共享注意力）

双专家通过共享注意力机制保持协同：

共享底层的感知特征提取
专家特有的 FFN（前馈网络）和 QKV 投影参数独立
梯度双向流动：生成专家从动作反馈中学习，理解专家从语言反馈中学习

MoT 的优势

传统 VLA	MoT 架构
单一塔结构，动作与语言耦合	专家解耦，任务专用优化
动作生成与语言理解相互干扰	双重优化路径，互不干扰
难以平衡两种任务的 loss	独立收敛，稳定性更好
泛化能力受限	跨任务泛化增强

预训练策略

训练规模

Being-H0.5 的预训练规模在同类工作中处于领先地位：

指标	数值
Token 数量	120B
样本数量	400M
人类运动数据	35K 小时
真实机器人任务	多样化场景

训练范式

预训练阶段
├── 阶段 1：视觉-语言预训练
│   └── 在大规模图文对上学习通用视觉-语言对齐
│
├── 阶段 2：人类运动学习
│   └── 在 UniHand-2.0 上学习跨具身物理控制
│   └── 学习从人类手部运动到机器人动作的映射
│
└── 阶段 3：机器人任务微调
    └── 在真实机器人数据上进行行为克隆
    └── 保持跨具身泛化能力

统一动作表示

为实现跨具身泛化，Being-H0.5 使用统一的动作表示：

A_{u ni f i e d} = Project (A_{ro b o t}) \in R^{D}

其中 $A_{ro b o t}$ 是特定机器人的原始动作，Project 是可学习的投影函数， $D$ 是统一动作空间的维度。通过这种方式，不同机器人的动作被映射到相同的语义空间。

实验验证

5 种机器人平台泛化

Being-H0.5 在 5 种不同构型的机器人上进行了零样本和少样本泛化实验：

机器人	类型	自由度	末端执行器	实验设置
机械臂 A	工业臂	6-DOF	平行夹爪	零样本 / 5-shot
机械臂 B	协作臂	7-DOF	自适应夹爪	零样本 / 5-shot
灵巧手	多指手	24-DOF	灵巧指尖	零样本 / 5-shot
移动操作臂	移动+臂	6+3-DOF	夹爪	零样本 / 5-shot
双机械臂	双臂协作	12+12-DOF	双夹爪	5-shot

核心实验结果

零样本跨具身泛化

在未见过新机器人构型的情况下，Being-H0.5 的零样本泛化成功率：

任务类型	成功率	备注
物体抓取	78.3%	跨形态泛化
物体放置	71.5%	位置推理
抽屉开关	65.2%	精确力控
工具使用	58.7%	语义对齐
多步操作	52.1%	长期规划

5-shot 微调效果

在仅有 5 个demonstration 的情况下进行微调，任务成功率大幅提升：

任务成功率提升（5-shot 微调）
├── 物体抓取：78.3% → 89.2%  (+10.9%)
├── 物体放置：71.5% → 88.3%  (+16.8%)
├── 抽屉开关：65.2% → 86.7%  (+21.5%)
├── 工具使用：58.7% → 84.5%  (+25.8%)  ◄ 提升最显著
└── 多步操作：52.1% → 77.9%  (+25.8%)

平均提升：+20.8%

关键发现：工具使用和多步操作任务的提升最为显著（+25.8%），这说明 UniHand-2.0 提供的人类操作先验在这些需要”语义理解 + 物理推理”的任务上发挥了重要作用。

与其他 VLA 模型对比

模型	数据规模	跨具身泛化	少样本效率	发表
Being-H0.5	120B tokens	✅ 最强	✅ 5-shot +25.8%	2026
OpenVLA	970K episodes	⚠️ 中等	⚠️ 需更多数据	2024
RT-2	机器人+网络	⚠️ 中等	⚠️ 中等	2023
Octo	Open X-Embodiment	⚠️ 中等	⚠️ 中等	2024
π0	私有大规模	⚠️ 良好	⚠️ 良好	2025

跨具身泛化能力对比（相对提升 %）

Being-H0.5 ████████████████████████████████ 100%
OpenVLA    ██████████████████               65%
RT-2       ██████████████                    55%
Octo       ███████████████████               68%
π0         ██████████████████                70%

消融实验

UniHand-2.0 的贡献

移除 UniHand-2.0 数据，仅使用机器人数据训练的基线模型：

实验设置	成功率	差距
Being-H0.5（完整）	78.3%	—
无 UniHand-2.0	52.7%	-25.6%
仅 10% UniHand-2.0	61.4%	-16.9%

结论：UniHand-2.0 提供的人类运动先验是跨具身泛化的关键，贡献了约 25.6% 的性能提升。

MoT 架构的贡献

实验设置	动作生成	语言理解	跨具身泛化
完整 MoT	92.1%	88.5%	78.3%
单塔架构（非 MoT）	89.3%	82.1%	64.2%
差异	+2.8%	+6.4%	+14.1%

结论：MoT 架构对跨具身泛化的贡献（+14.1%）远超其对单任务性能的提升，说明解耦的专家结构能够学习到更通用的表示。

技术细节

模型配置

Being-H0.5 提供不同规模的模型版本：

版本	参数规模	适用场景
Being-H05-2B	2B	边缘部署、实时控制
Being-H05-7B	7B	研究基准
Being-H05-13B	13B	高精度任务

输入输出规范

# 模型输入输出接口示例
 
class BeingH05Input:
    images: List[np.ndarray]        # 多视角 RGB 图像
    text: str                       # 自然语言指令
    robot_state: Optional[dict]     # 机器人状态（关节角度等）
    
class BeingH05Output:
    actions: np.ndarray             # 连续动作序列
    confidence: float               # 动作置信度
    text_response: Optional[str]    # 可选的文本回答
 
# 动作格式
action = {
    'end_effector_pose': [x, y, z, roll, pitch, yaw],
    'gripper_position': 0.0 ~ 1.0,  # 夹爪开度
    'action_horizon': 8             # 预测未来 8 步
}

推理效率

Being-H0.5 针对推理效率进行了优化：

动作频率：支持 10-30Hz 的实时控制
批处理：支持多任务并行推理
量化支持：INT8/INT4 量化，内存占用减少 60%

应用场景

1. 工业制造

柔性生产线：同一模型控制不同构型的工业机器人
快速部署：新产线无需重新训练，直接泛化
故障恢复：快速适配替代机器人

2. 服务机器人

家庭环境：适配不同品牌的家用机器人
酒店服务：统一控制不同构型的配送机器人
医疗辅助：跨平台手术机器人控制

3. 研究加速

机器人学家：无需从头训练，快速验证新想法
强化学习：作为预训练策略，加速 RL 微调
sim-to-real：弥合仿真与现实的泛化差距

局限性

尽管 Being-H0.5 展示了强大的跨具身泛化能力，但仍存在一些局限：

精细操作：对于需要毫米级精度的任务（如穿针），仍需更多微调
力控任务：依赖视觉的策略在纯力控场景表现受限
实时性：大规模模型在资源受限的机器人控制器上部署困难
安全保证：缺乏形式化安全验证，不适合高风险环境

相关模型	关键贡献
Being-H0	同团队的上一代模型，验证了人类运动先验的有效性
OpenVLA	开源 VLA 的规模化训练方案
RT-2	视觉-语言-动作的统一建模
Octo	Open X-Embodiment 数据集上的通用策略学习
π0	针对精细操作的大规模 VLA

引用

本页面最后更新于 2026-05-18

Luo, H., Wang, Y., Zhang, W., et al. (2026). Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization. arXiv:2601.12993. [论文] [官网] [HuggingFace] ↩ ↩²

Metaphor

探索