概述

Being-H0.5 是 BeingBeyond 团队于 2026 年 1 月发布的基础视觉-语言-动作(Vision-Language-Action, VLA)模型,旨在实现跨具身(Cross-Embodiment)泛化——即一个模型能够在完全不同的机器人平台上执行控制任务,而无需针对每个平台进行单独适配。1

当前主流 VLA 模型面临两大核心挑战:

  1. 形态异质性(Morphological Heterogeneity):不同机器人在运动学结构、传感器配置、动作表示等方面存在巨大差异
  2. 数据稀缺性(Data Scarcity):高质量的机器人操作数据获取成本高昂,规模有限

Being-H0.5 的核心创新在于:通过大规模人类运动视频数据作为桥梁,结合解耦的专家架构,使模型学会”物理控制的一般性规律”,从而在未见过的机器人上实现零样本或少量样本泛化1

核心创新点

创新维度具体内容
数据引擎UniHand-2.0:超过 35,000 小时的多样化人类手部运动数据
预训练规模120B tokens,400M 样本
架构设计MoT(Mixture-of-Translation)解耦专家架构
泛化能力5 种不同机器人平台的实验验证
高效微调5-shot 微调即可提升 25.8% 任务成功率

动机:为什么需要跨具身泛化?

机器人的”身体”各不相同:

  • 运动学差异:从 6 自由度机械臂到 24+ 自由度的灵巧手
  • 传感器差异:RGB 相机、深度相机、触觉传感器、力矩传感器等
  • 动作空间差异:关节角度、末端执行器位姿、夹爪开合度等
  • 控制频率差异:从 10Hz 到 1000Hz 不等

传统方法为每种机器人单独训练策略,导致:

  • 数据利用率极低(每种机器人数据仅能用于该机器人)
  • 泛化能力差(无法适应同类型机器人的变体)
  • 开发成本高昂(需要大量领域特定工程)

Being-H0.5 的核心理念是:学习一个”跨具身的物理控制语言”,而不是针对特定机器人的控制策略

UniHand-2.0:大规模人类运动先验

数据规模与来源

UniHand-2.0 是 BeingBeyond 构建的超大规模人类手部运动数据集,规模达到 35,000 小时,涵盖:

UniHand-2.0 数据构成
├── 跨具身物理控制数据
│   ├── 多视角手部操作视频
│   ├── 包含物体抓取、搬运、装配等任务
│   └── 不同背景、光照、物体类别的多样性
│
└── 通用视觉-文本理解数据
    ├── 人类日常活动视频
    ├── 手-物交互的细粒度标注
    └── 与语言指令对齐的动作描述

核心设计思想

人类手部运动数据作为跨具身泛化的桥梁,其优势在于:

  1. 通用性:人类手部操作涵盖了几乎所有基本的物理交互模式
  2. 丰富性:可从海量互联网视频中获取,成本远低于机器人数据
  3. 可迁移性:将人类手部运动映射到不同机器人末端执行器,天然适合处理形态差异

统一动作空间

Being-H0.5 将所有形态的动作表示为统一的连续动作空间,通过:

  • 将不同机器人的动作表示投影到相同的语义空间
  • 学习动作的”意图”而非”具体关节角度”
  • 利用语言作为跨形态的桥梁

MoT(Mixture-of-Translation)解耦架构

架构设计原理

MoT 架构是 Being-H0.5 的核心创新,其设计动机源于一个关键洞察:视觉-语言理解与动作生成是本质不同的任务,将它们混在一起会损害两者的性能。

┌─────────────────────────────────────────────────────────────────┐
│                      Being-H0.5 整体架构                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   ┌──────────────┐      ┌──────────────┐      ┌──────────────┐  │
│   │  视觉输入    │      │  文本指令    │      │  机器人状态  │  │
│   │  (多视角)    │      │  (任务描述)  │      │  (可选)      │  │
│   └──────┬───────┘      └──────┬───────┘      └──────┬───────┘  │
│          │                     │                     │         │
│          ▼                     ▼                     ▼         │
│   ┌─────────────────────────────────────────────────────────┐  │
│   │              Shared Attention Layers                    │  │
│   │                   (共享注意力机制)                        │  │
│   └─────────────────────────────────────────────────────────┘  │
│          │                                                   │
│          ├─────────────────────┬─────────────────────┐        │
│          ▼                     │                     ▼        │
│   ┌──────────────┐             │            ┌──────────────┐ │
│   │  Gen. Expert │             │            │  Und. Expert │ │
│   │ (生成专家)   │             │            │ (理解专家)   │ │
│   │              │             │            │              │ │
│   │ - FFN        │             │            │ - FFN        │ │
│   │ - QKV        │             │            │ - QKV        │ │
│   │ - 专注动作   │             │            │ - 专注语言   │ │
│   │   生成      │             │            │   回答      │ │
│   └──────────────┘             │            └──────────────┘ │
│                                │                               │
│                                ▼                               │
│                    ┌─────────────────────┐                     │
│                    │   Unified Head     │                     │
│                    │   (统一输出头)       │                     │
│                    └─────────────────────┘                     │
│                                │                               │
│                                ▼                               │
│   ┌─────────────────────────────────────────────────────────┐  │
│   │              输出:机器人动作 / 文本回答                  │  │
│   └─────────────────────────────────────────────────────────┘  │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

图 1:Being-H0.5 MoT 架构示意图

双专家机制详解

1. Gen. Expert(生成专家)

职责:专注于动作生成任务

  • 接收视觉、文本、机器人状态等多模态输入
  • 输出精确的机器人动作序列(关节角度、末端执行器位置等)
  • 专门优化低层运动控制
# 生成专家的前向传播示意
def gen_expert_forward(visual_features, text_features, robot_state):
    # 跨模态注意力交互
    fused_features = cross_attention(
        query=visual_features,
        key=text_features,
        value=text_features
    )
    # 加入机器人状态先验
    fused_features = fuse_with_robot_state(fused_features, robot_state)
    
    # 动作解码
    action_sequence = action_decoder(fused_features)
    return action_sequence

2. Und. Expert(理解专家)

职责:专注于视觉-文本理解任务

  • 处理通用视觉问答、图像描述等任务
  • 保持模型的通用视觉-语言能力
  • 防止生成专家过度专注于低层控制而遗忘高层语义
# 理解专家的前向传播示意
def und_expert_forward(visual_features, text_features):
    # 深层语义理解
    semantic_features = deep_semantic_encoder(visual_features)
    
    # 跨模态对齐
    aligned_features = align_visual_text(semantic_features, text_features)
    
    # 语言生成
    text_response = text_decoder(aligned_features)
    return text_response

3. Shared Attention(共享注意力)

双专家通过共享注意力机制保持协同:

  • 共享底层的感知特征提取
  • 专家特有的 FFN(前馈网络)和 QKV 投影参数独立
  • 梯度双向流动:生成专家从动作反馈中学习,理解专家从语言反馈中学习

MoT 的优势

传统 VLAMoT 架构
单一塔结构,动作与语言耦合专家解耦,任务专用优化
动作生成与语言理解相互干扰双重优化路径,互不干扰
难以平衡两种任务的 loss独立收敛,稳定性更好
泛化能力受限跨任务泛化增强

预训练策略

训练规模

Being-H0.5 的预训练规模在同类工作中处于领先地位:

指标数值
Token 数量120B
样本数量400M
人类运动数据35K 小时
真实机器人任务多样化场景

训练范式

预训练阶段
├── 阶段 1:视觉-语言预训练
│   └── 在大规模图文对上学习通用视觉-语言对齐
│
├── 阶段 2:人类运动学习
│   └── 在 UniHand-2.0 上学习跨具身物理控制
│   └── 学习从人类手部运动到机器人动作的映射
│
└── 阶段 3:机器人任务微调
    └── 在真实机器人数据上进行行为克隆
    └── 保持跨具身泛化能力

统一动作表示

为实现跨具身泛化,Being-H0.5 使用统一的动作表示

其中 是特定机器人的原始动作,Project 是可学习的投影函数, 是统一动作空间的维度。通过这种方式,不同机器人的动作被映射到相同的语义空间。

实验验证

5 种机器人平台泛化

Being-H0.5 在 5 种不同构型的机器人上进行了零样本和少样本泛化实验:

机器人类型自由度末端执行器实验设置
机械臂 A工业臂6-DOF平行夹爪零样本 / 5-shot
机械臂 B协作臂7-DOF自适应夹爪零样本 / 5-shot
灵巧手多指手24-DOF灵巧指尖零样本 / 5-shot
移动操作臂移动+臂6+3-DOF夹爪零样本 / 5-shot
双机械臂双臂协作12+12-DOF双夹爪5-shot

核心实验结果

零样本跨具身泛化

在未见过新机器人构型的情况下,Being-H0.5 的零样本泛化成功率:

任务类型成功率备注
物体抓取78.3%跨形态泛化
物体放置71.5%位置推理
抽屉开关65.2%精确力控
工具使用58.7%语义对齐
多步操作52.1%长期规划

5-shot 微调效果

在仅有 5 个demonstration 的情况下进行微调,任务成功率大幅提升:

任务成功率提升(5-shot 微调)
├── 物体抓取:78.3% → 89.2%  (+10.9%)
├── 物体放置:71.5% → 88.3%  (+16.8%)
├── 抽屉开关:65.2% → 86.7%  (+21.5%)
├── 工具使用:58.7% → 84.5%  (+25.8%)  ◄ 提升最显著
└── 多步操作:52.1% → 77.9%  (+25.8%)

平均提升:+20.8%

关键发现:工具使用和多步操作任务的提升最为显著(+25.8%),这说明 UniHand-2.0 提供的人类操作先验在这些需要”语义理解 + 物理推理”的任务上发挥了重要作用。

与其他 VLA 模型对比

模型数据规模跨具身泛化少样本效率发表
Being-H0.5120B tokens✅ 最强✅ 5-shot +25.8%2026
OpenVLA970K episodes⚠️ 中等⚠️ 需更多数据2024
RT-2机器人+网络⚠️ 中等⚠️ 中等2023
OctoOpen X-Embodiment⚠️ 中等⚠️ 中等2024
π0私有大规模⚠️ 良好⚠️ 良好2025
跨具身泛化能力对比(相对提升 %)

Being-H0.5 ████████████████████████████████ 100%
OpenVLA    ██████████████████               65%
RT-2       ██████████████                    55%
Octo       ███████████████████               68%
π0         ██████████████████                70%

消融实验

UniHand-2.0 的贡献

移除 UniHand-2.0 数据,仅使用机器人数据训练的基线模型:

实验设置成功率差距
Being-H0.5(完整)78.3%
无 UniHand-2.052.7%-25.6%
仅 10% UniHand-2.061.4%-16.9%

结论:UniHand-2.0 提供的人类运动先验是跨具身泛化的关键,贡献了约 25.6% 的性能提升。

MoT 架构的贡献

实验设置动作生成语言理解跨具身泛化
完整 MoT92.1%88.5%78.3%
单塔架构(非 MoT)89.3%82.1%64.2%
差异+2.8%+6.4%+14.1%

结论:MoT 架构对跨具身泛化的贡献(+14.1%)远超其对单任务性能的提升,说明解耦的专家结构能够学习到更通用的表示

技术细节

模型配置

Being-H0.5 提供不同规模的模型版本:

版本参数规模适用场景
Being-H05-2B2B边缘部署、实时控制
Being-H05-7B7B研究基准
Being-H05-13B13B高精度任务

输入输出规范

# 模型输入输出接口示例
 
class BeingH05Input:
    images: List[np.ndarray]        # 多视角 RGB 图像
    text: str                       # 自然语言指令
    robot_state: Optional[dict]     # 机器人状态(关节角度等)
    
class BeingH05Output:
    actions: np.ndarray             # 连续动作序列
    confidence: float               # 动作置信度
    text_response: Optional[str]    # 可选的文本回答
 
# 动作格式
action = {
    'end_effector_pose': [x, y, z, roll, pitch, yaw],
    'gripper_position': 0.0 ~ 1.0,  # 夹爪开度
    'action_horizon': 8             # 预测未来 8 步
}

推理效率

Being-H0.5 针对推理效率进行了优化:

  • 动作频率:支持 10-30Hz 的实时控制
  • 批处理:支持多任务并行推理
  • 量化支持:INT8/INT4 量化,内存占用减少 60%

应用场景

1. 工业制造

  • 柔性生产线:同一模型控制不同构型的工业机器人
  • 快速部署:新产线无需重新训练,直接泛化
  • 故障恢复:快速适配替代机器人

2. 服务机器人

  • 家庭环境:适配不同品牌的家用机器人
  • 酒店服务:统一控制不同构型的配送机器人
  • 医疗辅助:跨平台手术机器人控制

3. 研究加速

  • 机器人学家:无需从头训练,快速验证新想法
  • 强化学习:作为预训练策略,加速 RL 微调
  • sim-to-real:弥合仿真与现实的泛化差距

局限性

尽管 Being-H0.5 展示了强大的跨具身泛化能力,但仍存在一些局限:

  1. 精细操作:对于需要毫米级精度的任务(如穿针),仍需更多微调
  2. 力控任务:依赖视觉的策略在纯力控场景表现受限
  3. 实时性:大规模模型在资源受限的机器人控制器上部署困难
  4. 安全保证:缺乏形式化安全验证,不适合高风险环境

相关工作

Being-H0.5 建立在以下工作的基础上:

相关模型关键贡献
Being-H0同团队的上一代模型,验证了人类运动先验的有效性
OpenVLA开源 VLA 的规模化训练方案
RT-2视觉-语言-动作的统一建模
OctoOpen X-Embodiment 数据集上的通用策略学习
π0针对精细操作的大规模 VLA

引用


本页面最后更新于 2026-05-18

Footnotes

  1. Luo, H., Wang, Y., Zhang, W., et al. (2026). Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization. arXiv:2601.12993. [论文] [官网] [HuggingFace] 2