概述
Being-H0.5 是 BeingBeyond 团队于 2026 年 1 月发布的基础视觉-语言-动作(Vision-Language-Action, VLA)模型,旨在实现跨具身(Cross-Embodiment)泛化——即一个模型能够在完全不同的机器人平台上执行控制任务,而无需针对每个平台进行单独适配。1
当前主流 VLA 模型面临两大核心挑战:
- 形态异质性(Morphological Heterogeneity):不同机器人在运动学结构、传感器配置、动作表示等方面存在巨大差异
- 数据稀缺性(Data Scarcity):高质量的机器人操作数据获取成本高昂,规模有限
Being-H0.5 的核心创新在于:通过大规模人类运动视频数据作为桥梁,结合解耦的专家架构,使模型学会”物理控制的一般性规律”,从而在未见过的机器人上实现零样本或少量样本泛化。1
核心创新点
| 创新维度 | 具体内容 |
|---|---|
| 数据引擎 | UniHand-2.0:超过 35,000 小时的多样化人类手部运动数据 |
| 预训练规模 | 120B tokens,400M 样本 |
| 架构设计 | MoT(Mixture-of-Translation)解耦专家架构 |
| 泛化能力 | 5 种不同机器人平台的实验验证 |
| 高效微调 | 5-shot 微调即可提升 25.8% 任务成功率 |
动机:为什么需要跨具身泛化?
机器人的”身体”各不相同:
- 运动学差异:从 6 自由度机械臂到 24+ 自由度的灵巧手
- 传感器差异:RGB 相机、深度相机、触觉传感器、力矩传感器等
- 动作空间差异:关节角度、末端执行器位姿、夹爪开合度等
- 控制频率差异:从 10Hz 到 1000Hz 不等
传统方法为每种机器人单独训练策略,导致:
- 数据利用率极低(每种机器人数据仅能用于该机器人)
- 泛化能力差(无法适应同类型机器人的变体)
- 开发成本高昂(需要大量领域特定工程)
Being-H0.5 的核心理念是:学习一个”跨具身的物理控制语言”,而不是针对特定机器人的控制策略。
UniHand-2.0:大规模人类运动先验
数据规模与来源
UniHand-2.0 是 BeingBeyond 构建的超大规模人类手部运动数据集,规模达到 35,000 小时,涵盖:
UniHand-2.0 数据构成
├── 跨具身物理控制数据
│ ├── 多视角手部操作视频
│ ├── 包含物体抓取、搬运、装配等任务
│ └── 不同背景、光照、物体类别的多样性
│
└── 通用视觉-文本理解数据
├── 人类日常活动视频
├── 手-物交互的细粒度标注
└── 与语言指令对齐的动作描述
核心设计思想
人类手部运动数据作为跨具身泛化的桥梁,其优势在于:
- 通用性:人类手部操作涵盖了几乎所有基本的物理交互模式
- 丰富性:可从海量互联网视频中获取,成本远低于机器人数据
- 可迁移性:将人类手部运动映射到不同机器人末端执行器,天然适合处理形态差异
统一动作空间
Being-H0.5 将所有形态的动作表示为统一的连续动作空间,通过:
- 将不同机器人的动作表示投影到相同的语义空间
- 学习动作的”意图”而非”具体关节角度”
- 利用语言作为跨形态的桥梁
MoT(Mixture-of-Translation)解耦架构
架构设计原理
MoT 架构是 Being-H0.5 的核心创新,其设计动机源于一个关键洞察:视觉-语言理解与动作生成是本质不同的任务,将它们混在一起会损害两者的性能。
┌─────────────────────────────────────────────────────────────────┐
│ Being-H0.5 整体架构 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 视觉输入 │ │ 文本指令 │ │ 机器人状态 │ │
│ │ (多视角) │ │ (任务描述) │ │ (可选) │ │
│ └──────┬───────┘ └──────┬───────┘ └──────┬───────┘ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ Shared Attention Layers │ │
│ │ (共享注意力机制) │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │ │
│ ├─────────────────────┬─────────────────────┐ │
│ ▼ │ ▼ │
│ ┌──────────────┐ │ ┌──────────────┐ │
│ │ Gen. Expert │ │ │ Und. Expert │ │
│ │ (生成专家) │ │ │ (理解专家) │ │
│ │ │ │ │ │ │
│ │ - FFN │ │ │ - FFN │ │
│ │ - QKV │ │ │ - QKV │ │
│ │ - 专注动作 │ │ │ - 专注语言 │ │
│ │ 生成 │ │ │ 回答 │ │
│ └──────────────┘ │ └──────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────┐ │
│ │ Unified Head │ │
│ │ (统一输出头) │ │
│ └─────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 输出:机器人动作 / 文本回答 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
图 1:Being-H0.5 MoT 架构示意图
双专家机制详解
1. Gen. Expert(生成专家)
职责:专注于动作生成任务
- 接收视觉、文本、机器人状态等多模态输入
- 输出精确的机器人动作序列(关节角度、末端执行器位置等)
- 专门优化低层运动控制
# 生成专家的前向传播示意
def gen_expert_forward(visual_features, text_features, robot_state):
# 跨模态注意力交互
fused_features = cross_attention(
query=visual_features,
key=text_features,
value=text_features
)
# 加入机器人状态先验
fused_features = fuse_with_robot_state(fused_features, robot_state)
# 动作解码
action_sequence = action_decoder(fused_features)
return action_sequence2. Und. Expert(理解专家)
职责:专注于视觉-文本理解任务
- 处理通用视觉问答、图像描述等任务
- 保持模型的通用视觉-语言能力
- 防止生成专家过度专注于低层控制而遗忘高层语义
# 理解专家的前向传播示意
def und_expert_forward(visual_features, text_features):
# 深层语义理解
semantic_features = deep_semantic_encoder(visual_features)
# 跨模态对齐
aligned_features = align_visual_text(semantic_features, text_features)
# 语言生成
text_response = text_decoder(aligned_features)
return text_response3. Shared Attention(共享注意力)
双专家通过共享注意力机制保持协同:
- 共享底层的感知特征提取
- 专家特有的 FFN(前馈网络)和 QKV 投影参数独立
- 梯度双向流动:生成专家从动作反馈中学习,理解专家从语言反馈中学习
MoT 的优势
| 传统 VLA | MoT 架构 |
|---|---|
| 单一塔结构,动作与语言耦合 | 专家解耦,任务专用优化 |
| 动作生成与语言理解相互干扰 | 双重优化路径,互不干扰 |
| 难以平衡两种任务的 loss | 独立收敛,稳定性更好 |
| 泛化能力受限 | 跨任务泛化增强 |
预训练策略
训练规模
Being-H0.5 的预训练规模在同类工作中处于领先地位:
| 指标 | 数值 |
|---|---|
| Token 数量 | 120B |
| 样本数量 | 400M |
| 人类运动数据 | 35K 小时 |
| 真实机器人任务 | 多样化场景 |
训练范式
预训练阶段
├── 阶段 1:视觉-语言预训练
│ └── 在大规模图文对上学习通用视觉-语言对齐
│
├── 阶段 2:人类运动学习
│ └── 在 UniHand-2.0 上学习跨具身物理控制
│ └── 学习从人类手部运动到机器人动作的映射
│
└── 阶段 3:机器人任务微调
└── 在真实机器人数据上进行行为克隆
└── 保持跨具身泛化能力
统一动作表示
为实现跨具身泛化,Being-H0.5 使用统一的动作表示:
其中 是特定机器人的原始动作,Project 是可学习的投影函数, 是统一动作空间的维度。通过这种方式,不同机器人的动作被映射到相同的语义空间。
实验验证
5 种机器人平台泛化
Being-H0.5 在 5 种不同构型的机器人上进行了零样本和少样本泛化实验:
| 机器人 | 类型 | 自由度 | 末端执行器 | 实验设置 |
|---|---|---|---|---|
| 机械臂 A | 工业臂 | 6-DOF | 平行夹爪 | 零样本 / 5-shot |
| 机械臂 B | 协作臂 | 7-DOF | 自适应夹爪 | 零样本 / 5-shot |
| 灵巧手 | 多指手 | 24-DOF | 灵巧指尖 | 零样本 / 5-shot |
| 移动操作臂 | 移动+臂 | 6+3-DOF | 夹爪 | 零样本 / 5-shot |
| 双机械臂 | 双臂协作 | 12+12-DOF | 双夹爪 | 5-shot |
核心实验结果
零样本跨具身泛化
在未见过新机器人构型的情况下,Being-H0.5 的零样本泛化成功率:
| 任务类型 | 成功率 | 备注 |
|---|---|---|
| 物体抓取 | 78.3% | 跨形态泛化 |
| 物体放置 | 71.5% | 位置推理 |
| 抽屉开关 | 65.2% | 精确力控 |
| 工具使用 | 58.7% | 语义对齐 |
| 多步操作 | 52.1% | 长期规划 |
5-shot 微调效果
在仅有 5 个demonstration 的情况下进行微调,任务成功率大幅提升:
任务成功率提升(5-shot 微调)
├── 物体抓取:78.3% → 89.2% (+10.9%)
├── 物体放置:71.5% → 88.3% (+16.8%)
├── 抽屉开关:65.2% → 86.7% (+21.5%)
├── 工具使用:58.7% → 84.5% (+25.8%) ◄ 提升最显著
└── 多步操作:52.1% → 77.9% (+25.8%)
平均提升:+20.8%
关键发现:工具使用和多步操作任务的提升最为显著(+25.8%),这说明 UniHand-2.0 提供的人类操作先验在这些需要”语义理解 + 物理推理”的任务上发挥了重要作用。
与其他 VLA 模型对比
| 模型 | 数据规模 | 跨具身泛化 | 少样本效率 | 发表 |
|---|---|---|---|---|
| Being-H0.5 | 120B tokens | ✅ 最强 | ✅ 5-shot +25.8% | 2026 |
| OpenVLA | 970K episodes | ⚠️ 中等 | ⚠️ 需更多数据 | 2024 |
| RT-2 | 机器人+网络 | ⚠️ 中等 | ⚠️ 中等 | 2023 |
| Octo | Open X-Embodiment | ⚠️ 中等 | ⚠️ 中等 | 2024 |
| π0 | 私有大规模 | ⚠️ 良好 | ⚠️ 良好 | 2025 |
跨具身泛化能力对比(相对提升 %)
Being-H0.5 ████████████████████████████████ 100%
OpenVLA ██████████████████ 65%
RT-2 ██████████████ 55%
Octo ███████████████████ 68%
π0 ██████████████████ 70%
消融实验
UniHand-2.0 的贡献
移除 UniHand-2.0 数据,仅使用机器人数据训练的基线模型:
| 实验设置 | 成功率 | 差距 |
|---|---|---|
| Being-H0.5(完整) | 78.3% | — |
| 无 UniHand-2.0 | 52.7% | -25.6% |
| 仅 10% UniHand-2.0 | 61.4% | -16.9% |
结论:UniHand-2.0 提供的人类运动先验是跨具身泛化的关键,贡献了约 25.6% 的性能提升。
MoT 架构的贡献
| 实验设置 | 动作生成 | 语言理解 | 跨具身泛化 |
|---|---|---|---|
| 完整 MoT | 92.1% | 88.5% | 78.3% |
| 单塔架构(非 MoT) | 89.3% | 82.1% | 64.2% |
| 差异 | +2.8% | +6.4% | +14.1% |
结论:MoT 架构对跨具身泛化的贡献(+14.1%)远超其对单任务性能的提升,说明解耦的专家结构能够学习到更通用的表示。
技术细节
模型配置
Being-H0.5 提供不同规模的模型版本:
| 版本 | 参数规模 | 适用场景 |
|---|---|---|
| Being-H05-2B | 2B | 边缘部署、实时控制 |
| Being-H05-7B | 7B | 研究基准 |
| Being-H05-13B | 13B | 高精度任务 |
输入输出规范
# 模型输入输出接口示例
class BeingH05Input:
images: List[np.ndarray] # 多视角 RGB 图像
text: str # 自然语言指令
robot_state: Optional[dict] # 机器人状态(关节角度等)
class BeingH05Output:
actions: np.ndarray # 连续动作序列
confidence: float # 动作置信度
text_response: Optional[str] # 可选的文本回答
# 动作格式
action = {
'end_effector_pose': [x, y, z, roll, pitch, yaw],
'gripper_position': 0.0 ~ 1.0, # 夹爪开度
'action_horizon': 8 # 预测未来 8 步
}推理效率
Being-H0.5 针对推理效率进行了优化:
- 动作频率:支持 10-30Hz 的实时控制
- 批处理:支持多任务并行推理
- 量化支持:INT8/INT4 量化,内存占用减少 60%
应用场景
1. 工业制造
- 柔性生产线:同一模型控制不同构型的工业机器人
- 快速部署:新产线无需重新训练,直接泛化
- 故障恢复:快速适配替代机器人
2. 服务机器人
- 家庭环境:适配不同品牌的家用机器人
- 酒店服务:统一控制不同构型的配送机器人
- 医疗辅助:跨平台手术机器人控制
3. 研究加速
- 机器人学家:无需从头训练,快速验证新想法
- 强化学习:作为预训练策略,加速 RL 微调
- sim-to-real:弥合仿真与现实的泛化差距
局限性
尽管 Being-H0.5 展示了强大的跨具身泛化能力,但仍存在一些局限:
- 精细操作:对于需要毫米级精度的任务(如穿针),仍需更多微调
- 力控任务:依赖视觉的策略在纯力控场景表现受限
- 实时性:大规模模型在资源受限的机器人控制器上部署困难
- 安全保证:缺乏形式化安全验证,不适合高风险环境
相关工作
Being-H0.5 建立在以下工作的基础上:
| 相关模型 | 关键贡献 |
|---|---|
| Being-H0 | 同团队的上一代模型,验证了人类运动先验的有效性 |
| OpenVLA | 开源 VLA 的规模化训练方案 |
| RT-2 | 视觉-语言-动作的统一建模 |
| Octo | Open X-Embodiment 数据集上的通用策略学习 |
| π0 | 针对精细操作的大规模 VLA |
引用
本页面最后更新于 2026-05-18
Footnotes
-
Luo, H., Wang, Y., Zhang, W., et al. (2026). Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization. arXiv:2601.12993. [论文] [官网] [HuggingFace] ↩ ↩2