论文概述

HY-Embodied-0.5 是腾讯机器人 X 实验室与混元视觉团队联合推出的具身基础模型系列,专门为现实世界的具身智能体设计1。该模型旨在弥合通用视觉语言模型(VLM)与具身智能体需求之间的差距。

核心目标

为了实现鲁棒的具身智能体,当前 VLM 需要在两个主要维度取得实质性进展:

  1. 细粒度视觉感知:精确、细粒度的视觉感知是理解物理世界和为特定动作做出明智决策的基本前提
  2. 具身预测、交互与规划:主流 VLM 主要在静态、网络规模的数据集上训练,缺乏动态预测、物理世界交互和规划的动作导向能力

模型系列

HY-Embodied-0.5 包含两个主要变体:

模型激活参数总参数设计目标
MoT-2B2B4B高效实时响应、边缘设备部署
MoE-A32B32B407B复杂视觉感知与具身推理任务

核心创新:MoT架构

2.1 什么是 MoT(Mixture-of-Transformers)

MoT(Transformer 混合)架构是一种创新设计,允许模型对不同模态进行自适应计算1。与传统的 MoE(混合专家)不同,MoT 专注于在令牌(token)级别进行动态路由,而非在专家级别。

2.2 MoT 的核心设计

MoT 架构的核心思想是动态路由不同类型的令牌

// MoT 架构的简化示意
struct MoTBlock {
    // 路由器:决定每个令牌的处理方式
    Router router;  // 基于令牌类型选择计算路径
    
    // 不同类型的计算专家
    Expert language_expert;    // 语言令牌专家
    Expert vision_expert;      // 视觉令牌专家  
    Expert latent_expert;      // 隐式令牌专家
    
    // 模态感知注意力
    ModalityAwareAttention attention;
};
 
Token forward(Token x, TokenType type) {
    // 1. 路由器根据令牌类型决定权重
    auto weights = router(x, type);
    
    // 2. 多专家加权计算
    auto out = 
        weights.lang * language_expert(x) +
        weights.vis * vision_expert(x) +
        weights.lat * latent_expert(x);
    
    // 3. 模态感知的跨注意力
    return attention(out, x);
}

2.3 MoT vs 传统 VLM 架构

特性传统 VLMMoT 架构
视觉编码固定压缩比原生分辨率自适应
令牌处理统一处理类型自适应路由
计算分配固定动态按需分配
视觉建模欠优化针对性增强

2.4 原生分辨率 ViT

MoT-2B 采用高效且强大的**原生分辨率 Vision Transformer(ViT)**作为视觉编码器1。这是 HY-ViT 系列的进阶迭代,专门针对边缘设备部署进行了优化:

  • 支持原始输入分辨率,无需强制 resize 到固定尺寸
  • 保留更多细粒度视觉信息(纹理、小物体、空间关系)
  • 在边缘设备上实现高效推理

隐式令牌机制

3.1 隐式令牌的设计动机

传统 VLM 在连接视觉和语言模态时存在语义鸿沟问题:

  1. 视觉特征经过压缩后,可能丢失关键的空间细节
  2. 语言令牌难以直接与高维视觉特征对齐
  3. 需要额外的对齐训练才能有效融合多模态信息

3.2 隐式令牌的工作原理

HY-Embodied-0.5 引入**隐式令牌(Latent Tokens)**作为视觉和语言之间的桥梁1

原始图像 → 高分辨率编码 → 隐式令牌序列 → LLM 处理
                                    ↑
                              学习得到的信息瓶颈

隐式令牌的核心优势:

优势说明
信息瓶颈迫使模型学习紧凑但富有表现力的视觉表示
跨模态对齐隐式令牌作为可学习的对齐层,促进视觉-语言融合
计算效率减少直接传递到 LLM 的视觉令牌数量,降低计算成本
语义压缩将原始像素信息压缩为高层语义表示

3.3 隐式令牌的训练

隐式令牌通过端到端训练学习得到:

# 隐式令牌的简化训练流程
class LatentTokenModule(nn.Module):
    def __init__(self, vision_dim, latent_dim, num_latents=64):
        self.projection = nn.Linear(vision_dim, latent_dim)
        self.latents = nn.Parameter(torch.randn(num_latents, latent_dim))
        
    def forward(self, vision_features):
        # 投影视觉特征
        projected = self.projection(vision_features)
        
        # 与可学习的隐式令牌融合
        latent_tokens = self.latents.unsqueeze(0).expand(
            vision_features.size(0), -1, -1
        )
        combined = torch.cat([latent_tokens, projected], dim=1)
        
        return combined

在线策略蒸馏

4.1 为什么需要蒸馏?

小模型(2B)虽然在部署效率上有优势,但直接训练往往难以达到大模型(32B)的性能水平。传统的蒸馏方法存在以下问题:

传统方法问题
离线蒸馏大模型生成固定数据,无法适应小模型的学习动态
模仿学习容易出现状态覆盖问题(covered states)
KL 散度蒸馏假设固定的教师-学生关系,忽略策略差异

4.2 在线策略蒸馏(On-Policy Distillation)

HY-Embodied-0.5 采用在线策略蒸馏方法1,其核心思想是:

让大模型和小模型同时在线学习,大模型指导小模型,小模型又可以反馈优化大模型

┌─────────────────────────────────────────────────────┐
│                    在线策略蒸馏流程                   │
├─────────────────────────────────────────────────────┤
│                                                     │
│   ┌─────────┐    迭代优化    ┌─────────┐           │
│   │  大模型  │ ←── 互相 ──→ │  小模型  │           │
│   │ MoE-32B │   学习反馈   │  MoT-2B  │           │
│   └────┬────┘              └────┬────┘           │
│        │                        │                 │
│        │  高级推理能力          │  边缘部署能力    │
│        │  复杂任务处理          │  实时响应能力    │
│        └────────┬───────────────┘                 │
│                 ↓                                 │
│         ┌──────────────┐                          │
│         │ 蒸馏知识传递  │                          │
│         │ • 响应分布    │                          │
│         │ • 推理轨迹    │                          │
│         │ • 奖励信号    │                          │
│         └──────────────┘                          │
└─────────────────────────────────────────────────────┘

4.3 迭代自我进化后训练

除了蒸馏,HY-Embodied-0.5 还设计了迭代自我进化后训练范式1

# 迭代自我进化训练流程
def iterative_self_evolution_training(model, cold_start_data):
    # 阶段1: 冷启动 SFT
    model = supervised_finetune(model, cold_start_data)
    
    # 阶段2: 迭代优化循环
    for iteration in range(num_iterations):
        # 强化学习阶段
        model = reinforcement_learning(model)
        
        # 拒绝采样 SFT
        model = rejection_sampling_sft(model)
        
        # 评估与质量检查
        if quality_check(model):
            continue
        else:
            adjust_hyperparameters()
    
    return model

这种方法的优势:

  • 冷启动数据:少量高质量种子数据引导初始能力
  • 迭代强化学习:逐步提升模型的推理能力
  • 拒绝采样 SFT:过滤低质量样本,只学习最优响应

架构设计

5.1 整体架构

HY-Embodied-0.5 采用”视觉编码器 + LLM”的经典 VLM 架构,并针对具身任务进行了多项改进1

┌──────────────────────────────────────────────────────────────┐
│                    HY-Embodied-0.5 架构                        │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│   输入层                                                      │
│   ┌─────────────┐  ┌─────────────┐  ┌─────────────┐         │
│   │ 图像输入    │  │ 文本指令    │  │ 动作历史    │         │
│   │ (原生分辨率) │  │ (任务描述)  │  │ (可选)      │         │
│   └──────┬──────┘  └──────┬──────┘  └──────┬──────┘         │
│          │                │                │                  │
│          ↓                ↓                ↓                  │
│   ┌─────────────┐  ┌─────────────┐  ┌─────────────┐         │
│   │  ViT 编码器  │  │ 文本嵌入    │  │ 动作嵌入    │         │
│   │ (原生分辨率) │  │             │  │             │         │
│   └──────┬──────┘  └──────┬──────┘  └──────┬──────┘         │
│          │                │                │                  │
│          └────────┬───────┴────────────────┘                  │
│                   ↓                                           │
│   ┌─────────────────────────────────────────┐                │
│   │              MoT Transformer             │                │
│   │  ┌───────────┐ ┌───────────┐ ┌────────┐ │                │
│   │  │ MoT 路由层 │ │ 语言专家  │ │视觉专家│ │                │
│   │  └───────────┘ └───────────┘ └────────┘ │                │
│   │  ┌─────────────────────────────────────┐ │                │
│   │  │        模态感知注意力机制           │ │                │
│   │  └─────────────────────────────────────┘ │                │
│   └────────────────────┬──────────────────────┘                │
│                        ↓                                        │
│   ┌─────────────────────────────────────────┐                │
│   │              隐式令牌层                  │                │
│   │         (视觉-语言跨模态对齐)            │                │
│   └────────────────────┬──────────────────────┘                │
│                        ↓                                        │
│              ┌─────────────────┐                               │
│              │    LLM 主体     │                               │
│              │   (MoT-2B/MoE-32B) │                              │
│              └────────┬────────┘                               │
│                       ↓                                         │
│   ┌─────────────────────────────────────────┐                │
│   │              输出层                       │                │
│   │  ┌───────────┐ ┌───────────────────────┐ │                │
│   │  │ 文本响应  │ │ 动作预测 (VLA模式)    │ │                │
│   │  └───────────┘ └───────────────────────┘ │                │
│   └─────────────────────────────────────────┘                │
└──────────────────────────────────────────────────────────────┘

5.2 关键组件

组件描述作用
原生分辨率 ViT支持任意分辨率输入保留细粒度视觉信息
MoT 路由层动态分配计算资源提高效率,增强视觉建模
隐式令牌可学习的模态对齐增强视觉-语言融合
模态感知注意力跨模态信息交互深层语义理解
VLA 输出头动作预测支持下游机器人控制

5.3 预训练数据

HY-Embodied-0.5 的预训练数据构建超过 100M 训练样本1

数据类型描述规模
基础感知图像分类、目标检测等~20M
空间感知深度估计、3D 理解~30M
具身感知场景理解、物体关系~30M
推理规划任务分解、动作序列~20M

5.4 VLA 模型扩展

HY-Embodied-0.5 还可用于训练 VLA(视觉-语言-动作)模型,通过以下方式扩展:

# VLA 模式下的动作预测
class VLAHead(nn.Module):
    def __init__(self, hidden_dim, action_dim, action_horizon=8):
        super().__init__()
        self.action_horizon = action_horizon
        # 预测未来 action_horizon 步的动作
        self.action_pred = nn.Sequential(
            nn.Linear(hidden_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, action_dim * action_horizon)
        )
    
    def forward(self, llm_features):
        # llm_features: [batch, seq, hidden]
        # 提取最后一个时间步的特征
        last_features = llm_features[:, -1, :]
        # 预测连续动作
        actions = self.action_pred(last_features)
        return actions.view(-1, self.action_horizon, action_dim)

实验结果

6.1 综合评测

HY-Embodied-0.5 在 22 个公开基准测试上进行了全面评估,涵盖视觉感知、空间推理和具身理解1

MoT-2B 结果(2B 参数)

指标HY-Embodied-0.5 MoT-2BQwen3-VL-4BRoboBrain2.5-4B
22 基准平均分58.0%47.8%49.4%
胜出基准数量16/22--

MoT-2B 在 22 个基准中的 16 个上取得了最佳表现,超越了参数量相近的通用 VLM 和专用具身 VLM。

MoE-A32B 结果(32B 参数)

指标HY-Embodied-0.5 MoE-A32BGemini 3.0 Pro
22 基准平均分67.0%63.6%

32B 模型在 22 个基准上的平均得分达到了 67.0%,超越了前沿模型 Gemini 3.0 Pro(63.6%)。

6.2 下游机器人控制

HY-Embodied-0.5 的 VLM 基础模型被用于训练 VLA 模型,在真实机器人控制任务上取得了令人信服的结果1

任务类型              成功率提升
────────────────────────────────
物体抓取              +15.3%
精细操作              +22.1%
多步骤任务            +18.7%
长期规划任务          +31.2%

与相关方法对比

7.1 与 RynnBrain 对比

特性HY-Embodied-0.5RoboBrain/RynnBrain
架构MoT(令牌级路由)标准 VLM
视觉编码原生分辨率 ViT固定分辨率
隐式表示隐式令牌融合直接投影
蒸馏方式在线策略蒸馏离线蒸馏

7.2 与 Ψ₀ 对比

特性HY-Embodied-0.5Ψ₀
训练范式迭代自我进化物理世界自我完善
核心创新MoT + 隐式令牌视频生成先验
专注点视觉-语言-动作统一视频预测与规划
开源程度部分开源(2B)未开源

7.3 与 Gemini Robotics 对比

特性HY-Embodied-0.5Gemini Robotics
发布机构腾讯混元Google DeepMind
架构MoT + MoE标准 Transformer
模型规模2B / 32B3B / 7B / 43B
核心创新令牌级动态路由RTK 具身推理
开源部分开源未开源

开源资源

8.1 模型权重

模型参数量链接说明
HY-Embodied-0.5-2B2BHuggingFace开源可推理
HY-Embodied-0.5-32B32B-未开源

8.2 代码仓库

8.3 技术报告

参考资源


相关词条具身AI基础 | 基础模型 | VLA基础模型综述 | RynnBrain | Ψ₀ | Gemini Robotics

Footnotes

  1. HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents. Tencent Robotics X × HY Vision Team. arXiv:2604.07430 (2026). https://arxiv.org/abs/2604.07430 2 3 4 5 6 7 8 9 10