论文概述
HY-Embodied-0.5 是腾讯机器人 X 实验室与混元视觉团队联合推出的具身基础模型系列,专门为现实世界的具身智能体设计1。该模型旨在弥合通用视觉语言模型(VLM)与具身智能体需求之间的差距。
核心目标
为了实现鲁棒的具身智能体,当前 VLM 需要在两个主要维度取得实质性进展:
- 细粒度视觉感知:精确、细粒度的视觉感知是理解物理世界和为特定动作做出明智决策的基本前提
- 具身预测、交互与规划:主流 VLM 主要在静态、网络规模的数据集上训练,缺乏动态预测、物理世界交互和规划的动作导向能力
模型系列
HY-Embodied-0.5 包含两个主要变体:
| 模型 | 激活参数 | 总参数 | 设计目标 |
|---|---|---|---|
| MoT-2B | 2B | 4B | 高效实时响应、边缘设备部署 |
| MoE-A32B | 32B | 407B | 复杂视觉感知与具身推理任务 |
核心创新:MoT架构
2.1 什么是 MoT(Mixture-of-Transformers)
MoT(Transformer 混合)架构是一种创新设计,允许模型对不同模态进行自适应计算1。与传统的 MoE(混合专家)不同,MoT 专注于在令牌(token)级别进行动态路由,而非在专家级别。
2.2 MoT 的核心设计
MoT 架构的核心思想是动态路由不同类型的令牌:
// MoT 架构的简化示意
struct MoTBlock {
// 路由器:决定每个令牌的处理方式
Router router; // 基于令牌类型选择计算路径
// 不同类型的计算专家
Expert language_expert; // 语言令牌专家
Expert vision_expert; // 视觉令牌专家
Expert latent_expert; // 隐式令牌专家
// 模态感知注意力
ModalityAwareAttention attention;
};
Token forward(Token x, TokenType type) {
// 1. 路由器根据令牌类型决定权重
auto weights = router(x, type);
// 2. 多专家加权计算
auto out =
weights.lang * language_expert(x) +
weights.vis * vision_expert(x) +
weights.lat * latent_expert(x);
// 3. 模态感知的跨注意力
return attention(out, x);
}2.3 MoT vs 传统 VLM 架构
| 特性 | 传统 VLM | MoT 架构 |
|---|---|---|
| 视觉编码 | 固定压缩比 | 原生分辨率自适应 |
| 令牌处理 | 统一处理 | 类型自适应路由 |
| 计算分配 | 固定 | 动态按需分配 |
| 视觉建模 | 欠优化 | 针对性增强 |
2.4 原生分辨率 ViT
MoT-2B 采用高效且强大的**原生分辨率 Vision Transformer(ViT)**作为视觉编码器1。这是 HY-ViT 系列的进阶迭代,专门针对边缘设备部署进行了优化:
- 支持原始输入分辨率,无需强制 resize 到固定尺寸
- 保留更多细粒度视觉信息(纹理、小物体、空间关系)
- 在边缘设备上实现高效推理
隐式令牌机制
3.1 隐式令牌的设计动机
传统 VLM 在连接视觉和语言模态时存在语义鸿沟问题:
- 视觉特征经过压缩后,可能丢失关键的空间细节
- 语言令牌难以直接与高维视觉特征对齐
- 需要额外的对齐训练才能有效融合多模态信息
3.2 隐式令牌的工作原理
HY-Embodied-0.5 引入**隐式令牌(Latent Tokens)**作为视觉和语言之间的桥梁1:
原始图像 → 高分辨率编码 → 隐式令牌序列 → LLM 处理
↑
学习得到的信息瓶颈
隐式令牌的核心优势:
| 优势 | 说明 |
|---|---|
| 信息瓶颈 | 迫使模型学习紧凑但富有表现力的视觉表示 |
| 跨模态对齐 | 隐式令牌作为可学习的对齐层,促进视觉-语言融合 |
| 计算效率 | 减少直接传递到 LLM 的视觉令牌数量,降低计算成本 |
| 语义压缩 | 将原始像素信息压缩为高层语义表示 |
3.3 隐式令牌的训练
隐式令牌通过端到端训练学习得到:
# 隐式令牌的简化训练流程
class LatentTokenModule(nn.Module):
def __init__(self, vision_dim, latent_dim, num_latents=64):
self.projection = nn.Linear(vision_dim, latent_dim)
self.latents = nn.Parameter(torch.randn(num_latents, latent_dim))
def forward(self, vision_features):
# 投影视觉特征
projected = self.projection(vision_features)
# 与可学习的隐式令牌融合
latent_tokens = self.latents.unsqueeze(0).expand(
vision_features.size(0), -1, -1
)
combined = torch.cat([latent_tokens, projected], dim=1)
return combined在线策略蒸馏
4.1 为什么需要蒸馏?
小模型(2B)虽然在部署效率上有优势,但直接训练往往难以达到大模型(32B)的性能水平。传统的蒸馏方法存在以下问题:
| 传统方法 | 问题 |
|---|---|
| 离线蒸馏 | 大模型生成固定数据,无法适应小模型的学习动态 |
| 模仿学习 | 容易出现状态覆盖问题(covered states) |
| KL 散度蒸馏 | 假设固定的教师-学生关系,忽略策略差异 |
4.2 在线策略蒸馏(On-Policy Distillation)
HY-Embodied-0.5 采用在线策略蒸馏方法1,其核心思想是:
让大模型和小模型同时在线学习,大模型指导小模型,小模型又可以反馈优化大模型
┌─────────────────────────────────────────────────────┐
│ 在线策略蒸馏流程 │
├─────────────────────────────────────────────────────┤
│ │
│ ┌─────────┐ 迭代优化 ┌─────────┐ │
│ │ 大模型 │ ←── 互相 ──→ │ 小模型 │ │
│ │ MoE-32B │ 学习反馈 │ MoT-2B │ │
│ └────┬────┘ └────┬────┘ │
│ │ │ │
│ │ 高级推理能力 │ 边缘部署能力 │
│ │ 复杂任务处理 │ 实时响应能力 │
│ └────────┬───────────────┘ │
│ ↓ │
│ ┌──────────────┐ │
│ │ 蒸馏知识传递 │ │
│ │ • 响应分布 │ │
│ │ • 推理轨迹 │ │
│ │ • 奖励信号 │ │
│ └──────────────┘ │
└─────────────────────────────────────────────────────┘
4.3 迭代自我进化后训练
除了蒸馏,HY-Embodied-0.5 还设计了迭代自我进化后训练范式1:
# 迭代自我进化训练流程
def iterative_self_evolution_training(model, cold_start_data):
# 阶段1: 冷启动 SFT
model = supervised_finetune(model, cold_start_data)
# 阶段2: 迭代优化循环
for iteration in range(num_iterations):
# 强化学习阶段
model = reinforcement_learning(model)
# 拒绝采样 SFT
model = rejection_sampling_sft(model)
# 评估与质量检查
if quality_check(model):
continue
else:
adjust_hyperparameters()
return model这种方法的优势:
- 冷启动数据:少量高质量种子数据引导初始能力
- 迭代强化学习:逐步提升模型的推理能力
- 拒绝采样 SFT:过滤低质量样本,只学习最优响应
架构设计
5.1 整体架构
HY-Embodied-0.5 采用”视觉编码器 + LLM”的经典 VLM 架构,并针对具身任务进行了多项改进1:
┌──────────────────────────────────────────────────────────────┐
│ HY-Embodied-0.5 架构 │
├──────────────────────────────────────────────────────────────┤
│ │
│ 输入层 │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ 图像输入 │ │ 文本指令 │ │ 动作历史 │ │
│ │ (原生分辨率) │ │ (任务描述) │ │ (可选) │ │
│ └──────┬──────┘ └──────┬──────┘ └──────┬──────┘ │
│ │ │ │ │
│ ↓ ↓ ↓ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ ViT 编码器 │ │ 文本嵌入 │ │ 动作嵌入 │ │
│ │ (原生分辨率) │ │ │ │ │ │
│ └──────┬──────┘ └──────┬──────┘ └──────┬──────┘ │
│ │ │ │ │
│ └────────┬───────┴────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────────┐ │
│ │ MoT Transformer │ │
│ │ ┌───────────┐ ┌───────────┐ ┌────────┐ │ │
│ │ │ MoT 路由层 │ │ 语言专家 │ │视觉专家│ │ │
│ │ └───────────┘ └───────────┘ └────────┘ │ │
│ │ ┌─────────────────────────────────────┐ │ │
│ │ │ 模态感知注意力机制 │ │ │
│ │ └─────────────────────────────────────┘ │ │
│ └────────────────────┬──────────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────────┐ │
│ │ 隐式令牌层 │ │
│ │ (视觉-语言跨模态对齐) │ │
│ └────────────────────┬──────────────────────┘ │
│ ↓ │
│ ┌─────────────────┐ │
│ │ LLM 主体 │ │
│ │ (MoT-2B/MoE-32B) │ │
│ └────────┬────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────────┐ │
│ │ 输出层 │ │
│ │ ┌───────────┐ ┌───────────────────────┐ │ │
│ │ │ 文本响应 │ │ 动作预测 (VLA模式) │ │ │
│ │ └───────────┘ └───────────────────────┘ │ │
│ └─────────────────────────────────────────┘ │
└──────────────────────────────────────────────────────────────┘
5.2 关键组件
| 组件 | 描述 | 作用 |
|---|---|---|
| 原生分辨率 ViT | 支持任意分辨率输入 | 保留细粒度视觉信息 |
| MoT 路由层 | 动态分配计算资源 | 提高效率,增强视觉建模 |
| 隐式令牌 | 可学习的模态对齐 | 增强视觉-语言融合 |
| 模态感知注意力 | 跨模态信息交互 | 深层语义理解 |
| VLA 输出头 | 动作预测 | 支持下游机器人控制 |
5.3 预训练数据
HY-Embodied-0.5 的预训练数据构建超过 100M 训练样本1:
| 数据类型 | 描述 | 规模 |
|---|---|---|
| 基础感知 | 图像分类、目标检测等 | ~20M |
| 空间感知 | 深度估计、3D 理解 | ~30M |
| 具身感知 | 场景理解、物体关系 | ~30M |
| 推理规划 | 任务分解、动作序列 | ~20M |
5.4 VLA 模型扩展
HY-Embodied-0.5 还可用于训练 VLA(视觉-语言-动作)模型,通过以下方式扩展:
# VLA 模式下的动作预测
class VLAHead(nn.Module):
def __init__(self, hidden_dim, action_dim, action_horizon=8):
super().__init__()
self.action_horizon = action_horizon
# 预测未来 action_horizon 步的动作
self.action_pred = nn.Sequential(
nn.Linear(hidden_dim, hidden_dim),
nn.ReLU(),
nn.Linear(hidden_dim, action_dim * action_horizon)
)
def forward(self, llm_features):
# llm_features: [batch, seq, hidden]
# 提取最后一个时间步的特征
last_features = llm_features[:, -1, :]
# 预测连续动作
actions = self.action_pred(last_features)
return actions.view(-1, self.action_horizon, action_dim)实验结果
6.1 综合评测
HY-Embodied-0.5 在 22 个公开基准测试上进行了全面评估,涵盖视觉感知、空间推理和具身理解1:
MoT-2B 结果(2B 参数)
| 指标 | HY-Embodied-0.5 MoT-2B | Qwen3-VL-4B | RoboBrain2.5-4B |
|---|---|---|---|
| 22 基准平均分 | 58.0% | 47.8% | 49.4% |
| 胜出基准数量 | 16/22 | - | - |
MoT-2B 在 22 个基准中的 16 个上取得了最佳表现,超越了参数量相近的通用 VLM 和专用具身 VLM。
MoE-A32B 结果(32B 参数)
| 指标 | HY-Embodied-0.5 MoE-A32B | Gemini 3.0 Pro |
|---|---|---|
| 22 基准平均分 | 67.0% | 63.6% |
32B 模型在 22 个基准上的平均得分达到了 67.0%,超越了前沿模型 Gemini 3.0 Pro(63.6%)。
6.2 下游机器人控制
HY-Embodied-0.5 的 VLM 基础模型被用于训练 VLA 模型,在真实机器人控制任务上取得了令人信服的结果1:
任务类型 成功率提升
────────────────────────────────
物体抓取 +15.3%
精细操作 +22.1%
多步骤任务 +18.7%
长期规划任务 +31.2%
与相关方法对比
7.1 与 RynnBrain 对比
| 特性 | HY-Embodied-0.5 | RoboBrain/RynnBrain |
|---|---|---|
| 架构 | MoT(令牌级路由) | 标准 VLM |
| 视觉编码 | 原生分辨率 ViT | 固定分辨率 |
| 隐式表示 | 隐式令牌融合 | 直接投影 |
| 蒸馏方式 | 在线策略蒸馏 | 离线蒸馏 |
7.2 与 Ψ₀ 对比
| 特性 | HY-Embodied-0.5 | Ψ₀ |
|---|---|---|
| 训练范式 | 迭代自我进化 | 物理世界自我完善 |
| 核心创新 | MoT + 隐式令牌 | 视频生成先验 |
| 专注点 | 视觉-语言-动作统一 | 视频预测与规划 |
| 开源程度 | 部分开源(2B) | 未开源 |
7.3 与 Gemini Robotics 对比
| 特性 | HY-Embodied-0.5 | Gemini Robotics |
|---|---|---|
| 发布机构 | 腾讯混元 | Google DeepMind |
| 架构 | MoT + MoE | 标准 Transformer |
| 模型规模 | 2B / 32B | 3B / 7B / 43B |
| 核心创新 | 令牌级动态路由 | RTK 具身推理 |
| 开源 | 部分开源 | 未开源 |
开源资源
8.1 模型权重
| 模型 | 参数量 | 链接 | 说明 |
|---|---|---|---|
| HY-Embodied-0.5-2B | 2B | HuggingFace | 开源可推理 |
| HY-Embodied-0.5-32B | 32B | - | 未开源 |
8.2 代码仓库
- GitHub: Tencent-Hunyuan/HY-Embodied
- 包含推理代码和模型权重
- Apache 许可证
8.3 技术报告
- 论文 PDF: arXiv:2604.07430
参考资源
相关词条:具身AI基础 | 基础模型 | VLA基础模型综述 | RynnBrain | Ψ₀ | Gemini Robotics