论文概述

RynnBrain 是由阿里巴巴达摩院(DAMO Academy)于 2026 年 2 月发布的开放具身基础模型系列。1 该工作旨在弥合多模态基础模型与物理世界具身智能之间的差距——传统 VLM 擅长被动观察,但缺乏对物理现实的深度理解和主动推理能力。

RynnBrain 的核心定位是物理现实锚定的具身基础模型,通过全面自我中心认知、精确时空定位和真实任务规划三大能力升级,实现物理感知的主动推理和复杂任务执行。

核心创新:物理空间推理

物理空间推理(Physical-Space Reasoning)是 RynnBrain 区别于普通多模态大模型的关键创新。该能力使模型能够:

  • 文本与空间定位交叉推理:将语言描述与物理空间坐标对齐,实现「物体-位置-动作」的联合推理
  • 物理约束感知:理解物体之间的物理关系(支撑、遮挡、接触等)
  • 时序空间建模:追踪物体运动轨迹和空间状态变化

这一能力使得智能体能够在复杂环境中进行长时程任务规划,而非仅做单步指令响应。

四种专化变体

RynnBrain 提供了基座模型和四种后训练专化变体:

变体用途说明
RynnBrain-Plan任务规划操控规划,输出子任务序列
RynnBrain-Nav导航视觉语言导航,输出路径动作
RynnBrain-CoP空间推理上下文感知规划(Context-of-Planning)
RynnBrain-VLA视觉-语言-动作端到端视觉语言动作模型

这些专化变体在基座模型基础上进行后训练(post-training),针对特定下游任务优化推理效率和执行精度。

架构设计

RynnBrain 采用标准的 VLM 架构,基于开源 LLM 扩展视觉编码器,支持:

  • 多尺度视觉输入:兼容单帧图像和视频序列
  • 动作空间建模:针对导航和操控的动作 token 输出
  • 时空定位模块:集成坐标感知和物体追踪能力

架构设计强调可扩展性,基座模型支持多种规模部署。

开源资源

RynnBrain 采用 Apache 2.0 许可证全面开源:

模型权重

规模类型参数量
2BDense20 亿
8BDense80 亿
30BMoE300 亿(激活约 30 亿)

与同类方法对比

模型机构特点许可
RynnBrain阿里巴巴达摩院物理空间推理 + 多专化变体Apache 2.0
HY-Embodied-0.5腾讯 Robotics X × 混元多模态具身基础模型家族部分开源
Ψ₀ (Psi-Zero)USC PSI Lab × NVIDIA人形机器人 loco-manipulation部分开源

RynnBrain 的差异化优势在于:

  • 完全开源:模型权重、代码、评测基准均开放
  • 物理空间推理:强调语言与空间的联合建模
  • 专化变体生态:提供 Nav、Plan、CoP、VLA 等多种后训练变体

参考资源


Footnotes

  1. Ronghao Dang*, Jiayan Guo*, Bohan Hou*, Sicong Leng*, Kehan Li*, Xin Li*, et al. RynnBrain: Open Embodied Foundation Models. arXiv:2602.14979, 2026.