RynnBrain：开放具身基础模型

论文概述

RynnBrain 是由阿里巴巴达摩院（DAMO Academy）于 2026 年 2 月发布的开放具身基础模型系列。¹ 该工作旨在弥合多模态基础模型与物理世界具身智能之间的差距——传统 VLM 擅长被动观察，但缺乏对物理现实的深度理解和主动推理能力。

RynnBrain 的核心定位是物理现实锚定的具身基础模型，通过全面自我中心认知、精确时空定位和真实任务规划三大能力升级，实现物理感知的主动推理和复杂任务执行。

核心创新：物理空间推理

物理空间推理（Physical-Space Reasoning）是 RynnBrain 区别于普通多模态大模型的关键创新。该能力使模型能够：

文本与空间定位交叉推理：将语言描述与物理空间坐标对齐，实现「物体-位置-动作」的联合推理
物理约束感知：理解物体之间的物理关系（支撑、遮挡、接触等）
时序空间建模：追踪物体运动轨迹和空间状态变化

这一能力使得智能体能够在复杂环境中进行长时程任务规划，而非仅做单步指令响应。

四种专化变体

RynnBrain 提供了基座模型和四种后训练专化变体：

变体	用途	说明
RynnBrain-Plan	任务规划	操控规划，输出子任务序列
RynnBrain-Nav	导航	视觉语言导航，输出路径动作
RynnBrain-CoP	空间推理	上下文感知规划（Context-of-Planning）
RynnBrain-VLA	视觉-语言-动作	端到端视觉语言动作模型

这些专化变体在基座模型基础上进行后训练（post-training），针对特定下游任务优化推理效率和执行精度。

架构设计

RynnBrain 采用标准的 VLM 架构，基于开源 LLM 扩展视觉编码器，支持：

多尺度视觉输入：兼容单帧图像和视频序列
动作空间建模：针对导航和操控的动作 token 输出
时空定位模块：集成坐标感知和物体追踪能力

架构设计强调可扩展性，基座模型支持多种规模部署。

开源资源

RynnBrain 采用 Apache 2.0 许可证全面开源：

资源	地址
论文	arXiv:2602.14979
GitHub	alibaba-damo-academy/RynnBrain
HuggingFace	Alibaba-DAMO-Academy/RynnBrain
ModelScope	DAMO_Academy/RynnBrain
基准评测	RynnBrain-Bench
在线 Demo	HuggingFace Space

模型权重

规模	类型	参数量
2B	Dense	20 亿
8B	Dense	80 亿
30B	MoE	300 亿（激活约 30 亿）

与同类方法对比

模型	机构	特点	许可
RynnBrain	阿里巴巴达摩院	物理空间推理 + 多专化变体	Apache 2.0
HY-Embodied-0.5	腾讯 Robotics X × 混元	多模态具身基础模型家族	部分开源
Ψ₀ (Psi-Zero)	USC PSI Lab × NVIDIA	人形机器人 loco-manipulation	部分开源

RynnBrain 的差异化优势在于：

完全开源：模型权重、代码、评测基准均开放
物理空间推理：强调语言与空间的联合建模
专化变体生态：提供 Nav、Plan、CoP、VLA 等多种后训练变体

参考资源

Dang R, Guo J, Hou B, et al. RynnBrain: Open Embodied Foundation Models. arXiv:2602.14979, 2026.
RynnBrain 项目主页
RynnBrain GitHub 仓库

Ronghao Dang*, Jiayan Guo*, Bohan Hou*, Sicong Leng*, Kehan Li*, Xin Li*, et al. RynnBrain: Open Embodied Foundation Models. arXiv:2602.14979, 2026. ↩

Metaphor

探索

RynnBrain：开放具身基础模型

论文概述

核心创新：物理空间推理

四种专化变体

架构设计

开源资源

模型权重

与同类方法对比

参考资源

关系图谱

目录

Metaphor

探索

RynnBrain：开放具身基础模型

论文概述

核心创新：物理空间推理

四种专化变体

架构设计

开源资源

模型权重

与同类方法对比

参考资源

Footnotes

关系图谱

目录