RynnBrain：开放具身基础模型

概述

RynnBrain 是阿里巴巴达摩院（DAMO Academy）于2026年2月发布的完全开源具身基础模型，旨在为机器人提供统一的物理世界理解能力。该模型突破了传统视觉-语言模型被动观察的局限，通过以自我为中心的认知（Egocentric Cognition）、**精准的时空定位（Spatiotemporal Grounding）和真实任务规划（Real Task Planning）**三大核心能力，使智能体能够在物理世界中进行主动的、物理感知的推理与复杂任务执行。¹²

RynnBrain 的核心贡献在于首次将时空记忆和物理空间推理能力赋予机器人，填补了开源具身智能领域缺乏统一、物理锚定的基础模型的空白。³

架构设计

基于 Qwen3-VL 的基础改造

RynnBrain 以 Qwen3-VL 作为基础架构进行具身智能增强改造。Qwen3-VL 是阿里通义千问团队开源的多模态大模型，具备强大的视觉理解能力。RynnBrain 在其基础上进行了以下关键改造：

Physics-Aware Spatiotemporal Pretraining：在 20M 规模的样本上进行时空预训练，使模型理解物体在时间维度的变化和空间位置关系
Chain-of-Point (CoP) 交织推理：引入点链式推理机制，将视觉感知与空间推理交织进行
GRPO 强化学习优化：采用 Group Relative Policy Optimization (GRPO) 进行策略优化，提升物理推理能力

模型规模与变体

RynnBrain 提供三种规模的模型：

模型	类型	参数量	特点
RynnBrain-2B	Dense	2B	轻量级，适合边缘部署
RynnBrain-8B	Dense	8B	平衡性能与效率
RynnBrain-30B-A3B	MoE	30B（激活3B）	混合专家架构，推理能力最强

MoE 架构说明

30B 版本采用 MoE（混合专家）架构，具体为 A3B 配置，即：

总参数量：30B
激活参数量：约 3B（每次推理只激活部分专家网络）
优势：在保持强大推理能力的同时，显著降低推理计算成本

领域专用模型

除通用版本外，RynnBrain 还发布了三个领域专用变体：

模型	用途	说明
RynnBrain-Plan	任务规划	专注于复杂任务的分解与规划
RynnBrain-Nav	导航定位	专注于空间导航与路径规划
RynnBrain-CoP	空间推理	专注于 Chain-of-Point 交织推理

这些专用模型均提供 8B 和 30B-A3B 两个版本。⁴

核心能力

以自我为中心的认知（Egocentric Cognition）

传统视觉语言模型主要处理第三人称视角的静态图像，而 RynnBrain 增强了第一人称/自我视角的感知能力：

视角理解：理解摄像头/机器人视角下的场景
身体感知：理解自身与环境的相对位置关系
注意力机制：聚焦于与当前任务相关的空间区域

这种能力使机器人能够像人类一样”从自身角度”理解和响应环境。⁵

时空定位（Spatiotemporal Grounding）

RynnBrain 具备精准的时空定位能力，能够：

物体追踪：在连续帧中追踪特定物体的位置变化
动作理解：理解场景中发生的动作序列及其因果关系
空间关系：精确判断物体之间的空间位置关系（上下、左右、前后等）

这解决了具身智能中”感知到行动”的关键问题——模型能够准确知道”目标在哪里”以及”如何到达那里”。³

物理感知推理

RynnBrain 不仅理解场景的视觉特征，还具备物理世界推理能力：

物理常识：理解重力、碰撞、平衡等物理规律
力学直觉：预测物体运动趋势和受力情况
因果推理：理解动作与结果之间的因果关系

这种能力通过 GRPO 强化学习 训练得到，使模型能够在规划动作时考虑物理约束。⁶

RynnBrain-Bench 评测套件

评测设计

RynnBrain-Bench 是一个高维度评测套件，专门用于评估具身智能模型的认知和定位能力。其独特之处在于：

精细化理解：强调复杂家庭环境中的细粒度理解
时空定位：聚焦于时序视频片段中的精确时空定位
多维度评估：涵盖对象认知、空间认知等多个维度

评测维度

RynnBrain-Bench 包含以下核心评测任务：

评测维度	描述	样本量
Object Cognition	物体识别与属性理解	2000
Spatial Cognition	空间关系与定位	2000

评测任务示例

RynnBrain-Bench 的任务形式包括：

视频问答：给定一段机器人在室内行走的视频，回答关于物体位置、动作序列等问题
时空定位：在视频中定位某个物体出现的时间点和空间位置
任务规划：给定任务描述和当前场景，规划合理的动作序列

该评测套件可通过 Hugging Face 获取：Alibaba-DAMO-Academy/RynnBrain-Bench⁷

开源生态

许可证

RynnBrain 采用 Apache-2.0 开源许可证，这是目前最宽松的开源许可证之一：

✅ 允许商业使用
✅ 允许修改和衍生
✅ 允许私有闭源
✅ 需要保留版权声明
✅ 不提供任何担保

发布资源

资源	地址	说明
GitHub	alibaba-damo-academy/RynnBrain	代码、示例、文档
项目主页	alibaba-damo-academy.github.io/RynnBrain.github.io	官方展示页面
Hugging Face	Alibaba-DAMO-Academy/RynnBrain	模型权重集合

模型下载

所有模型均可从 Hugging Face 获取：

模型	Hugging Face ID
RynnBrain-2B	`Alibaba-DAMO-Academy/RynnBrain-2B`
RynnBrain-8B	`Alibaba-DAMO-Academy/RynnBrain-8B`
RynnBrain-30B-A3B	`Alibaba-DAMO-Academy/RynnBrain-30B-A3B`
RynnBrain-Plan-8B	`Alibaba-DAMO-Academy/RynnBrain-Plan-8B`
RynnBrain-Plan-30B-A3B	`Alibaba-DAMO-Academy/RynnBrain-Plan-30B-A3B`
RynnBrain-Nav-8B	`Alibaba-DAMO-Academy/RynnBrain-Nav-8B`

与其他开源 VLA 模型对比

主流开源 VLA 模型概览

模型	机构	类型	参数量	特点
RynnBrain	阿里达摩院	通用具身	2B/8B/30B	时空定位、物理推理、开源最全
OpenVLA	Stanford/NVIDIA	视觉-语言-动作	7B	专注机器人操控动作预测
π0 (PI0)	Physical Intelligence	专有→开源	7B/21B	专注操控，物理直觉强
GR00T	NVIDIA	通用具身	-	Isaac 仿真生态集成

能力对比

能力	RynnBrain	OpenVLA	π0
视觉理解	✅ 多模态VL	✅ VLA集成	✅ VLA集成
时空定位	✅ 核心能力	⚠️ 有限	⚠️ 有限
物理推理	✅ GRPO训练	❌	✅
任务规划	✅ Plan变体	❌	❌
导航能力	✅ Nav变体	❌	❌
开源完整度	✅ 代码+权重+数据	✅	⚠️ 部分开源
模型规模	✅ 2B-30B	仅7B	7B/21B

差异化定位

RynnBrain 的定位与其他开源 VLA 模型存在显著差异：

定位差异：OpenVLA 和 π0 主要聚焦于机器人操控动作预测，而 RynnBrain 是一个通用具身智能基础模型，强调感知、推理、规划的完整能力
能力边界：RynnBrain 的时空定位和物理推理能力是目前开源模型中最完整的，填补了”具身视觉-语言模型”到”具身动作模型”之间的能力空白
生态完整度：RynnBrain 提供从 2B 到 30B 的完整模型矩阵，以及 Plan、Nav、CoP 专用变体，是目前开源具身模型中覆盖最全面的⁸

技术总结

RynnBrain 的核心技术贡献可以归纳为以下几点：

创新点

统一具身认知框架：首次将 egocentric cognition、spatiotemporal grounding、physical reasoning 整合到统一框架中
Physics-Aware 预训练：20M 规模的时空预训练数据，使模型获得物理世界直觉
Chain-of-Point 推理：创新的交织推理机制，提升空间推理的准确性
GRPO 强化学习：采用先进的强化学习算法进行策略优化

性能表现

根据论文报告，RynnBrain 在 20 个具身智能基准测试上大幅超越同等规模的具身模型，Post-trained 变体在以下任务上取得 SOTA：

VLN（视觉语言导航）：RynnBrain-Nav 表现优异
Manipulation Planning（操控规划）：RynnBrain-Plan 表现优异
VLA（视觉语言动作）：RynnBrain 通用版本表现优异⁶

Metaphor

探索

RynnBrain：开放具身基础模型

概述

架构设计

基于 Qwen3-VL 的基础改造

模型规模与变体

MoE 架构说明

领域专用模型

核心能力

以自我为中心的认知（Egocentric Cognition）

时空定位（Spatiotemporal Grounding）

物理感知推理

RynnBrain-Bench 评测套件

评测设计

评测维度

评测任务示例

开源生态

许可证

发布资源

模型下载

与其他开源 VLA 模型对比

主流开源 VLA 模型概览

能力对比

差异化定位

技术总结

创新点

性能表现

引用

关系图谱

目录

反向链接

Metaphor

探索

RynnBrain：开放具身基础模型

概述

架构设计

基于 Qwen3-VL 的基础改造

模型规模与变体

MoE 架构说明

领域专用模型

核心能力

以自我为中心的认知（Egocentric Cognition）

时空定位（Spatiotemporal Grounding）

物理感知推理

RynnBrain-Bench 评测套件

评测设计

评测维度

评测任务示例

开源生态

许可证

发布资源

模型下载

与其他开源 VLA 模型对比

主流开源 VLA 模型概览

能力对比

差异化定位

技术总结

创新点

性能表现

引用

Footnotes

关系图谱

目录

反向链接