概述
RynnBrain 是阿里巴巴达摩院(DAMO Academy)于2026年2月发布的完全开源具身基础模型,旨在为机器人提供统一的物理世界理解能力。该模型突破了传统视觉-语言模型被动观察的局限,通过以自我为中心的认知(Egocentric Cognition)、**精准的时空定位(Spatiotemporal Grounding)和真实任务规划(Real Task Planning)**三大核心能力,使智能体能够在物理世界中进行主动的、物理感知的推理与复杂任务执行。12
RynnBrain 的核心贡献在于首次将时空记忆和物理空间推理能力赋予机器人,填补了开源具身智能领域缺乏统一、物理锚定的基础模型的空白。3
架构设计
基于 Qwen3-VL 的基础改造
RynnBrain 以 Qwen3-VL 作为基础架构进行具身智能增强改造。Qwen3-VL 是阿里通义千问团队开源的多模态大模型,具备强大的视觉理解能力。RynnBrain 在其基础上进行了以下关键改造:
- Physics-Aware Spatiotemporal Pretraining:在 20M 规模的样本上进行时空预训练,使模型理解物体在时间维度的变化和空间位置关系
- Chain-of-Point (CoP) 交织推理:引入点链式推理机制,将视觉感知与空间推理交织进行
- GRPO 强化学习优化:采用 Group Relative Policy Optimization (GRPO) 进行策略优化,提升物理推理能力
模型规模与变体
RynnBrain 提供三种规模的模型:
| 模型 | 类型 | 参数量 | 特点 |
|---|---|---|---|
| RynnBrain-2B | Dense | 2B | 轻量级,适合边缘部署 |
| RynnBrain-8B | Dense | 8B | 平衡性能与效率 |
| RynnBrain-30B-A3B | MoE | 30B(激活3B) | 混合专家架构,推理能力最强 |
MoE 架构说明
30B 版本采用 MoE(混合专家)架构,具体为 A3B 配置,即:
- 总参数量:30B
- 激活参数量:约 3B(每次推理只激活部分专家网络)
- 优势:在保持强大推理能力的同时,显著降低推理计算成本
领域专用模型
除通用版本外,RynnBrain 还发布了三个领域专用变体:
| 模型 | 用途 | 说明 |
|---|---|---|
| RynnBrain-Plan | 任务规划 | 专注于复杂任务的分解与规划 |
| RynnBrain-Nav | 导航定位 | 专注于空间导航与路径规划 |
| RynnBrain-CoP | 空间推理 | 专注于 Chain-of-Point 交织推理 |
这些专用模型均提供 8B 和 30B-A3B 两个版本。4
核心能力
以自我为中心的认知(Egocentric Cognition)
传统视觉语言模型主要处理第三人称视角的静态图像,而 RynnBrain 增强了第一人称/自我视角的感知能力:
- 视角理解:理解摄像头/机器人视角下的场景
- 身体感知:理解自身与环境的相对位置关系
- 注意力机制:聚焦于与当前任务相关的空间区域
这种能力使机器人能够像人类一样”从自身角度”理解和响应环境。5
时空定位(Spatiotemporal Grounding)
RynnBrain 具备精准的时空定位能力,能够:
- 物体追踪:在连续帧中追踪特定物体的位置变化
- 动作理解:理解场景中发生的动作序列及其因果关系
- 空间关系:精确判断物体之间的空间位置关系(上下、左右、前后等)
这解决了具身智能中”感知到行动”的关键问题——模型能够准确知道”目标在哪里”以及”如何到达那里”。3
物理感知推理
RynnBrain 不仅理解场景的视觉特征,还具备物理世界推理能力:
- 物理常识:理解重力、碰撞、平衡等物理规律
- 力学直觉:预测物体运动趋势和受力情况
- 因果推理:理解动作与结果之间的因果关系
这种能力通过 GRPO 强化学习 训练得到,使模型能够在规划动作时考虑物理约束。6
RynnBrain-Bench 评测套件
评测设计
RynnBrain-Bench 是一个高维度评测套件,专门用于评估具身智能模型的认知和定位能力。其独特之处在于:
- 精细化理解:强调复杂家庭环境中的细粒度理解
- 时空定位:聚焦于时序视频片段中的精确时空定位
- 多维度评估:涵盖对象认知、空间认知等多个维度
评测维度
RynnBrain-Bench 包含以下核心评测任务:
| 评测维度 | 描述 | 样本量 |
|---|---|---|
| Object Cognition | 物体识别与属性理解 | 2000 |
| Spatial Cognition | 空间关系与定位 | 2000 |
评测任务示例
RynnBrain-Bench 的任务形式包括:
- 视频问答:给定一段机器人在室内行走的视频,回答关于物体位置、动作序列等问题
- 时空定位:在视频中定位某个物体出现的时间点和空间位置
- 任务规划:给定任务描述和当前场景,规划合理的动作序列
该评测套件可通过 Hugging Face 获取:Alibaba-DAMO-Academy/RynnBrain-Bench7
开源生态
许可证
RynnBrain 采用 Apache-2.0 开源许可证,这是目前最宽松的开源许可证之一:
- ✅ 允许商业使用
- ✅ 允许修改和衍生
- ✅ 允许私有闭源
- ✅ 需要保留版权声明
- ✅ 不提供任何担保
发布资源
| 资源 | 地址 | 说明 |
|---|---|---|
| GitHub | alibaba-damo-academy/RynnBrain | 代码、示例、文档 |
| 项目主页 | alibaba-damo-academy.github.io/RynnBrain.github.io | 官方展示页面 |
| Hugging Face | Alibaba-DAMO-Academy/RynnBrain | 模型权重集合 |
模型下载
所有模型均可从 Hugging Face 获取:
| 模型 | Hugging Face ID |
|---|---|
| RynnBrain-2B | Alibaba-DAMO-Academy/RynnBrain-2B |
| RynnBrain-8B | Alibaba-DAMO-Academy/RynnBrain-8B |
| RynnBrain-30B-A3B | Alibaba-DAMO-Academy/RynnBrain-30B-A3B |
| RynnBrain-Plan-8B | Alibaba-DAMO-Academy/RynnBrain-Plan-8B |
| RynnBrain-Plan-30B-A3B | Alibaba-DAMO-Academy/RynnBrain-Plan-30B-A3B |
| RynnBrain-Nav-8B | Alibaba-DAMO-Academy/RynnBrain-Nav-8B |
与其他开源 VLA 模型对比
主流开源 VLA 模型概览
| 模型 | 机构 | 类型 | 参数量 | 特点 |
|---|---|---|---|---|
| RynnBrain | 阿里达摩院 | 通用具身 | 2B/8B/30B | 时空定位、物理推理、开源最全 |
| OpenVLA | Stanford/NVIDIA | 视觉-语言-动作 | 7B | 专注机器人操控动作预测 |
| π0 (PI0) | Physical Intelligence | 专有→开源 | 7B/21B | 专注操控,物理直觉强 |
| GR00T | NVIDIA | 通用具身 | - | Isaac 仿真生态集成 |
能力对比
| 能力 | RynnBrain | OpenVLA | π0 |
|---|---|---|---|
| 视觉理解 | ✅ 多模态VL | ✅ VLA集成 | ✅ VLA集成 |
| 时空定位 | ✅ 核心能力 | ⚠️ 有限 | ⚠️ 有限 |
| 物理推理 | ✅ GRPO训练 | ❌ | ✅ |
| 任务规划 | ✅ Plan变体 | ❌ | ❌ |
| 导航能力 | ✅ Nav变体 | ❌ | ❌ |
| 开源完整度 | ✅ 代码+权重+数据 | ✅ | ⚠️ 部分开源 |
| 模型规模 | ✅ 2B-30B | 仅7B | 7B/21B |
差异化定位
RynnBrain 的定位与其他开源 VLA 模型存在显著差异:
-
定位差异:OpenVLA 和 π0 主要聚焦于机器人操控动作预测,而 RynnBrain 是一个通用具身智能基础模型,强调感知、推理、规划的完整能力
-
能力边界:RynnBrain 的时空定位和物理推理能力是目前开源模型中最完整的,填补了”具身视觉-语言模型”到”具身动作模型”之间的能力空白
-
生态完整度:RynnBrain 提供从 2B 到 30B 的完整模型矩阵,以及 Plan、Nav、CoP 专用变体,是目前开源具身模型中覆盖最全面的8
技术总结
RynnBrain 的核心技术贡献可以归纳为以下几点:
创新点
-
统一具身认知框架:首次将 egocentric cognition、spatiotemporal grounding、physical reasoning 整合到统一框架中
-
Physics-Aware 预训练:20M 规模的时空预训练数据,使模型获得物理世界直觉
-
Chain-of-Point 推理:创新的交织推理机制,提升空间推理的准确性
-
GRPO 强化学习:采用先进的强化学习算法进行策略优化
性能表现
根据论文报告,RynnBrain 在 20 个具身智能基准测试上大幅超越同等规模的具身模型,Post-trained 变体在以下任务上取得 SOTA:
- VLN(视觉语言导航):RynnBrain-Nav 表现优异
- Manipulation Planning(操控规划):RynnBrain-Plan 表现优异
- VLA(视觉语言动作):RynnBrain 通用版本表现优异6