概述

RynnBrain 是阿里巴巴达摩院(DAMO Academy)于2026年2月发布的完全开源具身基础模型,旨在为机器人提供统一的物理世界理解能力。该模型突破了传统视觉-语言模型被动观察的局限,通过以自我为中心的认知(Egocentric Cognition)、**精准的时空定位(Spatiotemporal Grounding)真实任务规划(Real Task Planning)**三大核心能力,使智能体能够在物理世界中进行主动的、物理感知的推理与复杂任务执行。12

RynnBrain 的核心贡献在于首次将时空记忆和物理空间推理能力赋予机器人,填补了开源具身智能领域缺乏统一、物理锚定的基础模型的空白。3

架构设计

基于 Qwen3-VL 的基础改造

RynnBrain 以 Qwen3-VL 作为基础架构进行具身智能增强改造。Qwen3-VL 是阿里通义千问团队开源的多模态大模型,具备强大的视觉理解能力。RynnBrain 在其基础上进行了以下关键改造:

  1. Physics-Aware Spatiotemporal Pretraining:在 20M 规模的样本上进行时空预训练,使模型理解物体在时间维度的变化和空间位置关系
  2. Chain-of-Point (CoP) 交织推理:引入点链式推理机制,将视觉感知与空间推理交织进行
  3. GRPO 强化学习优化:采用 Group Relative Policy Optimization (GRPO) 进行策略优化,提升物理推理能力

模型规模与变体

RynnBrain 提供三种规模的模型:

模型类型参数量特点
RynnBrain-2BDense2B轻量级,适合边缘部署
RynnBrain-8BDense8B平衡性能与效率
RynnBrain-30B-A3BMoE30B(激活3B)混合专家架构,推理能力最强

MoE 架构说明

30B 版本采用 MoE(混合专家)架构,具体为 A3B 配置,即:

  • 总参数量:30B
  • 激活参数量:约 3B(每次推理只激活部分专家网络)
  • 优势:在保持强大推理能力的同时,显著降低推理计算成本

领域专用模型

除通用版本外,RynnBrain 还发布了三个领域专用变体:

模型用途说明
RynnBrain-Plan任务规划专注于复杂任务的分解与规划
RynnBrain-Nav导航定位专注于空间导航与路径规划
RynnBrain-CoP空间推理专注于 Chain-of-Point 交织推理

这些专用模型均提供 8B 和 30B-A3B 两个版本。4

核心能力

以自我为中心的认知(Egocentric Cognition)

传统视觉语言模型主要处理第三人称视角的静态图像,而 RynnBrain 增强了第一人称/自我视角的感知能力:

  • 视角理解:理解摄像头/机器人视角下的场景
  • 身体感知:理解自身与环境的相对位置关系
  • 注意力机制:聚焦于与当前任务相关的空间区域

这种能力使机器人能够像人类一样”从自身角度”理解和响应环境。5

时空定位(Spatiotemporal Grounding)

RynnBrain 具备精准的时空定位能力,能够:

  • 物体追踪:在连续帧中追踪特定物体的位置变化
  • 动作理解:理解场景中发生的动作序列及其因果关系
  • 空间关系:精确判断物体之间的空间位置关系(上下、左右、前后等)

这解决了具身智能中”感知到行动”的关键问题——模型能够准确知道”目标在哪里”以及”如何到达那里”。3

物理感知推理

RynnBrain 不仅理解场景的视觉特征,还具备物理世界推理能力

  • 物理常识:理解重力、碰撞、平衡等物理规律
  • 力学直觉:预测物体运动趋势和受力情况
  • 因果推理:理解动作与结果之间的因果关系

这种能力通过 GRPO 强化学习 训练得到,使模型能够在规划动作时考虑物理约束。6

RynnBrain-Bench 评测套件

评测设计

RynnBrain-Bench 是一个高维度评测套件,专门用于评估具身智能模型的认知和定位能力。其独特之处在于:

  1. 精细化理解:强调复杂家庭环境中的细粒度理解
  2. 时空定位:聚焦于时序视频片段中的精确时空定位
  3. 多维度评估:涵盖对象认知、空间认知等多个维度

评测维度

RynnBrain-Bench 包含以下核心评测任务:

评测维度描述样本量
Object Cognition物体识别与属性理解2000
Spatial Cognition空间关系与定位2000

评测任务示例

RynnBrain-Bench 的任务形式包括:

  • 视频问答:给定一段机器人在室内行走的视频,回答关于物体位置、动作序列等问题
  • 时空定位:在视频中定位某个物体出现的时间点和空间位置
  • 任务规划:给定任务描述和当前场景,规划合理的动作序列

该评测套件可通过 Hugging Face 获取:Alibaba-DAMO-Academy/RynnBrain-Bench7

开源生态

许可证

RynnBrain 采用 Apache-2.0 开源许可证,这是目前最宽松的开源许可证之一:

  • ✅ 允许商业使用
  • ✅ 允许修改和衍生
  • ✅ 允许私有闭源
  • ✅ 需要保留版权声明
  • ✅ 不提供任何担保

发布资源

资源地址说明
GitHubalibaba-damo-academy/RynnBrain代码、示例、文档
项目主页alibaba-damo-academy.github.io/RynnBrain.github.io官方展示页面
Hugging FaceAlibaba-DAMO-Academy/RynnBrain模型权重集合

模型下载

所有模型均可从 Hugging Face 获取:

模型Hugging Face ID
RynnBrain-2BAlibaba-DAMO-Academy/RynnBrain-2B
RynnBrain-8BAlibaba-DAMO-Academy/RynnBrain-8B
RynnBrain-30B-A3BAlibaba-DAMO-Academy/RynnBrain-30B-A3B
RynnBrain-Plan-8BAlibaba-DAMO-Academy/RynnBrain-Plan-8B
RynnBrain-Plan-30B-A3BAlibaba-DAMO-Academy/RynnBrain-Plan-30B-A3B
RynnBrain-Nav-8BAlibaba-DAMO-Academy/RynnBrain-Nav-8B

与其他开源 VLA 模型对比

主流开源 VLA 模型概览

模型机构类型参数量特点
RynnBrain阿里达摩院通用具身2B/8B/30B时空定位、物理推理、开源最全
OpenVLAStanford/NVIDIA视觉-语言-动作7B专注机器人操控动作预测
π0 (PI0)Physical Intelligence专有→开源7B/21B专注操控,物理直觉强
GR00TNVIDIA通用具身-Isaac 仿真生态集成

能力对比

能力RynnBrainOpenVLAπ0
视觉理解✅ 多模态VL✅ VLA集成✅ VLA集成
时空定位✅ 核心能力⚠️ 有限⚠️ 有限
物理推理✅ GRPO训练
任务规划✅ Plan变体
导航能力✅ Nav变体
开源完整度✅ 代码+权重+数据⚠️ 部分开源
模型规模✅ 2B-30B仅7B7B/21B

差异化定位

RynnBrain 的定位与其他开源 VLA 模型存在显著差异:

  1. 定位差异:OpenVLA 和 π0 主要聚焦于机器人操控动作预测,而 RynnBrain 是一个通用具身智能基础模型,强调感知、推理、规划的完整能力

  2. 能力边界:RynnBrain 的时空定位和物理推理能力是目前开源模型中最完整的,填补了”具身视觉-语言模型”到”具身动作模型”之间的能力空白

  3. 生态完整度:RynnBrain 提供从 2B 到 30B 的完整模型矩阵,以及 Plan、Nav、CoP 专用变体,是目前开源具身模型中覆盖最全面的8

技术总结

RynnBrain 的核心技术贡献可以归纳为以下几点:

创新点

  1. 统一具身认知框架:首次将 egocentric cognition、spatiotemporal grounding、physical reasoning 整合到统一框架中

  2. Physics-Aware 预训练:20M 规模的时空预训练数据,使模型获得物理世界直觉

  3. Chain-of-Point 推理:创新的交织推理机制,提升空间推理的准确性

  4. GRPO 强化学习:采用先进的强化学习算法进行策略优化

性能表现

根据论文报告,RynnBrain 在 20 个具身智能基准测试上大幅超越同等规模的具身模型,Post-trained 变体在以下任务上取得 SOTA:

  • VLN(视觉语言导航):RynnBrain-Nav 表现优异
  • Manipulation Planning(操控规划):RynnBrain-Plan 表现优异
  • VLA(视觉语言动作):RynnBrain 通用版本表现优异6

引用

Footnotes

  1. RynnBrain GitHub Repository

  2. Alibaba Cloud Community: Alibaba Unveiled Open-sourced Embodied Foundation Model for Robotics

  3. RynnBrain Official Project Page 2

  4. RynnBrain Hugging Face Collection

  5. Bloomberg: Alibaba Pushes Into Robotics AI With Open-Source ‘RynnBrain’

  6. arXiv:2602.14979 - RynnBrain: Open Embodied Foundation Models 2

  7. RynnBrain-Bench Dataset on Hugging Face

  8. ToKnow.ai: RynnBrain Technical Analysis