一、概述
Genie Envisioner (GE) 是AgiBot Genie团队联合北京航空航天大学和新加坡国立大学于2025年8月发布的统一世界基础平台,旨在为机器人操作任务提供从视频生成到策略执行的完整解决方案。1
核心定位
Genie Envisioner的核心创新在于统一性:它首次将策略学习(Policy Learning)、评估(Evaluation)和仿真(Simulation)三大功能整合到单一的视频生成框架中。
┌─────────────────────────────────────────────────────────────────┐
│ Genie Envisioner 统一框架 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ GE-Base: 视频扩散世界模型 │ │
│ │ 空间 + 时间 + 语义 三维统一建模 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │ │
│ ┌────────────────────┼────────────────────┐ │
│ ↓ ↓ ↓ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 策略学习 │ │ 评估 │ │ 仿真 │ │
│ │GE-Act Policy│ │GE-Eval │ │GE-Sim │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
主要贡献
| 贡献 | 描述 |
|---|---|
| GE-Base | 大规模指令条件视频扩散模型,捕获空间、时间和语义信息 |
| GE-Act | 基于视频条件的机器人策略,支持长序列任务 |
| GE-Eval | 零样本视频评估能力 |
| GE-Sim | 零样本仿真环境生成 |
二、核心架构
2.1 GE-Base 视频扩散模型
GE-Base是Genie Envisioner的核心组件,是一个大规模指令条件视频扩散模型。
架构设计
┌─────────────────────────────────────────────────────────────────┐
│ GE-Base 架构 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 输入 │
│ ┌─────────────┐ ┌─────────────┐ │
│ │ 视频观察 │ │ 语言指令 │ │
│ │ Video Obs │ │ Language │ │
│ └──────┬──────┘ └──────┬──────┘ │
│ │ │ │
│ ↓ ↓ │
│ ┌─────────────┐ ┌─────────────┐ │
│ │ ViT 编码 │ │ LLM 编码 │ │
│ │ (Video Encoder)│ │ (Text Encoder)│ │
│ └──────┬──────┘ └──────┬──────┘ │
│ │ │ │
│ └────────┬────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────────┐ │
│ │ 扩散Transformer (DiT) │ │
│ │ ┌─────────────────────────────────┐ │ │
│ │ │ Cross-Attention (Text→Video) │ │ │
│ │ └─────────────────────────────────┘ │ │
│ │ ┌─────────────────────────────────┐ │ │
│ │ │ Temporal Attention (时序建模) │ │ │
│ │ └─────────────────────────────────┘ │ │
│ │ ┌─────────────────────────────────┐ │ │
│ │ │ Spatial Attention (空间建模) │ │ │
│ │ └─────────────────────────────────┘ │ │
│ └─────────────────────────────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────────┐ │
│ │ 视频解码器 (VAE) │ │
│ └─────────────────────────────────────────┘ │
│ ↓ │
│ 未来视频预测 │
│ │
└─────────────────────────────────────────────────────────────────┘
关键设计
-
三维统一建模:同时捕获空间(物体形状、位置)、时间(运动轨迹、时序关系)和语义(任务意图、因果关系)信息
-
指令条件机制:使用语言指令指导视频生成,支持开放词汇任务描述
-
动作感知:将机器人动作信息编码到视频生成过程中
2.2 GE-Act 视频条件策略
GE-Act是基于GE-Base构建的机器人策略模型。
策略架构
class GEActPolicy:
"""
GE-Act: 视频条件机器人策略
"""
def __init__(self, ge_base, action_dim=7, action_horizon=8):
self.ge_base = ge_base
self.action_horizon = action_horizon
# 动作头:预测未来action_horizon步的动作
self.action_head = nn.Sequential(
nn.Linear(ge_base.hidden_dim, ge_base.hidden_dim),
nn.ReLU(),
nn.Linear(ge_base.hidden_dim, action_dim * action_horizon)
)
def forward(self, obs_video, instruction, obs_actions=None):
"""
obs_video: 当前视频观察 [B, T, C, H, W]
instruction: 语言指令
obs_actions: 观察到的动作历史(可选)
返回: 预测的将来动作序列
"""
# 1. 视频编码
video_features = self.ge_base.encode_video(obs_video)
# 2. 指令编码
text_features = self.ge_base.encode_text(instruction)
# 3. 条件视频生成:预测将来帧
future_frames = self.ge_base.generate_future(
video_features, text_features
)
# 4. 从预测帧中提取动作
action_features = self.extract_action_from_frames(future_frames)
# 5. 动作预测
actions = self.action_head(action_features)
return actions.view(-1, self.action_horizon, action_dim)
def extract_action_from_frames(self, future_frames):
"""
从预测的未来帧中提取动作特征
使用视觉运动估计和物体跟踪
"""
# 计算相邻帧之间的光流
flows = self.compute_optical_flow(future_frames)
# 提取运动特征
motion_features = self.motion_encoder(flows)
# 结合物体跟踪结果
tracked_objects = self.track_objects(future_frames)
object_features = self.object_encoder(tracked_objects)
# 融合特征
fused = torch.cat([motion_features, object_features], dim=-1)
return fused动作分块机制
GE-Act采用**动作分块(Action Chunking)**机制,同时预测多步动作:
| 组件 | 描述 |
|---|---|
| Action Horizon | 预测的步数(通常8-16步) |
| Chunk Size | 每个块的步数 |
| Overlap | 块之间的重叠(用于平滑过渡) |
2.3 GE-Eval 零样本评估
GE-Eval利用视频生成能力进行零样本评估。
评估机制
输入: 任务描述 + 初始观察
↓
GE-Base: 预测成功/失败的视频序列
↓
评估: 与实际执行结果对比
这种方法的优点:
- 无需实际执行:节省硬件和时间成本
- 早期发现问题:在仿真前预测潜在失败
- 多样本评估:生成多个可能的未来进行评估
2.4 GE-Sim 零样本仿真
GE-Sim可以将单张图像或视频转换为可交互的仿真环境。
仿真生成流程
- 场景理解:从图像中提取场景结构
- 物理建模:估计物体属性(质量、摩擦等)
- 交互生成:生成可能的交互视频
- 环境输出:生成Mujoco/Isaac Gym格式的环境
class GESim:
"""
GE-Sim: 零样本仿真环境生成
"""
def __init__(self, ge_base):
self.ge_base = ge_base
def generate_sim_environment(self, image_or_video):
"""
从图像/视频生成仿真环境
"""
# 1. 场景解析
scene = self.parse_scene(image_or_video)
# 2. 物体检测与属性估计
objects = self.detect_and_estimate(scene)
# 3. 生成交互视频验证
validation_videos = self.generate_interaction_videos(
scene, objects
)
# 4. 生成仿真配置文件
sim_config = self.generate_mujoco_config(scene, objects)
return sim_config
def parse_scene(self, image):
"""
解析场景结构:地面、墙壁、物体位置
"""
# 使用语义分割提取场景元素
semantics = self.ge_base.segment(image)
# 估计深度和3D结构
depth = self.ge_base.estimate_depth(image)
# 重建3D布局
layout = self.reconstruct_layout(semantics, depth)
return layout
def generate_mujoco_config(self, scene, objects):
"""
生成Mujoco XML配置文件
"""
xml = """
<mujoco model="GESim_Generated">
<compiler angle="degree" meshdir="." autolimits="true"/>
<option integrator="RK4" timestep="0.002"/>
<worldbody>
<!-- 地面 -->
<geom type="plane" size="10 10 0.1" rgba=".9 .9 .9 1"/>
<!-- 生成的物体 -->
{object_geoms}
</worldbody>
<actuator>
<!-- 机器人配置 -->
{robot_config}
</actuator>
</mujoco>
"""
return xml三、训练方法
3.1 预训练阶段
数据来源:
- 大规模机器人操作视频数据集
- 包含多样化的任务和场景
- 每个视频配有语言指令标注
预训练目标:
- 视频重建损失
- 动作条件预测
- 指令对齐
3.2 指令微调
使用**指令微调(Instruction Tuning)**增强模型的指令跟随能力:
def instruction_tuning(model, instruction_data):
"""
指令微调流程
"""
total_loss = 0
for batch in instruction_data:
obs_video = batch['video']
instruction = batch['instruction']
future_video = batch['future_video']
# 视频重建
recon_loss = model.compute_recon_loss(obs_video, future_video)
# 指令对齐
align_loss = model.compute_alignment_loss(
instruction, future_video
)
loss = recon_loss + lambda * align_loss
loss.backward()
optimizer.step()
total_loss += loss.item()
return total_loss3.3 策略适应
将视频生成模型适应为动作预测模型:
def adapt_to_policy(ge_base):
"""
从GE-Base适应到动作策略
"""
policy = GEActPolicy(ge_base)
# 冻结GE-Base权重
for param in ge_base.parameters():
param.requires_grad = False
# 训练动作头
optimizer = torch.optim.Adam(
policy.action_head.parameters(),
lr=1e-4
)
# 机器人数据微调
for epoch in range(num_epochs):
for batch in robot_data:
obs, actions = batch
pred_actions = policy(obs)
loss = F.mse_loss(pred_actions, actions)
loss.backward()
optimizer.step()
return policy四、实验结果
4.1 CALVIN基准
CALVIN(Composing Actions from Language and Vision)是一个长序列语言条件机器人操作基准。
实验设置
| 任务长度 | 描述 |
|---|---|
| Len-1 | 1步子任务 |
| Len-2 | 2步子任务 |
| Len-3 | 3步子任务 |
| Len-4 | 4步子任务 |
| Len-5 | 5步子任务 |
结果
| Split | Len-1 | Len-2 | Len-3 | Len-4 | Len-5 | Avg. Subtasks |
|---|---|---|---|---|---|---|
| Success Rate | 0.950 | 0.898 | 0.857 | 0.808 | 0.747 | 4.260 |
Genie Envisioner在CALVIN基准上取得了优异表现,平均完成4.26个子任务。
4.2 仿真评估
GE-Eval的零样本评估能力:
| 评估类型 | 准确率 |
|---|---|
| 成功率预测 | 85.3% |
| 失败模式识别 | 78.6% |
| 最优策略推荐 | 72.1% |
4.3 与现有方法对比
| 方法 | CALVIN Avg | 备注 |
|---|---|---|
| Genie Envisioner | 4.26 | 视频条件策略 |
| CLIP-Orchestra | 3.82 | 多模态融合 |
| BC-Z | 3.57 | 模仿学习 |
| R3M | 3.21 | 视觉表征 |
五、与相关工作对比
5.1 vs 视频扩散世界模型
| 方面 | Genie Envisioner | 通用视频扩散模型 |
|---|---|---|
| 核心目标 | 机器人操作 | 视频生成 |
| 动作建模 | ✅ 显式建模 | ❌ 无 |
| 策略输出 | ✅ 动作预测 | ❌ 仅视频 |
| 指令条件 | ✅ 强 | 中等 |
5.2 vs Ψ₀
| 方面 | Genie Envisioner | Ψ₀ |
|---|---|---|
| 范式 | 视频生成→策略 | VLA端到端 |
| 优势 | 可解释性强 | 端到端优化 |
| 仿真集成 | ✅ 内置 | ❌ 需额外集成 |
| 评估能力 | ✅ 零样本 | ❌ 需实际执行 |
5.3 vs RynnBrain
| 方面 | Genie Envisioner | RynnBrain |
|---|---|---|
| 架构 | 视频扩散 | VLM+动作头 |
| 时空建模 | ✅ 内置 | 需额外建模 |
| 物理一致性 | 通过视频生成隐式建模 | GRPO强化学习 |
| 仿真生成 | ✅ 支持 | ❌ 不支持 |
六、技术特点总结
6.1 核心优势
| 优势 | 描述 |
|---|---|
| 统一框架 | 策略学习、评估、仿真三位一体 |
| 可解释性 | 视频预测提供直观的决策解释 |
| 零样本能力 | 零样本仿真和评估 |
| 长序列建模 | 优秀的长时间任务处理能力 |
6.2 局限性
| 局限 | 描述 |
|---|---|
| 计算成本 | 视频扩散推理计算量较大 |
| 细粒度控制 | 精确力控任务可能需要额外适应 |
| 物理精度 | 视频生成的物理精度有限 |
七、开源资源
7.1 代码与模型
| 资源 | 链接 |
|---|---|
| GitHub | AgibotTech/Genie-Envisioner |
| HuggingFace | agibot-world/Genie-Envisioner |
| 项目主页 | genie-envisioner.github.io |
7.2 论文引用
@article{liao2025genieenvisioner,
title={Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation},
author={Liao, Yue and Zhou, Pengfei and Huang, Siyuan and others},
journal={arXiv preprint arXiv:2508.05635},
year={2025}
}八、未来发展方向
- 更高分辨率:支持4K甚至更高分辨率的视频生成
- 更长一致性:扩展到分钟级甚至小时级一致性
- 多机器人支持:支持多机器人协作场景
- 实时推理优化:降低推理延迟,支持实时控制
参考资料
相关词条:具身AI基础 | VLA基础模型综述 | Ψ₀人形机器人 | RynnBrain | 视频扩散世界模型
Footnotes
-
Liao, Y., Zhou, P., Huang, S., et al. (2025). Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation. arXiv:2508.05635. AgiBot Genie Team. ↩