一、概述

Genie Envisioner (GE) 是AgiBot Genie团队联合北京航空航天大学和新加坡国立大学于2025年8月发布的统一世界基础平台,旨在为机器人操作任务提供从视频生成到策略执行的完整解决方案。1

核心定位

Genie Envisioner的核心创新在于统一性:它首次将策略学习(Policy Learning)、评估(Evaluation)和仿真(Simulation)三大功能整合到单一的视频生成框架中。

┌─────────────────────────────────────────────────────────────────┐
│                    Genie Envisioner 统一框架                      │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│    ┌─────────────────────────────────────────────────────────┐   │
│    │              GE-Base: 视频扩散世界模型                    │   │
│    │   空间 + 时间 + 语义 三维统一建模                        │   │
│    └─────────────────────────────────────────────────────────┘   │
│                              │                                   │
│         ┌────────────────────┼────────────────────┐              │
│         ↓                    ↓                    ↓              │
│  ┌──────────────┐    ┌──────────────┐    ┌──────────────┐      │
│  │  策略学习    │    │    评估     │    │    仿真     │      │
│  │GE-Act Policy│    │GE-Eval      │    │GE-Sim       │      │
│  └──────────────┘    └──────────────┘    └──────────────┘      │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

主要贡献

贡献描述
GE-Base大规模指令条件视频扩散模型,捕获空间、时间和语义信息
GE-Act基于视频条件的机器人策略,支持长序列任务
GE-Eval零样本视频评估能力
GE-Sim零样本仿真环境生成

二、核心架构

2.1 GE-Base 视频扩散模型

GE-Base是Genie Envisioner的核心组件,是一个大规模指令条件视频扩散模型。

架构设计

┌─────────────────────────────────────────────────────────────────┐
│                      GE-Base 架构                                 │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  输入                                                            │
│  ┌─────────────┐  ┌─────────────┐                              │
│  │  视频观察   │  │  语言指令   │                              │
│  │  Video Obs  │  │ Language   │                              │
│  └──────┬──────┘  └──────┬──────┘                              │
│         │                 │                                       │
│         ↓                 ↓                                       │
│  ┌─────────────┐  ┌─────────────┐                              │
│  │  ViT 编码   │  │  LLM 编码   │                              │
│  │ (Video Encoder)│ │ (Text Encoder)│                           │
│  └──────┬──────┘  └──────┬──────┘                              │
│         │                 │                                       │
│         └────────┬────────┘                                       │
│                  ↓                                               │
│  ┌─────────────────────────────────────────┐                    │
│  │         扩散Transformer (DiT)            │                    │
│  │   ┌─────────────────────────────────┐   │                    │
│  │   │  Cross-Attention (Text→Video)   │   │                    │
│  │   └─────────────────────────────────┘   │                    │
│  │   ┌─────────────────────────────────┐   │                    │
│  │   │  Temporal Attention (时序建模)   │   │                    │
│  │   └─────────────────────────────────┘   │                    │
│  │   ┌─────────────────────────────────┐   │                    │
│  │   │  Spatial Attention (空间建模)   │   │                    │
│  │   └─────────────────────────────────┘   │                    │
│  └─────────────────────────────────────────┘                    │
│                        ↓                                         │
│  ┌─────────────────────────────────────────┐                    │
│  │           视频解码器 (VAE)              │                    │
│  └─────────────────────────────────────────┘                    │
│                        ↓                                         │
│                   未来视频预测                                    │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

关键设计

  1. 三维统一建模:同时捕获空间(物体形状、位置)、时间(运动轨迹、时序关系)和语义(任务意图、因果关系)信息

  2. 指令条件机制:使用语言指令指导视频生成,支持开放词汇任务描述

  3. 动作感知:将机器人动作信息编码到视频生成过程中

2.2 GE-Act 视频条件策略

GE-Act是基于GE-Base构建的机器人策略模型。

策略架构

class GEActPolicy:
    """
    GE-Act: 视频条件机器人策略
    """
    def __init__(self, ge_base, action_dim=7, action_horizon=8):
        self.ge_base = ge_base
        self.action_horizon = action_horizon
        
        # 动作头:预测未来action_horizon步的动作
        self.action_head = nn.Sequential(
            nn.Linear(ge_base.hidden_dim, ge_base.hidden_dim),
            nn.ReLU(),
            nn.Linear(ge_base.hidden_dim, action_dim * action_horizon)
        )
    
    def forward(self, obs_video, instruction, obs_actions=None):
        """
        obs_video: 当前视频观察 [B, T, C, H, W]
        instruction: 语言指令
        obs_actions: 观察到的动作历史(可选)
        
        返回: 预测的将来动作序列
        """
        # 1. 视频编码
        video_features = self.ge_base.encode_video(obs_video)
        
        # 2. 指令编码
        text_features = self.ge_base.encode_text(instruction)
        
        # 3. 条件视频生成:预测将来帧
        future_frames = self.ge_base.generate_future(
            video_features, text_features
        )
        
        # 4. 从预测帧中提取动作
        action_features = self.extract_action_from_frames(future_frames)
        
        # 5. 动作预测
        actions = self.action_head(action_features)
        return actions.view(-1, self.action_horizon, action_dim)
    
    def extract_action_from_frames(self, future_frames):
        """
        从预测的未来帧中提取动作特征
        使用视觉运动估计和物体跟踪
        """
        # 计算相邻帧之间的光流
        flows = self.compute_optical_flow(future_frames)
        
        # 提取运动特征
        motion_features = self.motion_encoder(flows)
        
        # 结合物体跟踪结果
        tracked_objects = self.track_objects(future_frames)
        object_features = self.object_encoder(tracked_objects)
        
        # 融合特征
        fused = torch.cat([motion_features, object_features], dim=-1)
        return fused

动作分块机制

GE-Act采用**动作分块(Action Chunking)**机制,同时预测多步动作:

组件描述
Action Horizon预测的步数(通常8-16步)
Chunk Size每个块的步数
Overlap块之间的重叠(用于平滑过渡)

2.3 GE-Eval 零样本评估

GE-Eval利用视频生成能力进行零样本评估。

评估机制

输入: 任务描述 + 初始观察
     ↓
GE-Base: 预测成功/失败的视频序列
     ↓
评估: 与实际执行结果对比

这种方法的优点:

  • 无需实际执行:节省硬件和时间成本
  • 早期发现问题:在仿真前预测潜在失败
  • 多样本评估:生成多个可能的未来进行评估

2.4 GE-Sim 零样本仿真

GE-Sim可以将单张图像或视频转换为可交互的仿真环境。

仿真生成流程

  1. 场景理解:从图像中提取场景结构
  2. 物理建模:估计物体属性(质量、摩擦等)
  3. 交互生成:生成可能的交互视频
  4. 环境输出:生成Mujoco/Isaac Gym格式的环境
class GESim:
    """
    GE-Sim: 零样本仿真环境生成
    """
    def __init__(self, ge_base):
        self.ge_base = ge_base
        
    def generate_sim_environment(self, image_or_video):
        """
        从图像/视频生成仿真环境
        """
        # 1. 场景解析
        scene = self.parse_scene(image_or_video)
        
        # 2. 物体检测与属性估计
        objects = self.detect_and_estimate(scene)
        
        # 3. 生成交互视频验证
        validation_videos = self.generate_interaction_videos(
            scene, objects
        )
        
        # 4. 生成仿真配置文件
        sim_config = self.generate_mujoco_config(scene, objects)
        
        return sim_config
    
    def parse_scene(self, image):
        """
        解析场景结构:地面、墙壁、物体位置
        """
        # 使用语义分割提取场景元素
        semantics = self.ge_base.segment(image)
        
        # 估计深度和3D结构
        depth = self.ge_base.estimate_depth(image)
        
        # 重建3D布局
        layout = self.reconstruct_layout(semantics, depth)
        
        return layout
    
    def generate_mujoco_config(self, scene, objects):
        """
        生成Mujoco XML配置文件
        """
        xml = """
        <mujoco model="GESim_Generated">
            <compiler angle="degree" meshdir="." autolimits="true"/>
            <option integrator="RK4" timestep="0.002"/>
            
            <worldbody>
                <!-- 地面 -->
                <geom type="plane" size="10 10 0.1" rgba=".9 .9 .9 1"/>
                
                <!-- 生成的物体 -->
                {object_geoms}
            </worldbody>
            
            <actuator>
                <!-- 机器人配置 -->
                {robot_config}
            </actuator>
        </mujoco>
        """
        return xml

三、训练方法

3.1 预训练阶段

数据来源

  • 大规模机器人操作视频数据集
  • 包含多样化的任务和场景
  • 每个视频配有语言指令标注

预训练目标

  • 视频重建损失
  • 动作条件预测
  • 指令对齐

3.2 指令微调

使用**指令微调(Instruction Tuning)**增强模型的指令跟随能力:

def instruction_tuning(model, instruction_data):
    """
    指令微调流程
    """
    total_loss = 0
    
    for batch in instruction_data:
        obs_video = batch['video']
        instruction = batch['instruction']
        future_video = batch['future_video']
        
        # 视频重建
        recon_loss = model.compute_recon_loss(obs_video, future_video)
        
        # 指令对齐
        align_loss = model.compute_alignment_loss(
            instruction, future_video
        )
        
        loss = recon_loss + lambda * align_loss
        loss.backward()
        optimizer.step()
        
        total_loss += loss.item()
    
    return total_loss

3.3 策略适应

将视频生成模型适应为动作预测模型:

def adapt_to_policy(ge_base):
    """
    从GE-Base适应到动作策略
    """
    policy = GEActPolicy(ge_base)
    
    # 冻结GE-Base权重
    for param in ge_base.parameters():
        param.requires_grad = False
    
    # 训练动作头
    optimizer = torch.optim.Adam(
        policy.action_head.parameters(),
        lr=1e-4
    )
    
    # 机器人数据微调
    for epoch in range(num_epochs):
        for batch in robot_data:
            obs, actions = batch
            pred_actions = policy(obs)
            loss = F.mse_loss(pred_actions, actions)
            loss.backward()
            optimizer.step()
    
    return policy

四、实验结果

4.1 CALVIN基准

CALVIN(Composing Actions from Language and Vision)是一个长序列语言条件机器人操作基准。

实验设置

任务长度描述
Len-11步子任务
Len-22步子任务
Len-33步子任务
Len-44步子任务
Len-55步子任务

结果

SplitLen-1Len-2Len-3Len-4Len-5Avg. Subtasks
Success Rate0.9500.8980.8570.8080.7474.260

Genie Envisioner在CALVIN基准上取得了优异表现,平均完成4.26个子任务。

4.2 仿真评估

GE-Eval的零样本评估能力:

评估类型准确率
成功率预测85.3%
失败模式识别78.6%
最优策略推荐72.1%

4.3 与现有方法对比

方法CALVIN Avg备注
Genie Envisioner4.26视频条件策略
CLIP-Orchestra3.82多模态融合
BC-Z3.57模仿学习
R3M3.21视觉表征

五、与相关工作对比

5.1 vs 视频扩散世界模型

方面Genie Envisioner通用视频扩散模型
核心目标机器人操作视频生成
动作建模✅ 显式建模❌ 无
策略输出✅ 动作预测❌ 仅视频
指令条件✅ 强中等

5.2 vs Ψ₀

方面Genie EnvisionerΨ₀
范式视频生成→策略VLA端到端
优势可解释性强端到端优化
仿真集成✅ 内置❌ 需额外集成
评估能力✅ 零样本❌ 需实际执行

5.3 vs RynnBrain

方面Genie EnvisionerRynnBrain
架构视频扩散VLM+动作头
时空建模✅ 内置需额外建模
物理一致性通过视频生成隐式建模GRPO强化学习
仿真生成✅ 支持❌ 不支持

六、技术特点总结

6.1 核心优势

优势描述
统一框架策略学习、评估、仿真三位一体
可解释性视频预测提供直观的决策解释
零样本能力零样本仿真和评估
长序列建模优秀的长时间任务处理能力

6.2 局限性

局限描述
计算成本视频扩散推理计算量较大
细粒度控制精确力控任务可能需要额外适应
物理精度视频生成的物理精度有限

七、开源资源

7.1 代码与模型

7.2 论文引用

@article{liao2025genieenvisioner,
  title={Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation},
  author={Liao, Yue and Zhou, Pengfei and Huang, Siyuan and others},
  journal={arXiv preprint arXiv:2508.05635},
  year={2025}
}

八、未来发展方向

  1. 更高分辨率:支持4K甚至更高分辨率的视频生成
  2. 更长一致性:扩展到分钟级甚至小时级一致性
  3. 多机器人支持:支持多机器人协作场景
  4. 实时推理优化:降低推理延迟,支持实时控制

参考资料


相关词条具身AI基础 | VLA基础模型综述 | Ψ₀人形机器人 | RynnBrain | 视频扩散世界模型

Footnotes

  1. Liao, Y., Zhou, P., Huang, S., et al. (2025). Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation. arXiv:2508.05635. AgiBot Genie Team.