长上下文视频世界模型

概述

视频世界模型（Video World Models）是一类基于视频生成技术的神经世界模拟器，能够根据历史观测和智能体动作生成高保真的未来视觉观测。¹ 这类模型在机器人仿真、自动驾驶和游戏引擎等领域有广泛应用。

然而，实现长时序一致性的世界建模是一个长期存在的挑战。即便是最新的视频生成模型，在长时序生成中仍面临以下问题：

空间一致性问题：当视角变化时，之前可见的物体可能突然消失或移位
时间记忆衰减：历史观测信息容易被丢弃，导致长期规划能力受限
计算成本爆炸：处理长上下文输入的计算成本随序列长度二次增长

针对这些问题，研究者们提出了多种解决方案，包括基于状态空间模型（SSM）的时序记忆扩展、压缩记忆检索、以及基于预训练视觉特征的预测方法。²³⁴

长上下文 SSM 视频世界模型

核心问题

传统的视频扩散模型（如视频扩散世界模型）在基于动作条件的自回归帧预测上表现优异，但面临长时记忆保持困难的问题。这主要源于注意力机制处理长序列时的高计算成本。

基于 SSM 的时序记忆扩展

论文「Long-Context State-Space Video World Models」（arXiv:2505.20171）提出利用 SSM 的线性复杂度和因果序列建模能力，在不牺牲计算速度的前提下扩展时序记忆。²

架构设计

该方法采用分块 SSM 扫描方案（Block-wise SSM Scanning），在空间一致性和时序记忆范围之间进行权衡：

h_{k} y_{k} = \overline{A} h_{k - 1} + \overline{B} x_{k} = C h_{k}

其中 $\overline{A}$ 和 $\overline{B}$ 是通过零阶保持（ZOH）离散化得到的矩阵。

为确保帧间连贯性，模型同时引入密集局部注意力机制，在保持长期记忆的同时维护空间一致性。

实验验证

在 Memory Maze 和 Minecraft 数据集上的实验表明，该方法在长程记忆保持方面显著优于基线模型，同时保持较低的计算开销。这使其非常适合需要交互式响应的应用场景。

WorldPack：压缩记忆与轨迹打包

核心思想

WorldPack（arXiv:2512.02473）提出了压缩记忆机制，通过两个关键组件在较短的上下文长度下实现高质量的长期生成：³

轨迹打包（Trajectory Packing）：提高上下文效率
记忆检索（Memory Retrieval）：保持长时 rollouts 的一致性

轨迹打包

轨迹打包通过对历史帧进行分层压缩来实现高效的长期记忆保留：

近期帧保持高分辨率
较旧帧逐步降低分辨率存储

压缩后上下文长度计算公式：

L_{pack} = S \cdot L_{f} + i = S + 1 \sum N_{con} ℓ_{t - i} + j = 1 \sum N_{mem} ℓ_{M_{j}}

其中：

$L_{f}$ 是最近帧的基础上下文长度
$ℓ_{t - i} = \frac{L _{f}}{λ ^{i}}$ 是第 $i$ 帧的压缩后长度
$λ > 1$ 控制压缩强度

实际实现中，采用几何压缩策略，压缩比为 $2^{0}$ 、 $2^{2}$ 、 $2^{4}$ ，对应上下文长度为 1、2、16。

记忆检索

WorldPack 的记忆检索模块根据空间重叠度选择关键历史帧：

帧 $i$ 的重要性得分：

score_{i} = w_{c} \cdot max (cos Δ θ_{i}, 0) exp (- \frac{s _{i}^{2}}{2 σ _{s}^{2}}) exp (- \frac{ℓ _{i}^{2}}{2 σ _{ℓ}^{2}})

其中：

$s_{i} = (p_{i} - p)^{⊤} d$ ：前向投影距离
$ℓ_{i} = ∥ (p_{i} - p) - s_{i} d ∥$ ：横向距离
$cos Δ θ_{i} = d_{i}^{⊤} d$ ：方向相似度

这种设计使模型能够选择性回忆与预测目标有显著视觉重叠的过去场景，支持需要空间推理的长期生成任务。

性能评估

在 Minecraft 环境的 LoopNav 基准上，WorldPack 在空间记忆检索（ABA 任务）和空间推理（ABCA 任务）上均显著优于 Oasis、MineWorld、DIAMOND 和 NWM 等基线模型。

DINO-World：基于 DINOv2 的视频世界模型

核心思想

DINO-World（arXiv:2507.19468）提出在预训练视觉特征空间中进行未来帧预测，展示了强大的预训练视觉特征对于视频世界模型的重要性。⁴

DINOv2 特征空间的优势

与传统的像素空间或 VAE 潜空间预测相比，DINOv2 特征空间具有以下优势：

语义丰富性：DINOv2 通过自监督学习获得了丰富的语义特征
物理理解能力：模型展现出对直观物理的强理解能力
零样本泛化：预训练特征支持跨领域的零样本迁移

方法架构

DINO-World 包含两个核心组件：

预训练图像编码器：冻结的 DINOv2，用于提取视觉特征
时序预测头：学习帧间的动态转换

模型在大规模未筛选视频数据集上训练，学习驾驶、室内环境和模拟设置等多种场景的时序动态。

性能优势

在视频预测基准测试中，DINO-World 在以下任务上优于基线方法：

语义分割预测：物体边界和类别的时序一致性
深度预测：场景几何结构的准确估计
动作条件规划：在观察-动作轨迹上微调后，可作为动作条件的规划世界模型

iVideoGPT：可扩展的 Transformer 框架

核心贡献

iVideoGPT（NeurIPS 2024）是清华大学提出的可扩展自回归 Transformer 框架，将多模态信号（视觉观测、动作、奖励）统一为 token 序列，通过下一 token 预测实现交互式体验。⁵

压缩 Tokenization

iVideoGPT 的关键创新是压缩 tokenization 技术，使用条件 VQGAN 将未来帧离散化，并基于上下文帧进行条件化处理：

有效减少视频 token 数量约 16 倍
处理时序冗余，提高生成效率
支持更长视频的端到端训练

预训练规模

iVideoGPT 在大规模数据上预训练：

150 万条机器人操作轨迹（Open X-Embodiment）
人类操作轨迹（Something-Something 数据集）

这使其成为多功能的基座模型，可适应多种下游任务。

应用场景

动作条件视频预测：基于历史帧和动作序列预测未来
视觉规划：在潜空间中进行模型预测控制（MPC）
视觉模型强化学习：基于 MBPO 的算法，使用世界模型生成合成 rollouts

在 Meta-World 任务上，基于 iVideoGPT 的 MBRL 方法相比无模型方法显著提升了样本效率。

挑战与解决方案

误差累积问题

自回归视频生成面临的核心挑战是误差累积（Error Accumulation）。每一帧的预测误差会传播到后续帧，导致长期生成的保真度急剧下降。

Diffusion Forcing

一种解决方案是将自回归生成与全序列扩散相结合：

p_{θ} (z_{0 : T}^{k - 1} ∣ z_{0 : T}^{k}) = N (z_{0 : T}^{k - 1}; μ_{θ} (z_{0 : T}^{k}, k), σ_{k}^{2} I)

通过在每个时间步对不同噪声级别的帧进行去噪，逐步从噪声中恢复清晰序列。

历史引导（History Guidance）

另一种方法是在推理过程中引入基于历史的引导信号，帮助恢复被遗忘的历史信息。

视频检索增强生成（VRAG）

视频检索增强生成（Video Retrieval Augmented Generation）通过以下方式缓解误差累积：

外部记忆库：存储高质量的历史视频片段
相似场景检索：根据当前场景从记忆库中检索相关片段
检索引导生成：将检索结果作为条件输入到生成模型

这种方法在需要精确空间推理的任务（如 LoopNav）中表现尤为有效。

记忆机制

KV Cache

传统注意力机制的 KV Cache 策略：

Attention (Q, K, V) = Softmax (\frac{Q K ^{⊤}}{d _{k}}) V

在长序列推理时，将已计算的 Key-Value 缓存可显著降低计算复杂度。

情景记忆（Episodic Memory）

情景记忆机制允许模型：

选择性存储：只保留高信息量的历史帧
动态检索：根据当前任务需求动态检索相关记忆
分层组织：将记忆组织为不同抽象层级

如世界模型架构中讨论的，这种设计在需要长期规划的场景中尤为重要。

参考文献

Video World Model Simulators (2024). Survey on video generation models as world simulators. ↩
Long-Context State-Space Video World Models (arXiv:2505.20171). ICCV 2025. SSM-based approach for extending temporal memory in video world models. ↩ ↩²
WorldPack: Compressed Memory Improves Spatial Consistency in Video World Modeling (arXiv:2512.02473). University of Tokyo & Google DeepMind. Trajectory packing and memory retrieval for long-context video generation. ↩ ↩²
Back to the Features: DINO as a Foundation for Video World Models (arXiv:2507.19468). Leveraging DINOv2 latent space for future frame prediction and world modeling. ↩ ↩²
iVideoGPT: Interactive VideoGPTs are Scalable World Models (NeurIPS 2024). Tsinghua University. Scalable transformer framework with compressive tokenization for interactive world models. ↩

Metaphor

探索

长上下文视频世界模型

概述

长上下文 SSM 视频世界模型

核心问题

基于 SSM 的时序记忆扩展

架构设计

实验验证

WorldPack：压缩记忆与轨迹打包

核心思想

轨迹打包

记忆检索

性能评估

DINO-World：基于 DINOv2 的视频世界模型

核心思想

DINOv2 特征空间的优势

方法架构

性能优势

iVideoGPT：可扩展的 Transformer 框架

核心贡献

压缩 Tokenization

预训练规模

应用场景

挑战与解决方案

误差累积问题

Diffusion Forcing

历史引导（History Guidance）

视频检索增强生成（VRAG）

记忆机制

KV Cache

情景记忆（Episodic Memory）

相关技术链接

参考文献

关系图谱

目录

反向链接

Metaphor

探索

长上下文视频世界模型

概述

长上下文 SSM 视频世界模型

核心问题

基于 SSM 的时序记忆扩展

架构设计

实验验证

WorldPack：压缩记忆与轨迹打包

核心思想

轨迹打包

记忆检索

性能评估

DINO-World：基于 DINOv2 的视频世界模型

核心思想

DINOv2 特征空间的优势

方法架构

性能优势

iVideoGPT：可扩展的 Transformer 框架

核心贡献

压缩 Tokenization

预训练规模

应用场景

挑战与解决方案

误差累积问题

Diffusion Forcing

历史引导（History Guidance）

视频检索增强生成（VRAG）

记忆机制

KV Cache

情景记忆（Episodic Memory）

相关技术链接

参考文献

Footnotes

关系图谱

目录

反向链接