长视频生成专题

本专题收录长视频生成领域的最新研究进展,涵盖漂移问题解决、层级自回归架构、实时生成等核心技术方向。

核心问题

长视频生成面临的主要挑战:

问题描述解决方案
误差累积长时间生成导致误差不断累积SVI错误回收、HiAR层级去噪
内容漂移视频内容逐渐偏离初始条件Content Anchors、先验控制
计算效率长时间生成计算成本高Helios实时生成、Pipelined并行

2026年最新进展

ICLR 2026 Oral

层级自回归架构

实时长视频生成

  • Helios — 14B参数模型,单卡H100实现19.5FPS实时生成
  • LoL (Longer than Longer) — 小时级视频生成,支持1+小时视频

代理增强生成

  • A2RD — Agentic AR+Diffusion,保持分钟级视频时序一致性

核心技术

误差回收机制 (Error Recycling)

SVI提出的核心创新:通过选择性错误校正而非完全重新生成来解决漂移问题。

# 错误回收伪代码
def error_recycling_forward(chunk, error_bank):
    noisy_chunk = add_noise(chunk)
    # 从错误库中回收相关错误
    recovered_error = retrieve_similar_errors(error_bank, noisy_chunk)
    # 融合当前预测与回收误差
    enhanced_prediction = fuse(chunk, recovered_error)
    return enhanced_prediction

步骤优先去噪 (Step-First Denoising)

HiAR的核心范式转变:每个块在匹配噪声级别上条件化先前块,减少误差传播同时保持时序因果性。

相关专题

学习路径

入门路径

  1. 视频扩散模型基础
  2. DiT架构
  3. Stable Video Infinity
  4. HiAR

进阶路径

  1. 理解漂移问题的数学形式化
  2. 探索误差累积的理论分析
  3. 实现并行推理优化
  4. 研究世界模型在视频生成中的应用

论文推荐

必读论文

论文会议关键贡献
Stable Video InfinityICLR 2026 Oral错误回收机制
HiAR-步骤优先去噪范式
Long Video Generation Drift-漂移问题系统分析

前沿论文

论文arXiv关键贡献
Helios2603.04379实时19.5FPS生成
LoL2601.16914小时级视频生成
A2RD2605.06924Agentic视频生成

实践项目

推荐实践

  1. 实现SVI错误回收模块:基于PyTorch实现错误收集与融合
  2. 复现HiAR层级去噪:理解块条件化机制
  3. 长视频评估指标:实现FID、FVD等评估方法

开源资源


最后更新:2026-05-19