3D视觉与视频生成专题索引

目录


专题介绍

什么是3D视觉与视频生成

3D视觉与视频生成是计算机视觉和生成模型交叉的前沿领域,涵盖了:

  1. 3D场景表示与重建:从图像/视频恢复3D结构
  2. 3D内容生成:文本/图像驱动的3D资产生成
  3. 视频理解与生成:视频预测、条件生成
  4. 世界模型:环境动态建模与交互仿真

技术演进路线

传统SfM/MVS → 深度学习3D → 扩散3D生成 → 视频世界模型
     ↓              ↓              ↓             ↓
  COLMAP      NeRF/3DGS      DreamFusion   GEN3C/DeepVerse

核心主题

主题核心问题代表技术
3D表示如何表示3D场景NeRF, 3DGS, 三平面
3D生成如何创建3D内容SDS, 扩散模型
视频预测如何预测未来自回归, 扩散
世界模型如何建模环境交互式生成

内容导航

3D Gaussian Splatting

3D Gaussian Splatting是一种高效的3D场景表示和渲染技术。

核心资源

3D扩散生成

使用扩散模型进行文本/图像到3D的生成。

核心资源

视频→3D重建

从视频进行3D重建的深度学习方法。

核心资源

  • 视频到3D重建

    • DUSt3R任意图像重建
    • See3D自监督学习
    • MASt3R匹配增强
    • SfM与学习融合
  • 4D场景表示

    • HexPlane高效4D表示
    • 4D Gaussian Splatting
    • 时空一致性建模
    • DreamVideo4D, Coarse4D
  • VLM-3R指令对齐重建

    • 指令解析与引导
    • 重建-推理协同
    • 场景图生成

视频世界模型

视频生成作为世界模型的最新进展。

核心资源


学习路径建议

推荐学习顺序

第一阶段:3D基础(第1-2周)
├── 1. 理解3D表示基础
│   └── 阅读:[[../3d-vision/3d-gaussian-splatting|3DGS基础]]
├── 2. 掌握3DGS变体与优化
│   └── 阅读:[[../3d-vision/gaussian-splatting-variants-optimization|GS变体]]
└── 3. 了解前馈3D生成
    └── 阅读:[[../3d-vision/feedforward-3d-generation|前馈3D生成]]

第二阶段:3D扩散生成(第3-4周)
├── 4. Score Distillation原理
│   └── 阅读:[[../3d-vision/dreamfusion-score-distillation|SDS基础]]
├── 5. 改进的3D扩散方法
│   └── 阅读:[[../3d-vision/improved-3d-diffusion-generation|改进方法]]
└── 6. LLM增强3D生成
    └── 阅读:[[../3d-vision/3d-generation-llm-enhancement|LLM增强]]

第三阶段:视频→3D(第5-6周)
├── 7. 视频到3D重建
│   └── 阅读:[[../3d-vision/video-to-3d-reconstruction|视频重建]]
├── 8. 4D场景表示
│   └── 阅读:[[../3d-vision/4d-scene-representation|4D表示]]
└── 9. 指令对齐重建
    └── 阅读:[[../3d-vision/vlm-3r-instruction-aligned-reconstruction|VLM-3R]]

第四阶段:世界模型(第7-8周)
├── 10. 世界模型演进
│   └── 阅读:[[../world-models/video-to-world-model-evolution|演进]]
├── 11. 3D感知视频生成
│   └── 阅读:[[../world-models/gen3c-3d-informed-video-generation|GEN3C]]
├── 12. 4D世界模型
│   └── 阅读:[[../world-models/deepverse-4d-world-model|DeepVerse]]
└── 13. 交互式世界模型
    └── 阅读:[[../world-models/interactive-video-world-models|交互式]]

前置知识要求

知识领域必要程度建议资源
深度学习基础必要基础CNN/ViT
扩散模型推荐扩散模型
3D视觉基础推荐图神经网络
视频理解可选视频Transformer
强化学习可选强化学习

核心公式速查

3D Gaussian Splatting

3D高斯函数

协方差矩阵参数化

Score Distillation Sampling

SDS梯度

4D表示

HexPlane查询

自回归视频预测

条件生成


工具与库推荐

3D重建与渲染

语言特点
COLMAPC++SfM/MVS重建
Open3DC++/Python3D数据处理
PyTorch3DPython可微3D操作
NerfstudioPythonNeRF/3DGS工具链
KaolinPython3D深度学习

3D生成

用途
diffusers扩散模型生成
OmniverseNVIDIA 3D生态
Shap-EOpenAI 3D生成
Point-EOpenAI 点云生成

视频生成

用途
VideoCrafter视频扩散
ModelScope阿里视频模型
** CogVideoX**国产视频模型

评估工具

工具用途
LPIPS感知相似度
FVD视频质量评估
Chamfer Distance3D几何评估

论文推荐

必读经典

论文年份引用关键词
3D Gaussian Splatting20233000+实时渲染、高斯splatting
DreamFusion20222000+SDS、文本3D生成
DUSt3R2024500+端到端3D重建
GEN3C2025新晋3D感知视频生成
DeepVerse2025新晋4D世界模型

进阶阅读

论文年份主题
ProlificDreamer2023VSD改进
Magic3D2023高分辨率3D
TripoSR2024快速3D生成
HexPlane20234D表示
VLM-3R2025指令对齐重建

前沿探索

论文年份方向
PAN2025通用世界模型
Astra2025自回归世界模型
CG-MLLM2026LLM+3D生成

相关领域链接

核心相关

专题链接说明
连续神经网络连续神经网络NeRF理论基础
扩散模型扩散模型生成模型基础
图神经网络图神经网络3D几何处理
视频理解视频Transformer视频表示

应用领域

专题链接说明
具身AI具身智能机器人应用
自动驾驶相关论文仿真测试
AR/VR相关论文实时渲染

理论支撑

专题链接说明
优化理论优化器训练优化
表示学习表示学习特征表示
因果推断因果推断因果建模

更新日志

日期更新内容
2026-05-16添加3D视觉与视频生成专题
2026-05-16新增17个文档文件

本专题持续更新中,欢迎补充相关资源和论文推荐。

此文件夹下有0条笔记。