3D视觉与视频生成专题索引

专题介绍

什么是3D视觉与视频生成

3D视觉与视频生成是计算机视觉和生成模型交叉的前沿领域，涵盖了：

3D场景表示与重建：从图像/视频恢复3D结构
3D内容生成：文本/图像驱动的3D资产生成
视频理解与生成：视频预测、条件生成
世界模型：环境动态建模与交互仿真

技术演进路线

传统SfM/MVS → 深度学习3D → 扩散3D生成 → 视频世界模型
     ↓              ↓              ↓             ↓
  COLMAP      NeRF/3DGS      DreamFusion   GEN3C/DeepVerse

核心主题

主题	核心问题	代表技术
3D表示	如何表示3D场景	NeRF, 3DGS, 三平面
3D生成	如何创建3D内容	SDS, 扩散模型
视频预测	如何预测未来	自回归, 扩散
世界模型	如何建模环境	交互式生成

内容导航

3D Gaussian Splatting

3D Gaussian Splatting是一种高效的3D场景表示和渲染技术。

核心资源：

3D Gaussian Splatting基础
- 3D高斯函数定义与参数化
- 可微splatting渲染
- 训练优化策略
- 与NeRF对比
GS变体与优化
- 动态场景4DGS
- 压缩与加速技术
- 表面质量提升
- SuGaR, Compact GS

3D扩散生成

使用扩散模型进行文本/图像到3D的生成。

核心资源：

前馈3D生成模型
- LRM大重建模型
- TripoSR快速重建
- One-2-3-45++管道
- CRM网格生成
Score Distillation基础
- SDS原理推导
- DreamFusion架构
- 物理解释
改进的3D扩散方法
- ProlificDreamer VSD
- Magic3D高分辨率
- 多视角扩散
- Fantasia3D几何-纹理解耦
LLM增强3D生成
- CG-MLLM方法
- 语义引导生成
- 场景图生成

视频→3D重建

从视频进行3D重建的深度学习方法。

核心资源：

视频到3D重建
- DUSt3R任意图像重建
- See3D自监督学习
- MASt3R匹配增强
- SfM与学习融合
4D场景表示
- HexPlane高效4D表示
- 4D Gaussian Splatting
- 时空一致性建模
- DreamVideo4D, Coarse4D
VLM-3R指令对齐重建
- 指令解析与引导
- 重建-推理协同
- 场景图生成

视频世界模型

视频生成作为世界模型的最新进展。

核心资源：

视频→世界模型演进
- 视频生成 vs 世界模型
- 物理约束建模
- 时空一致性
- CVPR 2025 Tutorial总结
GEN3C 3D感知视频
- 3D条件注入
- 相机控制机制
- 世界一致性保证
- NVIDIA CVPR 2025
DeepVerse 4D世界模型
- 4D时空体积
- 自回归视频生成
- 动作条件预测
- 上海AI Lab
交互式视频世界模型
- Vid2World方法
- VDAWorld VLM引导
- 自然语言动作控制
- 长时域一致性
PAN通用世界模型
- 领域通用设计
- 层次化预测
- 记忆机制
- MBZUAI
Astra自回归世界模型
- 去噪自回归框架
- 动作条件编码
- 视频预测能力
- 清华&快手

学习路径建议

推荐学习顺序

第一阶段：3D基础（第1-2周）
├── 1. 理解3D表示基础
│   └── 阅读：[[../3d-vision/3d-gaussian-splatting|3DGS基础]]
├── 2. 掌握3DGS变体与优化
│   └── 阅读：[[../3d-vision/gaussian-splatting-variants-optimization|GS变体]]
└── 3. 了解前馈3D生成
    └── 阅读：[[../3d-vision/feedforward-3d-generation|前馈3D生成]]

第二阶段：3D扩散生成（第3-4周）
├── 4. Score Distillation原理
│   └── 阅读：[[../3d-vision/dreamfusion-score-distillation|SDS基础]]
├── 5. 改进的3D扩散方法
│   └── 阅读：[[../3d-vision/improved-3d-diffusion-generation|改进方法]]
└── 6. LLM增强3D生成
    └── 阅读：[[../3d-vision/3d-generation-llm-enhancement|LLM增强]]

第三阶段：视频→3D（第5-6周）
├── 7. 视频到3D重建
│   └── 阅读：[[../3d-vision/video-to-3d-reconstruction|视频重建]]
├── 8. 4D场景表示
│   └── 阅读：[[../3d-vision/4d-scene-representation|4D表示]]
└── 9. 指令对齐重建
    └── 阅读：[[../3d-vision/vlm-3r-instruction-aligned-reconstruction|VLM-3R]]

第四阶段：世界模型（第7-8周）
├── 10. 世界模型演进
│   └── 阅读：[[../world-models/video-to-world-model-evolution|演进]]
├── 11. 3D感知视频生成
│   └── 阅读：[[../world-models/gen3c-3d-informed-video-generation|GEN3C]]
├── 12. 4D世界模型
│   └── 阅读：[[../world-models/deepverse-4d-world-model|DeepVerse]]
└── 13. 交互式世界模型
    └── 阅读：[[../world-models/interactive-video-world-models|交互式]]

前置知识要求

知识领域	必要程度	建议资源
深度学习基础	必要	基础CNN/ViT
扩散模型	推荐	扩散模型
3D视觉基础	推荐	图神经网络
视频理解	可选	视频Transformer
强化学习	可选	强化学习

核心公式速查

3D Gaussian Splatting

3D高斯函数：

G (x) = e^{- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)}

协方差矩阵参数化：

Σ = RS S^{T} R^{T}

Score Distillation Sampling

SDS梯度：

\nabla_{θ} L_{S D S} \approx E_{t} [(ϵ_{θ} (x_{t}; c) - ϵ) \cdot \frac{\partial x}{\partial θ}]

4D表示

HexPlane查询：

f (x, t) = p \in P \sum I_{p} (π_{p} (x, t))

自回归视频预测

条件生成：

p (x_{t + 1} ∣ x_{\leq t}, a) = D_{θ} (x_{t}, a)

工具与库推荐

3D重建与渲染

库	语言	特点
COLMAP	C++	SfM/MVS重建
Open3D	C++/Python	3D数据处理
PyTorch3D	Python	可微3D操作
Nerfstudio	Python	NeRF/3DGS工具链
Kaolin	Python	3D深度学习

3D生成

库	用途
diffusers	扩散模型生成
Omniverse	NVIDIA 3D生态
Shap-E	OpenAI 3D生成
Point-E	OpenAI 点云生成

视频生成

库	用途
VideoCrafter	视频扩散
ModelScope	阿里视频模型
CogVideoX	国产视频模型

评估工具

工具	用途
LPIPS	感知相似度
FVD	视频质量评估
Chamfer Distance	3D几何评估

论文推荐

必读经典

论文	年份	引用	关键词
3D Gaussian Splatting	2023	3000+	实时渲染、高斯splatting
DreamFusion	2022	2000+	SDS、文本3D生成
DUSt3R	2024	500+	端到端3D重建
GEN3C	2025	新晋	3D感知视频生成
DeepVerse	2025	新晋	4D世界模型

进阶阅读

论文	年份	主题
ProlificDreamer	2023	VSD改进
Magic3D	2023	高分辨率3D
TripoSR	2024	快速3D生成
HexPlane	2023	4D表示
VLM-3R	2025	指令对齐重建

前沿探索

论文	年份	方向
PAN	2025	通用世界模型
Astra	2025	自回归世界模型
CG-MLLM	2026	LLM+3D生成

专题	链接	说明
连续神经网络	连续神经网络	NeRF理论基础
扩散模型	扩散模型	生成模型基础
图神经网络	图神经网络	3D几何处理
视频理解	视频Transformer	视频表示

专题	链接	说明
具身AI	具身智能	机器人应用
自动驾驶	相关论文	仿真测试
AR/VR	相关论文	实时渲染

专题	链接	说明
优化理论	优化器	训练优化
表示学习	表示学习	特征表示
因果推断	因果推断	因果建模

更新日志

日期	更新内容
2026-05-16	添加3D视觉与视频生成专题
2026-05-16	新增17个文档文件

本专题持续更新中，欢迎补充相关资源和论文推荐。

Metaphor

探索

3D视觉与视频生成专题索引

3D视觉与视频生成专题索引

目录

专题介绍

什么是3D视觉与视频生成

技术演进路线

核心主题

内容导航

3D Gaussian Splatting

3D扩散生成

视频→3D重建

视频世界模型

学习路径建议

推荐学习顺序

前置知识要求

核心公式速查

3D Gaussian Splatting

Score Distillation Sampling

4D表示

自回归视频预测

工具与库推荐

3D重建与渲染

3D生成

视频生成

评估工具

论文推荐

必读经典

进阶阅读

前沿探索

相关领域链接

核心相关

应用领域

理论支撑

更新日志