3D视觉与视频生成专题索引
目录
专题介绍
什么是3D视觉与视频生成
3D视觉与视频生成是计算机视觉和生成模型交叉的前沿领域,涵盖了:
- 3D场景表示与重建:从图像/视频恢复3D结构
- 3D内容生成:文本/图像驱动的3D资产生成
- 视频理解与生成:视频预测、条件生成
- 世界模型:环境动态建模与交互仿真
技术演进路线
传统SfM/MVS → 深度学习3D → 扩散3D生成 → 视频世界模型
↓ ↓ ↓ ↓
COLMAP NeRF/3DGS DreamFusion GEN3C/DeepVerse
核心主题
| 主题 | 核心问题 | 代表技术 |
|---|---|---|
| 3D表示 | 如何表示3D场景 | NeRF, 3DGS, 三平面 |
| 3D生成 | 如何创建3D内容 | SDS, 扩散模型 |
| 视频预测 | 如何预测未来 | 自回归, 扩散 |
| 世界模型 | 如何建模环境 | 交互式生成 |
内容导航
3D Gaussian Splatting
3D Gaussian Splatting是一种高效的3D场景表示和渲染技术。
核心资源:
-
- 3D高斯函数定义与参数化
- 可微splatting渲染
- 训练优化策略
- 与NeRF对比
-
- 动态场景4DGS
- 压缩与加速技术
- 表面质量提升
- SuGaR, Compact GS
3D扩散生成
使用扩散模型进行文本/图像到3D的生成。
核心资源:
-
- LRM大重建模型
- TripoSR快速重建
- One-2-3-45++管道
- CRM网格生成
-
- SDS原理推导
- DreamFusion架构
- 物理解释
-
- ProlificDreamer VSD
- Magic3D高分辨率
- 多视角扩散
- Fantasia3D几何-纹理解耦
-
- CG-MLLM方法
- 语义引导生成
- 场景图生成
视频→3D重建
从视频进行3D重建的深度学习方法。
核心资源:
-
- DUSt3R任意图像重建
- See3D自监督学习
- MASt3R匹配增强
- SfM与学习融合
-
- HexPlane高效4D表示
- 4D Gaussian Splatting
- 时空一致性建模
- DreamVideo4D, Coarse4D
-
- 指令解析与引导
- 重建-推理协同
- 场景图生成
视频世界模型
视频生成作为世界模型的最新进展。
核心资源:
-
- 视频生成 vs 世界模型
- 物理约束建模
- 时空一致性
- CVPR 2025 Tutorial总结
-
- 3D条件注入
- 相机控制机制
- 世界一致性保证
- NVIDIA CVPR 2025
-
- 4D时空体积
- 自回归视频生成
- 动作条件预测
- 上海AI Lab
-
- Vid2World方法
- VDAWorld VLM引导
- 自然语言动作控制
- 长时域一致性
-
- 领域通用设计
- 层次化预测
- 记忆机制
- MBZUAI
-
- 去噪自回归框架
- 动作条件编码
- 视频预测能力
- 清华&快手
学习路径建议
推荐学习顺序
第一阶段:3D基础(第1-2周)
├── 1. 理解3D表示基础
│ └── 阅读:[[../3d-vision/3d-gaussian-splatting|3DGS基础]]
├── 2. 掌握3DGS变体与优化
│ └── 阅读:[[../3d-vision/gaussian-splatting-variants-optimization|GS变体]]
└── 3. 了解前馈3D生成
└── 阅读:[[../3d-vision/feedforward-3d-generation|前馈3D生成]]
第二阶段:3D扩散生成(第3-4周)
├── 4. Score Distillation原理
│ └── 阅读:[[../3d-vision/dreamfusion-score-distillation|SDS基础]]
├── 5. 改进的3D扩散方法
│ └── 阅读:[[../3d-vision/improved-3d-diffusion-generation|改进方法]]
└── 6. LLM增强3D生成
└── 阅读:[[../3d-vision/3d-generation-llm-enhancement|LLM增强]]
第三阶段:视频→3D(第5-6周)
├── 7. 视频到3D重建
│ └── 阅读:[[../3d-vision/video-to-3d-reconstruction|视频重建]]
├── 8. 4D场景表示
│ └── 阅读:[[../3d-vision/4d-scene-representation|4D表示]]
└── 9. 指令对齐重建
└── 阅读:[[../3d-vision/vlm-3r-instruction-aligned-reconstruction|VLM-3R]]
第四阶段:世界模型(第7-8周)
├── 10. 世界模型演进
│ └── 阅读:[[../world-models/video-to-world-model-evolution|演进]]
├── 11. 3D感知视频生成
│ └── 阅读:[[../world-models/gen3c-3d-informed-video-generation|GEN3C]]
├── 12. 4D世界模型
│ └── 阅读:[[../world-models/deepverse-4d-world-model|DeepVerse]]
└── 13. 交互式世界模型
└── 阅读:[[../world-models/interactive-video-world-models|交互式]]
前置知识要求
| 知识领域 | 必要程度 | 建议资源 |
|---|---|---|
| 深度学习基础 | 必要 | 基础CNN/ViT |
| 扩散模型 | 推荐 | 扩散模型 |
| 3D视觉基础 | 推荐 | 图神经网络 |
| 视频理解 | 可选 | 视频Transformer |
| 强化学习 | 可选 | 强化学习 |
核心公式速查
3D Gaussian Splatting
3D高斯函数:
协方差矩阵参数化:
Score Distillation Sampling
SDS梯度:
4D表示
HexPlane查询:
自回归视频预测
条件生成:
工具与库推荐
3D重建与渲染
| 库 | 语言 | 特点 |
|---|---|---|
| COLMAP | C++ | SfM/MVS重建 |
| Open3D | C++/Python | 3D数据处理 |
| PyTorch3D | Python | 可微3D操作 |
| Nerfstudio | Python | NeRF/3DGS工具链 |
| Kaolin | Python | 3D深度学习 |
3D生成
| 库 | 用途 |
|---|---|
| diffusers | 扩散模型生成 |
| Omniverse | NVIDIA 3D生态 |
| Shap-E | OpenAI 3D生成 |
| Point-E | OpenAI 点云生成 |
视频生成
| 库 | 用途 |
|---|---|
| VideoCrafter | 视频扩散 |
| ModelScope | 阿里视频模型 |
| ** CogVideoX** | 国产视频模型 |
评估工具
| 工具 | 用途 |
|---|---|
| LPIPS | 感知相似度 |
| FVD | 视频质量评估 |
| Chamfer Distance | 3D几何评估 |
论文推荐
必读经典
| 论文 | 年份 | 引用 | 关键词 |
|---|---|---|---|
| 3D Gaussian Splatting | 2023 | 3000+ | 实时渲染、高斯splatting |
| DreamFusion | 2022 | 2000+ | SDS、文本3D生成 |
| DUSt3R | 2024 | 500+ | 端到端3D重建 |
| GEN3C | 2025 | 新晋 | 3D感知视频生成 |
| DeepVerse | 2025 | 新晋 | 4D世界模型 |
进阶阅读
| 论文 | 年份 | 主题 |
|---|---|---|
| ProlificDreamer | 2023 | VSD改进 |
| Magic3D | 2023 | 高分辨率3D |
| TripoSR | 2024 | 快速3D生成 |
| HexPlane | 2023 | 4D表示 |
| VLM-3R | 2025 | 指令对齐重建 |
前沿探索
| 论文 | 年份 | 方向 |
|---|---|---|
| PAN | 2025 | 通用世界模型 |
| Astra | 2025 | 自回归世界模型 |
| CG-MLLM | 2026 | LLM+3D生成 |
相关领域链接
核心相关
| 专题 | 链接 | 说明 |
|---|---|---|
| 连续神经网络 | 连续神经网络 | NeRF理论基础 |
| 扩散模型 | 扩散模型 | 生成模型基础 |
| 图神经网络 | 图神经网络 | 3D几何处理 |
| 视频理解 | 视频Transformer | 视频表示 |
应用领域
| 专题 | 链接 | 说明 |
|---|---|---|
| 具身AI | 具身智能 | 机器人应用 |
| 自动驾驶 | 相关论文 | 仿真测试 |
| AR/VR | 相关论文 | 实时渲染 |
理论支撑
更新日志
| 日期 | 更新内容 |
|---|---|
| 2026-05-16 | 添加3D视觉与视频生成专题 |
| 2026-05-16 | 新增17个文档文件 |
本专题持续更新中,欢迎补充相关资源和论文推荐。