专题简介
本专题涵盖多模态学习的核心理论与实践方法,包括:
- 统一多模态模型:理解和生成的统一架构
- 视觉-语言模型:VLM架构设计最新进展
- 多模态生成:文本到图像、视频生成
- 多模态LLM:2025-2026年架构综述
核心内容
统一多模态模型
| 文件 | 描述 |
|---|---|
| BAGEL | 统一decoder-only架构,万亿token多模态交错预训练 |
| EMMA | 高效统一架构,32x压缩比自动编码器 |
| Mogao | 交错多模态生成,深度融合设计 |
| NExT-OMNI | 离散Flow Matching,任意到任意理解生成 |
| Transfusion | 语言建模+扩散统一架构 |
视觉-语言模型
| 文件 | 描述 |
|---|---|
| MLLM架构综述 | 2025-2026年架构设计最新进展 |
| Qwen3-Omni | Thinker-Talker MoE分离设计 |
| ThinkMorph | 交错链式推理与涌现视觉操作能力 |
多模态推理专题
| 文件 | 描述 |
|---|---|
| ThinkMorph交错CoT | ICLR 2026:文本与图像思维交织 |
学习路径
入门路径
-
基础理论
- multimodal-llm-architectures-2025 — 理解多模态架构演进
-
统一模型入门
- transfusion-unified-multimodal — 学习统一架构基础
- bagel-unified-multimodal-foundation — 理解decoder-only统一设计
-
进阶模型
相关领域
深度学习基础
视觉模型
生成模型
推荐阅读
经典论文
- BAGEL: Emerging Properties in Unified Multimodal Pretraining
- EMMA: Efficient Multimodal Understanding, Generation, and Editing
- Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models
- ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
最新研究
- 关注ICLR/NeurIPS多模态相关论文
- arXiv:multimodal, cs.CV, cs.CL
最新更新
| 日期 | 更新内容 |
|---|---|
| 2026-05-19 | 新增ThinkMorph交错链式推理 |
| 2026-05-08 | 初始化多模态学习专题 |
本索引由Agent维护,最后更新:2026-05-19