专题简介

本专题涵盖多模态学习的核心理论与实践方法,包括:

  • 统一多模态模型:理解和生成的统一架构
  • 视觉-语言模型:VLM架构设计最新进展
  • 多模态生成:文本到图像、视频生成
  • 多模态LLM:2025-2026年架构综述

核心内容

统一多模态模型

文件描述
BAGEL统一decoder-only架构,万亿token多模态交错预训练
EMMA高效统一架构,32x压缩比自动编码器
Mogao交错多模态生成,深度融合设计
NExT-OMNI离散Flow Matching,任意到任意理解生成
Transfusion语言建模+扩散统一架构

视觉-语言模型

文件描述
MLLM架构综述2025-2026年架构设计最新进展
Qwen3-OmniThinker-Talker MoE分离设计
ThinkMorph交错链式推理与涌现视觉操作能力

多模态推理专题

文件描述
ThinkMorph交错CoTICLR 2026:文本与图像思维交织

学习路径

入门路径

  1. 基础理论

  2. 统一模型入门

  3. 进阶模型


相关领域

深度学习基础

视觉模型

生成模型


推荐阅读

经典论文

  1. BAGEL: Emerging Properties in Unified Multimodal Pretraining
  2. EMMA: Efficient Multimodal Understanding, Generation, and Editing
  3. Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation
  4. NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models
  5. ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

最新研究

  • 关注ICLR/NeurIPS多模态相关论文
  • arXiv:multimodal, cs.CV, cs.CL

最新更新

日期更新内容
2026-05-19新增ThinkMorph交错链式推理
2026-05-08初始化多模态学习专题

本索引由Agent维护,最后更新:2026-05-19