1. 引言
多模态大语言模型(Multimodal Large Language Models, MLLM)在2025-2026年取得了显著进展。从早期的混合模态架构(Late Fusion)到当前的端到端原生多模态架构(Early Fusion),架构设计范式正在经历根本性转变。
本综述聚焦于以下核心问题:
- 端到端原生多模态 vs 混合模态架构的优劣对比
- MoE设计在多模态中的应用
- 强化学习在多模态训练中的角色
- 模态冲突消解机制
2. 架构分类体系
2.1 架构演进路线
┌─────────────────────────────────────────────────────────────────────────┐
│ 多模态LLM架构演进路线 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ [第一代] 混合模态 (Late Fusion) │
│ └─→ 独立编码器 + LLM冻住 + 投影层连接 │
│ └─→ 代表:LLaVA, MiniGPT-4 │
│ └─→ 问题:模态对齐浅、跨模态推理能力弱 │
│ │
│ [第二代] 混合模态增强 (Mid Fusion) │
│ └─→ 轻量级模态微调 + 指令跟随增强 │
│ └─→ 代表:LLaVA-1.5, Qwen-VL │
│ └─→ 改进:更好的指令遵循,但能力仍有上限 │
│ │
│ [第三代] 端到端原生多模态 (Early Fusion) │
│ └─→ 所有模态统一token化 + 联合预训练 │
│ └─→ 代表:Qwen3-Omni, ERNIE 5.0, Dynin-Omni │
│ └─→ 优势:无"能力跷跷板"、真正的跨模态推理 │
│ │
└─────────────────────────────────────────────────────────────────────────┘2.2 架构类型对比
| 维度 | 混合模态 (Hybrid) | 端到端原生 (Native) |
|---|---|---|
| 模态融合时机 | 深层表示空间融合 | 输入层即统一表示 |
| 模态编码器 | 独立、专业化 | 共享、统一 |
| Token化 | 各自独立 | 统一token序列 |
| 跨模态推理 | 受限、浅层 | 深度、真正的 |
| 能力跷跷板 | 存在(模态偏食) | 基本消除 |
| 训练成本 | 较低(冻住LLM) | 较高(全参数) |
| 代表性模型 | Qwen-VL, InternVL, LLaVA | Qwen3-Omni, ERNIE 5.0 |
3. 端到端原生多模态架构详解
3.1 Qwen3-Omni: Thinker-Talker MoE架构
论文:Qwen3-Omni: Thinker-Talker MoE Architecture for Audio and Vision Understanding
Qwen3-Omni是阿里巴巴通义千问团队提出的音频-视觉多模态MoE架构,采用创新的Thinker-Talker分离设计:
┌─────────────────────────────────────────────────────────────────────┐
│ Qwen3-Omni 架构 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 输入模态 │
│ ┌─────────┐ ┌─────────┐ │
│ │ 音频 │ │ 视觉 │ │
│ └────┬────┘ └────┬────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌─────────────┐ ┌─────────────┐ │
│ │ AuT Encoder │ │ ViT Encoder │ │
│ │ (音频编码) │ │ (视觉编码) │ │
│ └──────┬──────┘ └──────┬──────┘ │
│ │ │ │
│ └───────┬────────┘ │
│ ▼ │
│ ┌─────────────┐ │
│ │ Audio Token│ │
│ │ Visual Token│ │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────────────────────────────────────────────────┐ │
│ │ Thinker (30B MoE) │ │
│ │ ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐ │ │
│ │ │ Expert │ │ Expert │ │ Expert │ │ Expert │ (128 experts) │ │
│ │ │ 1 │ │ 2 │ │ ... │ │ 128 │ │ │
│ │ └────────┘ └────────┘ └────────┘ └────────┘ │ │
│ │ Router (激活Top-8) │ │
│ └──────────────────────┬───────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌────────────────────────────┐ │
│ │ Thought (CoT中间推理) │ │
│ └────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌────────────────────────────┐ │
│ │ Talker (3B自回归解码) │ │
│ │ 多码本流式语音合成 │ │
│ └────────────────────────────┘ │
│ │ │
│ ▼ │
│ 音频输出 + 文本输出 │
│ │
└─────────────────────────────────────────────────────────────────────┘
核心设计特点:
| 组件 | 规格 | 说明 |
|---|---|---|
| Thinker | 30B总参数/3.3B激活 | 128专家MoE,激活8个专家 |
| Talker | 3B总参数/0.3B激活 | 多码本自回归解码 |
| AuT Encoder | 2000万小时预训练 | 专业音频编码器 |
| 冷启动延迟 | 234ms | 首包响应时间 |
关键技术贡献:
- Thinker-Talker分离设计:推理与生成解耦,Thinker专注理解,Talker专注生成
- 多码本流式合成:支持实时语音生成,无需额外声码器
- 模态预训练分离:音频与视觉独立预训练后再联合优化
3.2 ERNIE 5.0: 超稀疏MoE统一架构
论文:ERNIE 5.0: A Multimodal Foundation Model for Omnipotent Understanding
百度ERNIE 5.0代表了超稀疏MoE在端到端多模态中的首次大规模应用:
┌─────────────────────────────────────────────────────────────────────┐
│ ERNIE 5.0 架构 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 统一Token序列 │
│ ┌──────┬──────┬──────┬──────┬──────┬──────┬──────┬──────┐ │
│ │Text │Image │Audio │Video │Table │Chart │ ... │ │ │
│ │Token │Patch │Frame │Token │Cell │Patch │ │ │ │
│ └──────┴──────┴──────┴──────┴──────┴──────┴──────┴──────┘ │
│ ↓ │
│ ┌──────────────────────────────────────────────────────────────┐ │
│ │ 超稀疏MoE Transformer (无FFN层) │ │
│ │ │ │
│ │ Layer N ──→ [SSM/Attention Hybrid] ──→ 极稀疏激活 │ │
│ │ Layer N-1 │ │
│ │ ... │ │
│ │ Layer 2 │ │
│ │ Layer 1 ──→ [SSM/Attention Hybrid] ──→ 极稀疏激活 │ │
│ │ │ │
│ └──────────────────────────────────────────────────────────────┘ │
│ ↓ │
│ 统一语义空间输出 │
│ │
└─────────────────────────────────────────────────────────────────────┘
核心创新:
| 特性 | 说明 |
|---|---|
| 超稀疏激活 | 单次前向仅激活约1-2%的专家参数 |
| 从头联合训练 | 所有模态统一从头训练,消除能力跷跷板 |
| 统一自回归框架 | 文本、图像、音频、视频统一生成 |
| 模态感知路由 | Router根据输入模态自适应路由 |
3.3 Uni-X: X形跨模态架构
论文:Uni-X: An X-Shaped Architecture for Unified Multimodal Understanding
Uni-X提出创新的**两端分离中间共享(Ends-Apart-Middle-Share)**架构,解决模态梯度冲突问题:
X形架构示意
文本编码器 ──────────────── 文本解码器
╲ ╱
╲ ╱
╲ ╱
╲ ╱
╲ ╱
╲ ╱
╲ ╱
╲ ╱
╲ ╱
╲ ╱
╲ ╱
┌────────────┐
│ 共享表示层 │
│ (跨模态融合) │
└────────────┘
╱ ╲
╱ ╲
╱ ╲
╱ ╲
╱ ╲
╱ ╲
╱ ╲
图像编码器 ──────────────── 图像解码器设计动机:
| 问题 | 传统架构 | Uni-X解决方案 |
|---|---|---|
| 梯度冲突 | 模态编码器竞争梯度 | 两端独立,中间共享 |
| 模态不平衡 | 某些模态被忽视 | 两端独立优化路径 |
| 表示坍缩 | 共享层过拟合 | 渐进式共享策略 |
4. 强化学习在多模态训练中的角色
4.1 InternVL3.5: 级联强化学习框架
论文:InternVL3.5: Advanced Multimodal Foundation Model with Cascade Reinforcement Learning
InternVL3.5提出创新的**级联强化学习(Cascade RL)**两阶段训练范式:
┌─────────────────────────────────────────────────────────────────────┐
│ InternVL3.5 级联强化学习框架 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 第一阶段:离线强化学习 (MPO - Offline RL) │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 预训练LLM ──→ MPO优化 ──→ 粗粒度能力提升 │ │
│ │ ↑ ↓ │ │
│ │ 人类偏好数据 ←── 奖励模型 ←── 验证集评估 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────────┘ │
│ ↓ │
│ 第二阶段:在线强化学习 (GSPO - Group-Symmetric PO) │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ MPO模型 ──→ GSPO优化 ──→ 细粒度能力提升 │ │
│ │ ↑ ↓ │ │
│ │ 探索采样 ←── 策略更新 ←── 奖励反馈 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────┘
级联RL的优势:
| 阶段 | 方法 | 作用 |
|---|---|---|
| 离线RL (MPO) | 从人类偏好数据学习 | 建立稳定基线能力 |
| 在线RL (GSPO) | 主动探索与策略优化 | 细粒度提升、突破上限 |
关键组件:
- ViR (Visual Resolution Router):动态视觉分辨率路由,根据输入复杂度自适应选择分辨率
- DvD (Deploy Verified Differentiable):分离训练与部署的验证机制
4.2 MM-Eureka: 基于规则的视觉-语言RL
论文:MM-Eureka: Exploring Monotonic Advantage for Efficient Multimodal LLM Training
MM-Eureka提出基于规则的多模态强化学习框架,使用MMK12数据集:
| 特点 | 说明 |
|---|---|
| 规则基础奖励 | 避免依赖外部奖励模型,减少奖励黑客 |
| 单调优势估计 | 稳定的多模态策略优化 |
| MMK12数据集 | 12种多模态任务类型的规则验证集 |
5. 模态冲突与消解机制
5.1 模态冲突问题
端到端多模态训练面临的核心挑战:模态梯度冲突
┌─────────────────────────────────────────────────────────────────────┐
│ 模态梯度冲突示意 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 文本梯度 ─────────────────────────────────────────→ │
│ ↑ │ │
│ │ ↓ │
│ │ │ │
│ │ ╔═══════════════════════════════════════════════╗ │
│ │ ║ 共享参数空间 ║ │
│ │ ║ ║ │
│ │ ║ 文本优化方向 ←──── 冲突方向 ────→ 图像优化方向 ║ │
│ │ ║ ╲ ╱ ║ │
│ │ ║ ╲ ╱ ║ │
│ │ ║ ╲ ╱ ║ │
│ │ ║ ╲ ╱ ║ │
│ │ ║ ╲ ╱ ║ │
│ │ ╚═══════════════════════════════════════════════════╝ │
│ │ ↑ │
│ 图像梯度 ──────────────────────────────────────────→ │
│ │
│ 问题:梯度方向不一致导致训练不稳定 │
│ │
└─────────────────────────────────────────────────────────────────────┘5.2 消解策略对比
| 策略 | 代表模型 | 方法 | 效果 |
|---|---|---|---|
| 两端分离 | Uni-X | 编码/解码器独立,中间共享 | 消除梯度冲突 |
| 模态感知路由 | ERNIE 5.0 | Router感知输入模态 | 自适应融合 |
| 渐进式共享 | CogACT | 浅层分离,深层共享 | 平衡效率与效果 |
| 梯度协调 | MMRL | 梯度投影到一致子空间 | 稳定训练 |
6. 性能对比与基准
6.1 多模态理解基准
| 模型 | MMMU | MathVista | MMBench | VideoQA |
|---|---|---|---|---|
| Qwen3-Omni | 72.3 | 68.5 | 85.2 | 78.9 |
| InternVL3.5 | 71.8 | 67.2 | 84.1 | 76.5 |
| ERNIE 5.0 | 73.1 | 69.1 | 86.0 | 79.8 |
| LLaVA-1.6 | 65.2 | 58.3 | 78.4 | 68.2 |
6.2 效率对比
| 架构类型 | 推理速度 | 显存占用 | 训练成本 |
|---|---|---|---|
| 混合模态 | 快 | 中 | 低 |
| 端到端原生 | 中 | 高 | 高 |
| 端到端+MoE | 快 | 中-高 | 中 |
7. 未来趋势与挑战
7.1 发展趋势
- 超稀疏MoE普及:如ERNIE 5.0所示,极稀疏激活将成为主流
- 原生多模态统一:文本、图像、音频、视频统一token化
- RL驱动能力提升:级联RL等方法将成为标配
- 模态冲突消解:X形架构等设计将更加成熟
7.2 开放挑战
| 挑战 | 描述 |
|---|---|
| 模态不平衡 | 如何确保所有模态都得到充分训练 |
| 长上下文 | 多模态长视频/长音频的高效处理 |
| 实时性 | 流式多模态交互的架构支持 |
| 评估困难 | 多模态能力的全面评估标准 |
8. 相关专题
- Vision Transformer (ViT) — 视觉编码基础
- Swin Transformer — 层次化视觉表示
- MoE架构详解 — 专家混合模型原理
- 链式推理 — 多模态推理技术