1. 引言

多模态大语言模型(Multimodal Large Language Models, MLLM)在2025-2026年取得了显著进展。从早期的混合模态架构(Late Fusion)到当前的端到端原生多模态架构(Early Fusion),架构设计范式正在经历根本性转变。

本综述聚焦于以下核心问题:

  • 端到端原生多模态 vs 混合模态架构的优劣对比
  • MoE设计在多模态中的应用
  • 强化学习在多模态训练中的角色
  • 模态冲突消解机制

2. 架构分类体系

2.1 架构演进路线

┌─────────────────────────────────────────────────────────────────────────┐
│                    多模态LLM架构演进路线                                  │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│  [第一代] 混合模态 (Late Fusion)                                        │
│    └─→ 独立编码器 + LLM冻住 + 投影层连接                                  │
│    └─→ 代表:LLaVA, MiniGPT-4                                          │
│    └─→ 问题:模态对齐浅、跨模态推理能力弱                                 │
│                                                                         │
│  [第二代] 混合模态增强 (Mid Fusion)                                      │
│    └─→ 轻量级模态微调 + 指令跟随增强                                     │
│    └─→ 代表:LLaVA-1.5, Qwen-VL                                        │
│    └─→ 改进:更好的指令遵循,但能力仍有上限                               │
│                                                                         │
│  [第三代] 端到端原生多模态 (Early Fusion)                                │
│    └─→ 所有模态统一token化 + 联合预训练                                  │
│    └─→ 代表:Qwen3-Omni, ERNIE 5.0, Dynin-Omni                        │
│    └─→ 优势:无"能力跷跷板"、真正的跨模态推理                             │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

2.2 架构类型对比

维度混合模态 (Hybrid)端到端原生 (Native)
模态融合时机深层表示空间融合输入层即统一表示
模态编码器独立、专业化共享、统一
Token化各自独立统一token序列
跨模态推理受限、浅层深度、真正的
能力跷跷板存在(模态偏食)基本消除
训练成本较低(冻住LLM)较高(全参数)
代表性模型Qwen-VL, InternVL, LLaVAQwen3-Omni, ERNIE 5.0

3. 端到端原生多模态架构详解

3.1 Qwen3-Omni: Thinker-Talker MoE架构

论文Qwen3-Omni: Thinker-Talker MoE Architecture for Audio and Vision Understanding

Qwen3-Omni是阿里巴巴通义千问团队提出的音频-视觉多模态MoE架构,采用创新的Thinker-Talker分离设计:

┌─────────────────────────────────────────────────────────────────────┐
│                     Qwen3-Omni 架构                                  │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  输入模态                                                            │
│    ┌─────────┐    ┌─────────┐                                      │
│    │  音频   │    │  视觉   │                                      │
│    └────┬────┘    └────┬────┘                                      │
│         │              │                                           │
│         ▼              ▼                                           │
│  ┌─────────────┐  ┌─────────────┐                                  │
│  │ AuT Encoder │  │ ViT Encoder │                                  │
│  │  (音频编码)  │  │  (视觉编码)  │                                  │
│  └──────┬──────┘  └──────┬──────┘                                  │
│         │                │                                          │
│         └───────┬────────┘                                          │
│                 ▼                                                    │
│         ┌─────────────┐                                             │
│         │  Audio Token│                                             │
│         │  Visual Token│                                            │
│         └──────┬──────┘                                             │
│                │                                                    │
│                ▼                                                    │
│  ┌──────────────────────────────────────────────────────────────┐  │
│  │                    Thinker (30B MoE)                         │  │
│  │  ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐                 │  │
│  │  │ Expert │ │ Expert │ │ Expert │ │ Expert │  (128 experts) │  │
│  │  │   1    │ │   2    │ │  ...   │ │  128   │                 │  │
│  │  └────────┘ └────────┘ └────────┘ └────────┘                 │  │
│  │              Router (激活Top-8)                              │  │
│  └──────────────────────┬───────────────────────────────────────┘  │
│                          │                                          │
│                          ▼                                          │
│         ┌────────────────────────────┐                             │
│         │  Thought (CoT中间推理)      │                             │
│         └────────────────────────────┘                             │
│                          │                                          │
│                          ▼                                          │
│         ┌────────────────────────────┐                             │
│         │  Talker (3B自回归解码)      │                             │
│         │  多码本流式语音合成          │                             │
│         └────────────────────────────┘                             │
│                          │                                          │
│                          ▼                                          │
│                   音频输出 + 文本输出                                 │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

核心设计特点

组件规格说明
Thinker30B总参数/3.3B激活128专家MoE,激活8个专家
Talker3B总参数/0.3B激活多码本自回归解码
AuT Encoder2000万小时预训练专业音频编码器
冷启动延迟234ms首包响应时间

关键技术贡献

  1. Thinker-Talker分离设计:推理与生成解耦,Thinker专注理解,Talker专注生成
  2. 多码本流式合成:支持实时语音生成,无需额外声码器
  3. 模态预训练分离:音频与视觉独立预训练后再联合优化

3.2 ERNIE 5.0: 超稀疏MoE统一架构

论文ERNIE 5.0: A Multimodal Foundation Model for Omnipotent Understanding

百度ERNIE 5.0代表了超稀疏MoE在端到端多模态中的首次大规模应用

┌─────────────────────────────────────────────────────────────────────┐
│                     ERNIE 5.0 架构                                  │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  统一Token序列                                                       │
│  ┌──────┬──────┬──────┬──────┬──────┬──────┬──────┬──────┐       │
│  │Text  │Image │Audio │Video │Table │Chart │ ...  │      │       │
│  │Token │Patch │Frame │Token │Cell  │Patch │      │      │       │
│  └──────┴──────┴──────┴──────┴──────┴──────┴──────┴──────┘       │
│              ↓                                                      │
│  ┌──────────────────────────────────────────────────────────────┐   │
│  │           超稀疏MoE Transformer (无FFN层)                   │   │
│  │                                                              │   │
│  │   Layer N ──→ [SSM/Attention Hybrid] ──→ 极稀疏激活        │   │
│  │   Layer N-1                                                   │   │
│  │      ...                                                      │   │
│  │   Layer 2                                                    │   │
│  │   Layer 1 ──→ [SSM/Attention Hybrid] ──→ 极稀疏激活        │   │
│  │                                                              │   │
│  └──────────────────────────────────────────────────────────────┘   │
│              ↓                                                      │
│         统一语义空间输出                                              │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

核心创新

特性说明
超稀疏激活单次前向仅激活约1-2%的专家参数
从头联合训练所有模态统一从头训练,消除能力跷跷板
统一自回归框架文本、图像、音频、视频统一生成
模态感知路由Router根据输入模态自适应路由

3.3 Uni-X: X形跨模态架构

论文Uni-X: An X-Shaped Architecture for Unified Multimodal Understanding

Uni-X提出创新的**两端分离中间共享(Ends-Apart-Middle-Share)**架构,解决模态梯度冲突问题:

                    X形架构示意
                          
         文本编码器 ──────────────── 文本解码器
              ╲                        ╱
               ╲                      ╱
                ╲                    ╱
                 ╲                  ╱
                  ╲                ╱
                   ╲              ╱
                    ╲            ╱
                     ╲          ╱
                      ╲        ╱
                       ╲      ╱
                        ╲    ╱
                    ┌────────────┐
                    │  共享表示层  │
                    │ (跨模态融合) │
                    └────────────┘
                        ╱    ╲
                       ╱      ╲
                      ╱        ╲
                     ╱          ╲
                    ╱            ╲
                   ╱              ╲
                  ╱                ╲
         图像编码器 ──────────────── 图像解码器

设计动机

问题传统架构Uni-X解决方案
梯度冲突模态编码器竞争梯度两端独立,中间共享
模态不平衡某些模态被忽视两端独立优化路径
表示坍缩共享层过拟合渐进式共享策略

4. 强化学习在多模态训练中的角色

4.1 InternVL3.5: 级联强化学习框架

论文InternVL3.5: Advanced Multimodal Foundation Model with Cascade Reinforcement Learning

InternVL3.5提出创新的**级联强化学习(Cascade RL)**两阶段训练范式:

┌─────────────────────────────────────────────────────────────────────┐
│              InternVL3.5 级联强化学习框架                              │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  第一阶段:离线强化学习 (MPO - Offline RL)                           │
│  ┌─────────────────────────────────────────────────────────────┐   │
│  │                                                             │   │
│  │    预训练LLM ──→ MPO优化 ──→ 粗粒度能力提升                  │   │
│  │         ↑              ↓                                   │   │
│  │    人类偏好数据 ←── 奖励模型 ←── 验证集评估                   │   │
│  │                                                             │   │
│  └─────────────────────────────────────────────────────────────┘   │
│                              ↓                                       │
│  第二阶段:在线强化学习 (GSPO - Group-Symmetric PO)                   │
│  ┌─────────────────────────────────────────────────────────────┐   │
│  │                                                             │   │
│  │    MPO模型 ──→ GSPO优化 ──→ 细粒度能力提升                    │   │
│  │         ↑              ↓                                   │   │
│  │    探索采样 ←── 策略更新 ←── 奖励反馈                        │   │
│  │                                                             │   │
│  └─────────────────────────────────────────────────────────────┘   │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

级联RL的优势

阶段方法作用
离线RL (MPO)从人类偏好数据学习建立稳定基线能力
在线RL (GSPO)主动探索与策略优化细粒度提升、突破上限

关键组件

  • ViR (Visual Resolution Router):动态视觉分辨率路由,根据输入复杂度自适应选择分辨率
  • DvD (Deploy Verified Differentiable):分离训练与部署的验证机制

4.2 MM-Eureka: 基于规则的视觉-语言RL

论文MM-Eureka: Exploring Monotonic Advantage for Efficient Multimodal LLM Training

MM-Eureka提出基于规则的多模态强化学习框架,使用MMK12数据集:

特点说明
规则基础奖励避免依赖外部奖励模型,减少奖励黑客
单调优势估计稳定的多模态策略优化
MMK12数据集12种多模态任务类型的规则验证集

5. 模态冲突与消解机制

5.1 模态冲突问题

端到端多模态训练面临的核心挑战:模态梯度冲突

┌─────────────────────────────────────────────────────────────────────┐
│                      模态梯度冲突示意                                 │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  文本梯度 ─────────────────────────────────────────→                │
│     ↑                                                         │    │
│     │                                                         ↓    │
│     │                                                         │    │
│     │      ╔═══════════════════════════════════════════════╗     │
│     │      ║              共享参数空间                       ║     │
│     │      ║                                               ║     │
│     │      ║    文本优化方向 ←──── 冲突方向 ────→ 图像优化方向  ║     │
│     │      ║                    ╲                        ╱  ║     │
│     │      ║                     ╲                      ╱    ║     │
│     │      ║                      ╲                    ╱     ║     │
│     │      ║                       ╲                  ╱      ║     │
│     │      ║                        ╲                ╱       ║     │
│     │      ╚═══════════════════════════════════════════════════╝     │
│     │                                                         ↑     │
│  图像梯度 ──────────────────────────────────────────→               │
│                                                                     │
│  问题:梯度方向不一致导致训练不稳定                                   │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

5.2 消解策略对比

策略代表模型方法效果
两端分离Uni-X编码/解码器独立,中间共享消除梯度冲突
模态感知路由ERNIE 5.0Router感知输入模态自适应融合
渐进式共享CogACT浅层分离,深层共享平衡效率与效果
梯度协调MMRL梯度投影到一致子空间稳定训练

6. 性能对比与基准

6.1 多模态理解基准

模型MMMUMathVistaMMBenchVideoQA
Qwen3-Omni72.368.585.278.9
InternVL3.571.867.284.176.5
ERNIE 5.073.169.186.079.8
LLaVA-1.665.258.378.468.2

6.2 效率对比

架构类型推理速度显存占用训练成本
混合模态
端到端原生
端到端+MoE中-高

7. 未来趋势与挑战

7.1 发展趋势

  1. 超稀疏MoE普及:如ERNIE 5.0所示,极稀疏激活将成为主流
  2. 原生多模态统一:文本、图像、音频、视频统一token化
  3. RL驱动能力提升:级联RL等方法将成为标配
  4. 模态冲突消解:X形架构等设计将更加成熟

7.2 开放挑战

挑战描述
模态不平衡如何确保所有模态都得到充分训练
长上下文多模态长视频/长音频的高效处理
实时性流式多模态交互的架构支持
评估困难多模态能力的全面评估标准

8. 相关专题


参考文献