多模态大语言模型架构综述（2025-2026）

1. 引言

多模态大语言模型(Multimodal Large Language Models, MLLM)在2025-2026年取得了显著进展。从早期的混合模态架构(Late Fusion)到当前的端到端原生多模态架构(Early Fusion)，架构设计范式正在经历根本性转变。

本综述聚焦于以下核心问题：

端到端原生多模态 vs 混合模态架构的优劣对比
MoE设计在多模态中的应用
强化学习在多模态训练中的角色
模态冲突消解机制

2. 架构分类体系

2.1 架构演进路线

┌─────────────────────────────────────────────────────────────────────────┐
│                    多模态LLM架构演进路线                                  │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│  [第一代] 混合模态 (Late Fusion)                                        │
│    └─→ 独立编码器 + LLM冻住 + 投影层连接                                  │
│    └─→ 代表：LLaVA, MiniGPT-4                                          │
│    └─→ 问题：模态对齐浅、跨模态推理能力弱                                 │
│                                                                         │
│  [第二代] 混合模态增强 (Mid Fusion)                                      │
│    └─→ 轻量级模态微调 + 指令跟随增强                                     │
│    └─→ 代表：LLaVA-1.5, Qwen-VL                                        │
│    └─→ 改进：更好的指令遵循，但能力仍有上限                               │
│                                                                         │
│  [第三代] 端到端原生多模态 (Early Fusion)                                │
│    └─→ 所有模态统一token化 + 联合预训练                                  │
│    └─→ 代表：Qwen3-Omni, ERNIE 5.0, Dynin-Omni                        │
│    └─→ 优势：无"能力跷跷板"、真正的跨模态推理                             │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

2.2 架构类型对比

维度	混合模态 (Hybrid)	端到端原生 (Native)
模态融合时机	深层表示空间融合	输入层即统一表示
模态编码器	独立、专业化	共享、统一
Token化	各自独立	统一token序列
跨模态推理	受限、浅层	深度、真正的
能力跷跷板	存在（模态偏食）	基本消除
训练成本	较低（冻住LLM）	较高（全参数）
代表性模型	Qwen-VL, InternVL, LLaVA	Qwen3-Omni, ERNIE 5.0

3. 端到端原生多模态架构详解

3.1 Qwen3-Omni: Thinker-Talker MoE架构

论文：Qwen3-Omni: Thinker-Talker MoE Architecture for Audio and Vision Understanding

Qwen3-Omni是阿里巴巴通义千问团队提出的音频-视觉多模态MoE架构，采用创新的Thinker-Talker分离设计：

┌─────────────────────────────────────────────────────────────────────┐
│                     Qwen3-Omni 架构                                  │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  输入模态                                                            │
│    ┌─────────┐    ┌─────────┐                                      │
│    │  音频   │    │  视觉   │                                      │
│    └────┬────┘    └────┬────┘                                      │
│         │              │                                           │
│         ▼              ▼                                           │
│  ┌─────────────┐  ┌─────────────┐                                  │
│  │ AuT Encoder │  │ ViT Encoder │                                  │
│  │  (音频编码)  │  │  (视觉编码)  │                                  │
│  └──────┬──────┘  └──────┬──────┘                                  │
│         │                │                                          │
│         └───────┬────────┘                                          │
│                 ▼                                                    │
│         ┌─────────────┐                                             │
│         │  Audio Token│                                             │
│         │  Visual Token│                                            │
│         └──────┬──────┘                                             │
│                │                                                    │
│                ▼                                                    │
│  ┌──────────────────────────────────────────────────────────────┐  │
│  │                    Thinker (30B MoE)                         │  │
│  │  ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐                 │  │
│  │  │ Expert │ │ Expert │ │ Expert │ │ Expert │  (128 experts) │  │
│  │  │   1    │ │   2    │ │  ...   │ │  128   │                 │  │
│  │  └────────┘ └────────┘ └────────┘ └────────┘                 │  │
│  │              Router (激活Top-8)                              │  │
│  └──────────────────────┬───────────────────────────────────────┘  │
│                          │                                          │
│                          ▼                                          │
│         ┌────────────────────────────┐                             │
│         │  Thought (CoT中间推理)      │                             │
│         └────────────────────────────┘                             │
│                          │                                          │
│                          ▼                                          │
│         ┌────────────────────────────┐                             │
│         │  Talker (3B自回归解码)      │                             │
│         │  多码本流式语音合成          │                             │
│         └────────────────────────────┘                             │
│                          │                                          │
│                          ▼                                          │
│                   音频输出 + 文本输出                                 │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

核心设计特点：

组件	规格	说明
Thinker	30B总参数/3.3B激活	128专家MoE，激活8个专家
Talker	3B总参数/0.3B激活	多码本自回归解码
AuT Encoder	2000万小时预训练	专业音频编码器
冷启动延迟	234ms	首包响应时间

关键技术贡献：

Thinker-Talker分离设计：推理与生成解耦，Thinker专注理解，Talker专注生成
多码本流式合成：支持实时语音生成，无需额外声码器
模态预训练分离：音频与视觉独立预训练后再联合优化

3.2 ERNIE 5.0: 超稀疏MoE统一架构

论文：ERNIE 5.0: A Multimodal Foundation Model for Omnipotent Understanding

百度ERNIE 5.0代表了超稀疏MoE在端到端多模态中的首次大规模应用：

┌─────────────────────────────────────────────────────────────────────┐
│                     ERNIE 5.0 架构                                  │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  统一Token序列                                                       │
│  ┌──────┬──────┬──────┬──────┬──────┬──────┬──────┬──────┐       │
│  │Text  │Image │Audio │Video │Table │Chart │ ...  │      │       │
│  │Token │Patch │Frame │Token │Cell  │Patch │      │      │       │
│  └──────┴──────┴──────┴──────┴──────┴──────┴──────┴──────┘       │
│              ↓                                                      │
│  ┌──────────────────────────────────────────────────────────────┐   │
│  │           超稀疏MoE Transformer (无FFN层)                   │   │
│  │                                                              │   │
│  │   Layer N ──→ [SSM/Attention Hybrid] ──→ 极稀疏激活        │   │
│  │   Layer N-1                                                   │   │
│  │      ...                                                      │   │
│  │   Layer 2                                                    │   │
│  │   Layer 1 ──→ [SSM/Attention Hybrid] ──→ 极稀疏激活        │   │
│  │                                                              │   │
│  └──────────────────────────────────────────────────────────────┘   │
│              ↓                                                      │
│         统一语义空间输出                                              │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

核心创新：

特性	说明
超稀疏激活	单次前向仅激活约1-2%的专家参数
从头联合训练	所有模态统一从头训练，消除能力跷跷板
统一自回归框架	文本、图像、音频、视频统一生成
模态感知路由	Router根据输入模态自适应路由

3.3 Uni-X: X形跨模态架构

论文：Uni-X: An X-Shaped Architecture for Unified Multimodal Understanding

Uni-X提出创新的**两端分离中间共享(Ends-Apart-Middle-Share)**架构，解决模态梯度冲突问题：

                    X形架构示意
                          
         文本编码器 ──────────────── 文本解码器
              ╲                        ╱
               ╲                      ╱
                ╲                    ╱
                 ╲                  ╱
                  ╲                ╱
                   ╲              ╱
                    ╲            ╱
                     ╲          ╱
                      ╲        ╱
                       ╲      ╱
                        ╲    ╱
                    ┌────────────┐
                    │  共享表示层  │
                    │ (跨模态融合) │
                    └────────────┘
                        ╱    ╲
                       ╱      ╲
                      ╱        ╲
                     ╱          ╲
                    ╱            ╲
                   ╱              ╲
                  ╱                ╲
         图像编码器 ──────────────── 图像解码器

设计动机：

问题	传统架构	Uni-X解决方案
梯度冲突	模态编码器竞争梯度	两端独立，中间共享
模态不平衡	某些模态被忽视	两端独立优化路径
表示坍缩	共享层过拟合	渐进式共享策略

4. 强化学习在多模态训练中的角色

4.1 InternVL3.5: 级联强化学习框架

论文：InternVL3.5: Advanced Multimodal Foundation Model with Cascade Reinforcement Learning

InternVL3.5提出创新的**级联强化学习(Cascade RL)**两阶段训练范式：

┌─────────────────────────────────────────────────────────────────────┐
│              InternVL3.5 级联强化学习框架                              │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  第一阶段：离线强化学习 (MPO - Offline RL)                           │
│  ┌─────────────────────────────────────────────────────────────┐   │
│  │                                                             │   │
│  │    预训练LLM ──→ MPO优化 ──→ 粗粒度能力提升                  │   │
│  │         ↑              ↓                                   │   │
│  │    人类偏好数据 ←── 奖励模型 ←── 验证集评估                   │   │
│  │                                                             │   │
│  └─────────────────────────────────────────────────────────────┘   │
│                              ↓                                       │
│  第二阶段：在线强化学习 (GSPO - Group-Symmetric PO)                   │
│  ┌─────────────────────────────────────────────────────────────┐   │
│  │                                                             │   │
│  │    MPO模型 ──→ GSPO优化 ──→ 细粒度能力提升                    │   │
│  │         ↑              ↓                                   │   │
│  │    探索采样 ←── 策略更新 ←── 奖励反馈                        │   │
│  │                                                             │   │
│  └─────────────────────────────────────────────────────────────┘   │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

级联RL的优势：

阶段	方法	作用
离线RL (MPO)	从人类偏好数据学习	建立稳定基线能力
在线RL (GSPO)	主动探索与策略优化	细粒度提升、突破上限

关键组件：

ViR (Visual Resolution Router)：动态视觉分辨率路由，根据输入复杂度自适应选择分辨率
DvD (Deploy Verified Differentiable)：分离训练与部署的验证机制

4.2 MM-Eureka: 基于规则的视觉-语言RL

论文：MM-Eureka: Exploring Monotonic Advantage for Efficient Multimodal LLM Training

MM-Eureka提出基于规则的多模态强化学习框架，使用MMK12数据集：

特点	说明
规则基础奖励	避免依赖外部奖励模型，减少奖励黑客
单调优势估计	稳定的多模态策略优化
MMK12数据集	12种多模态任务类型的规则验证集

5. 模态冲突与消解机制

5.1 模态冲突问题

端到端多模态训练面临的核心挑战：模态梯度冲突

┌─────────────────────────────────────────────────────────────────────┐
│                      模态梯度冲突示意                                 │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  文本梯度 ─────────────────────────────────────────→                │
│     ↑                                                         │    │
│     │                                                         ↓    │
│     │                                                         │    │
│     │      ╔═══════════════════════════════════════════════╗     │
│     │      ║              共享参数空间                       ║     │
│     │      ║                                               ║     │
│     │      ║    文本优化方向 ←──── 冲突方向 ────→ 图像优化方向  ║     │
│     │      ║                    ╲                        ╱  ║     │
│     │      ║                     ╲                      ╱    ║     │
│     │      ║                      ╲                    ╱     ║     │
│     │      ║                       ╲                  ╱      ║     │
│     │      ║                        ╲                ╱       ║     │
│     │      ╚═══════════════════════════════════════════════════╝     │
│     │                                                         ↑     │
│  图像梯度 ──────────────────────────────────────────→               │
│                                                                     │
│  问题：梯度方向不一致导致训练不稳定                                   │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

5.2 消解策略对比

策略	代表模型	方法	效果
两端分离	Uni-X	编码/解码器独立，中间共享	消除梯度冲突
模态感知路由	ERNIE 5.0	Router感知输入模态	自适应融合
渐进式共享	CogACT	浅层分离，深层共享	平衡效率与效果
梯度协调	MMRL	梯度投影到一致子空间	稳定训练

6. 性能对比与基准

6.1 多模态理解基准

模型	MMMU	MathVista	MMBench	VideoQA
Qwen3-Omni	72.3	68.5	85.2	78.9
InternVL3.5	71.8	67.2	84.1	76.5
ERNIE 5.0	73.1	69.1	86.0	79.8
LLaVA-1.6	65.2	58.3	78.4	68.2

6.2 效率对比

架构类型	推理速度	显存占用	训练成本
混合模态	快	中	低
端到端原生	中	高	高
端到端+MoE	快	中-高	中

7. 未来趋势与挑战

7.1 发展趋势

超稀疏MoE普及：如ERNIE 5.0所示，极稀疏激活将成为主流
原生多模态统一：文本、图像、音频、视频统一token化
RL驱动能力提升：级联RL等方法将成为标配
模态冲突消解：X形架构等设计将更加成熟

7.2 开放挑战

挑战	描述
模态不平衡	如何确保所有模态都得到充分训练
长上下文	多模态长视频/长音频的高效处理
实时性	流式多模态交互的架构支持
评估困难	多模态能力的全面评估标准

8. 相关专题

Vision Transformer (ViT) — 视觉编码基础
Swin Transformer — 层次化视觉表示
MoE架构详解 — 专家混合模型原理
链式推理 — 多模态推理技术

Metaphor

探索