掩码扩散多模态学习

一、概述

掩码扩散（Masked Diffusion）是一种区别于传统连续score-based扩散的生成范式，其核心思想源自NLP领域的BERT（见MAE掩码自编码器）¹。与扩散模型在连续高斯空间中操作不同，掩码扩散直接在离散token空间中进行生成，通过迭代地”解掩码”（unmasking）来恢复被遮蔽的token。

┌───────────────────────────────────────────────────────────────────────┐
│                    掩码扩散 vs 传统扩散对比                            │
├───────────────────────────────────────────────────────────────────────┤
│                                                                       │
│  传统连续扩散：                                                        │
│  x₀ → (加噪声) → x₁ → (加噪声) → ... → xₜ → ... → xₜ → (去噪) → x₀   │
│  空间：高维连续空间（RGB像素、latent空间）                              │
│  目标：预测噪声/ score ∇ₓ log p(xₜ)                                   │
│                                                                       │
│  掩码扩散：                                                            │
│  x₀ → (加掩码) → [M, M, x₀] → (加掩码) → [M, x₀, x₀] → ... → [M,M,M]  │
│  空间：离散token空间（文本词表、图像codebook、语音phoneme）            │
│  目标：预测被掩码位置的原始token                                       │
│                                                                       │
└───────────────────────────────────────────────────────────────────────┘

核心特性

离散空间操作：直接处理分类变量，无需量化-反量化过程
双向上下文建模：生成时可利用完整序列的上下文信息
迭代精细化：支持对已生成内容的修正，而不仅是单向逐步生成
统一生成顺序：不依赖数据的自然因果顺序（相关内容：扩散语言模型）

二、相比自回归模型的优势

传统自回归（Autoregressive, AR）生成模型如GPT系列，在多模态场景中面临独特挑战。掩码扩散提供了系统性解决方案。

2.1 避免误差累积

AR模型的一个致命弱点是误差累积（error accumulation）：早期生成的一个小错误会级联放大，导致后续所有生成质量下降。掩码扩散通过以下机制规避这一问题：

全局上下文同时可用：在每个去噪步骤，模型可以看到当前所有未掩码的token
迭代修正能力：后续步骤可以重新预测和修正之前的生成
置信度自适应：对低置信度区域可以分配更多去噪步骤

2.2 并行计算优势

AR生成本质上是顺序的（ $O (N)$ 串行步骤），而掩码扩散每个去噪步骤可以并行处理所有位置：

AR 复杂度： O (N \cdot T) vs Masked Diffusion ： O (T)

其中 $N$ 为序列长度， $T$ 为去噪步数。这意味着在长序列生成场景下，掩码扩散有显著的速度优势。

2.3 异构模态处理

多模态数据天然缺乏统一的”因果顺序”：

模态	自然顺序	AR适用性
文本	从左到右	✓ 完美匹配
图像	2D空间	✗ 需人为定义（光栅/螺旋）
音频	时间序列	✓ 勉强适用
视频	时空混合	✗ 需要特殊处理

掩码扩散通过统一的mask/unmask机制，将所有模态映射到同一生成范式，消除了模态间的架构差异。

三、Dynin-Omni架构详解

Dynin-Omni（相关背景见多模态LLM架构综述）是阿里巴巴提出的一种全模态统一扩散模型，旨在实现文本、图像、语音、视频的联合生成与理解。²

3.1 多阶段训练策略

Dynin-Omni采用三阶段训练范式，体现了”分而治之”的设计哲学：

┌─────────────────────────────────────────────────────────────────────┐
│                   Dynin-Omni 三阶段训练                              │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  阶段1：模态特定预训练                                               │
│  ┌─────────┐  ┌─────────┐  ┌─────────┐  ┌─────────┐               │
│  │ 文本LLM │  │ 图像VAE │  │ 语音Enc │  │ 视频Enc │               │
│  └────┬────┘  └────┬────┘  └────┬────┘  └────┬────┘               │
│       │            │            │            │                    │
│       └────────────┴────────────┴────────────┘                    │
│                        ↓                                          │
│                   独立token化                                        │
│                                                                     │
│  阶段2：模型合并模态扩展                                              │
│       ┌─────────────────────────────────────┐                      │
│       │        模型合并 (Model Merging)      │                      │
│       │   Task Arithmetic / Fisher Merging   │                      │
│       └─────────────────────────────────────┘                      │
│                        ↓                                          │
│               统一离散token空间                                      │
│                                                                     │
│  阶段3：全模态对齐                                                   │
│       ┌─────────────────────────────────────┐                      │
│       │   Omnimodal Alignment Loss         │                      │
│       │   跨模态对比 + 重建 + 对齐           │                      │
│       └─────────────────────────────────────┘                      │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

3.2 统一离散Token空间

Dynin-Omni的核心创新是将异构模态映射到统一的离散token空间：

模态	Token化方法	Token数量	表示粒度
文本	SentencePiece tokenizer	~32K	subword
图像	VQ-VAE / VQ-GAN	~8K-32K	16×16 patches
语音	Whisper encoder	~32K	30ms frames
视频	3D-VQ-VAE	~8K	时空patches

3.3 统一掩码扩散目标

所有模态共享同一套掩码-去噪机制：

L_{Omni} = E_{t, m, x} [- lo g p_{θ} (x_{masked} ∣ x_{visible}, t)]

其中：

$m$ 是二值掩码向量，标记哪些位置需要预测
$x_{masked}$ 和 $x_{visible}$ 分别是被掩码和可见的token
$t$ 是去噪时间步，编码当前噪声水平

3.4 模型架构

Dynin-Omni的主干是一个Modality-Agnostic Transformer：

位置编码：支持可变长度的1D flattened sequence
注意力机制：全attention（非因果），支持双向信息流动
条件注入：通过cross-attention或adaptive norm注入模态类型和时间步信息
输出头：共享的分类头，输出token logits

四、训练目标详解

4.1 掩码预测目标

核心目标类似BERT的掩码语言建模：

L_{mask} = - i \in M \sum lo g p_{θ} (x_{i}^{(0)} ∣ x_{\ M}^{(t)}, t)

其中 $M$ 是被掩码位置的集合。训练时随机采样掩码比例（通常50%-90%）。

4.2 跨模态重建

为了增强模态间的协同学习，Dynin-Omni引入了跨模态重建任务：

给定图像token，生成对应文本描述
给定文本，生成对应图像
给定视频帧子集，重建缺失帧

4.3 全模态对齐损失

L_{align} = L_{contrastive} + λ_{1} L_{reconstruct} + λ_{2} L_{discriminative}

其中对比损失采用InfoNCE，将同一样本的不同模态表示拉近，不同样本的表示推远。³

五、应用场景

5.1 文本到图像生成

给定文本描述，模型以全mask的图像token序列为起点，逐步解掩码生成图像。

优势：

避免AR模型从左上角开始的”偏向性”
可以全局优化图像布局

5.2 图像到文本理解

给定图像，生成对应的文本描述或回答问题。掩码扩散可以更好地处理图像局部区域与文本的细粒度对应。

5.3 语音识别与合成

ASR：输入语音token，生成对应的文本token
TTS：输入文本token，生成对应的语音token

掩码扩散特别适合语音，因为语音帧之间的时间依赖不如文本严格。

5.4 视频理解与生成

视频的时空复杂性使得AR生成面临挑战。掩码扩散可以：

同时考虑时间维度和空间维度
对关键帧进行条件化，引导全局生成
支持局部修补和编辑

5.5 跨模态检索

统一的token空间使得跨模态检索变得自然：任意模态的query可以检索任意模态的candidate。

六、相关方法

6.1 MaskGIT：掩码生成图像Transformer

MaskGIT是CVPR 2022的工作，首次将BERT-style掩码机制引入图像生成。⁴

核心思想：

双向Transformer作为解码器
迭代解掩码，每步随机选择子集
配合Classifier-Free Guidance提升质量

6.2 MCVD：掩码条件视频扩散

MCVD将掩码扩散扩展到视频领域，支持视频生成、预测和插值。⁵

关键设计：

帧级掩码：随机掩码部分视频帧
条件掩码：给定过去帧，预测未来帧
时空一致的生成

6.3 DiT：扩散Transformer（对比参考）

DiT使用Transformer作为扩散模型的去噪网络，但仍然是连续空间的score-based方法，与离散掩码扩散互补。⁶

特性	DiT (连续扩散)	MaskGIT/Dynin-Omni (掩码扩散)
空间类型	连续 (latent)	离散 (token)
生成顺序	隐式（噪声→清晰）	显式（mask→unmask）
上下文	通常单向	双向
适用场景	图像/视频生成	多模态、序列生成

七、总结与展望

掩码扩散为多模态统一建模提供了一种优雅的范式。通过将所有模态映射到统一的离散token空间，并采用双向上下文建模的迭代去噪机制，掩码扩散模型能够：

消除模态鸿沟：统一的生成目标，统一的网络架构
克服AR限制：避免误差累积，支持并行生成
实现灵活控制：条件生成、局部编辑、多模态引导

未来研究方向包括：

更高效的掩码调度策略
模态特定 vs 模态无关的平衡
与大语言模型的深度融合

参考

Devlin et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL 2019. ↩
Alibaba DAMO Academy. Dynin-Omni: Towards Unified Multimodal Understanding and Generation via Masked Diffusion. 2025. ↩
Radford et al. Learning Transferable Visual Models From Natural Language Supervision. ICML 2021. ↩
Chang et al. MaskGIT: Masked Generative Image Transformer. CVPR 2022. ↩
Voleti et al. MCVD: Masked Conditional Video Diffusion for Prediction, Generation and Interpolation. CVPR 2022. ↩
Peebles & Xie. Scalable Diffusion Models with Transformers. ICCV 2023. ↩

Metaphor

探索

掩码扩散多模态学习

一、概述

核心特性

二、相比自回归模型的优势

2.1 避免误差累积

2.2 并行计算优势

2.3 异构模态处理

三、Dynin-Omni架构详解

3.1 多阶段训练策略

3.2 统一离散Token空间

3.3 统一掩码扩散目标

3.4 模型架构

四、训练目标详解

4.1 掩码预测目标

4.2 跨模态重建

4.3 全模态对齐损失

五、应用场景

5.1 文本到图像生成

5.2 图像到文本理解

5.3 语音识别与合成

5.4 视频理解与生成

5.5 跨模态检索

六、相关方法

6.1 MaskGIT：掩码生成图像Transformer

6.2 MCVD：掩码条件视频扩散

6.3 DiT：扩散Transformer（对比参考）

七、总结与展望

参考

关系图谱

目录

反向链接

Metaphor

探索

掩码扩散多模态学习

一、概述

核心特性

二、相比自回归模型的优势

2.1 避免误差累积

2.2 并行计算优势

2.3 异构模态处理

三、Dynin-Omni架构详解

3.1 多阶段训练策略

3.2 统一离散Token空间

3.3 统一掩码扩散目标

3.4 模型架构

四、训练目标详解

4.1 掩码预测目标

4.2 跨模态重建

4.3 全模态对齐损失

五、应用场景

5.1 文本到图像生成

5.2 图像到文本理解

5.3 语音识别与合成

5.4 视频理解与生成

5.5 跨模态检索

六、相关方法

6.1 MaskGIT：掩码生成图像Transformer

6.2 MCVD：掩码条件视频扩散

6.3 DiT：扩散Transformer（对比参考）

七、总结与展望

参考

Footnotes

关系图谱

目录

反向链接