一、概述
掩码扩散(Masked Diffusion)是一种区别于传统连续score-based扩散的生成范式,其核心思想源自NLP领域的BERT(见MAE掩码自编码器)1。与扩散模型在连续高斯空间中操作不同,掩码扩散直接在离散token空间中进行生成,通过迭代地”解掩码”(unmasking)来恢复被遮蔽的token。
┌───────────────────────────────────────────────────────────────────────┐
│ 掩码扩散 vs 传统扩散对比 │
├───────────────────────────────────────────────────────────────────────┤
│ │
│ 传统连续扩散: │
│ x₀ → (加噪声) → x₁ → (加噪声) → ... → xₜ → ... → xₜ → (去噪) → x₀ │
│ 空间:高维连续空间(RGB像素、latent空间) │
│ 目标:预测噪声/ score ∇ₓ log p(xₜ) │
│ │
│ 掩码扩散: │
│ x₀ → (加掩码) → [M, M, x₀] → (加掩码) → [M, x₀, x₀] → ... → [M,M,M] │
│ 空间:离散token空间(文本词表、图像codebook、语音phoneme) │
│ 目标:预测被掩码位置的原始token │
│ │
└───────────────────────────────────────────────────────────────────────┘核心特性
- 离散空间操作:直接处理分类变量,无需量化-反量化过程
- 双向上下文建模:生成时可利用完整序列的上下文信息
- 迭代精细化:支持对已生成内容的修正,而不仅是单向逐步生成
- 统一生成顺序:不依赖数据的自然因果顺序(相关内容:扩散语言模型)
二、相比自回归模型的优势
传统自回归(Autoregressive, AR)生成模型如GPT系列,在多模态场景中面临独特挑战。掩码扩散提供了系统性解决方案。
2.1 避免误差累积
AR模型的一个致命弱点是误差累积(error accumulation):早期生成的一个小错误会级联放大,导致后续所有生成质量下降。掩码扩散通过以下机制规避这一问题:
- 全局上下文同时可用:在每个去噪步骤,模型可以看到当前所有未掩码的token
- 迭代修正能力:后续步骤可以重新预测和修正之前的生成
- 置信度自适应:对低置信度区域可以分配更多去噪步骤
2.2 并行计算优势
AR生成本质上是顺序的( 串行步骤),而掩码扩散每个去噪步骤可以并行处理所有位置:
其中 为序列长度, 为去噪步数。这意味着在长序列生成场景下,掩码扩散有显著的速度优势。
2.3 异构模态处理
多模态数据天然缺乏统一的”因果顺序”:
| 模态 | 自然顺序 | AR适用性 |
|---|---|---|
| 文本 | 从左到右 | ✓ 完美匹配 |
| 图像 | 2D空间 | ✗ 需人为定义(光栅/螺旋) |
| 音频 | 时间序列 | ✓ 勉强适用 |
| 视频 | 时空混合 | ✗ 需要特殊处理 |
掩码扩散通过统一的mask/unmask机制,将所有模态映射到同一生成范式,消除了模态间的架构差异。
三、Dynin-Omni架构详解
Dynin-Omni(相关背景见多模态LLM架构综述)是阿里巴巴提出的一种全模态统一扩散模型,旨在实现文本、图像、语音、视频的联合生成与理解。2
3.1 多阶段训练策略
Dynin-Omni采用三阶段训练范式,体现了”分而治之”的设计哲学:
┌─────────────────────────────────────────────────────────────────────┐
│ Dynin-Omni 三阶段训练 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 阶段1:模态特定预训练 │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ 文本LLM │ │ 图像VAE │ │ 语音Enc │ │ 视频Enc │ │
│ └────┬────┘ └────┬────┘ └────┬────┘ └────┬────┘ │
│ │ │ │ │ │
│ └────────────┴────────────┴────────────┘ │
│ ↓ │
│ 独立token化 │
│ │
│ 阶段2:模型合并模态扩展 │
│ ┌─────────────────────────────────────┐ │
│ │ 模型合并 (Model Merging) │ │
│ │ Task Arithmetic / Fisher Merging │ │
│ └─────────────────────────────────────┘ │
│ ↓ │
│ 统一离散token空间 │
│ │
│ 阶段3:全模态对齐 │
│ ┌─────────────────────────────────────┐ │
│ │ Omnimodal Alignment Loss │ │
│ │ 跨模态对比 + 重建 + 对齐 │ │
│ └─────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────┘3.2 统一离散Token空间
Dynin-Omni的核心创新是将异构模态映射到统一的离散token空间:
| 模态 | Token化方法 | Token数量 | 表示粒度 |
|---|---|---|---|
| 文本 | SentencePiece tokenizer | ~32K | subword |
| 图像 | VQ-VAE / VQ-GAN | ~8K-32K | 16×16 patches |
| 语音 | Whisper encoder | ~32K | 30ms frames |
| 视频 | 3D-VQ-VAE | ~8K | 时空patches |
3.3 统一掩码扩散目标
所有模态共享同一套掩码-去噪机制:
其中:
- 是二值掩码向量,标记哪些位置需要预测
- 和 分别是被掩码和可见的token
- 是去噪时间步,编码当前噪声水平
3.4 模型架构
Dynin-Omni的主干是一个Modality-Agnostic Transformer:
- 位置编码:支持可变长度的1D flattened sequence
- 注意力机制:全attention(非因果),支持双向信息流动
- 条件注入:通过cross-attention或adaptive norm注入模态类型和时间步信息
- 输出头:共享的分类头,输出token logits
四、训练目标详解
4.1 掩码预测目标
核心目标类似BERT的掩码语言建模:
其中 是被掩码位置的集合。训练时随机采样掩码比例(通常50%-90%)。
4.2 跨模态重建
为了增强模态间的协同学习,Dynin-Omni引入了跨模态重建任务:
- 给定图像token,生成对应文本描述
- 给定文本,生成对应图像
- 给定视频帧子集,重建缺失帧
4.3 全模态对齐损失
其中对比损失采用InfoNCE,将同一样本的不同模态表示拉近,不同样本的表示推远。3
五、应用场景
5.1 文本到图像生成
给定文本描述,模型以全mask的图像token序列为起点,逐步解掩码生成图像。
优势:
- 避免AR模型从左上角开始的”偏向性”
- 可以全局优化图像布局
5.2 图像到文本理解
给定图像,生成对应的文本描述或回答问题。掩码扩散可以更好地处理图像局部区域与文本的细粒度对应。
5.3 语音识别与合成
- ASR:输入语音token,生成对应的文本token
- TTS:输入文本token,生成对应的语音token
掩码扩散特别适合语音,因为语音帧之间的时间依赖不如文本严格。
5.4 视频理解与生成
视频的时空复杂性使得AR生成面临挑战。掩码扩散可以:
- 同时考虑时间维度和空间维度
- 对关键帧进行条件化,引导全局生成
- 支持局部修补和编辑
5.5 跨模态检索
统一的token空间使得跨模态检索变得自然:任意模态的query可以检索任意模态的candidate。
六、相关方法
6.1 MaskGIT:掩码生成图像Transformer
MaskGIT是CVPR 2022的工作,首次将BERT-style掩码机制引入图像生成。4
核心思想:
- 双向Transformer作为解码器
- 迭代解掩码,每步随机选择子集
- 配合Classifier-Free Guidance提升质量
6.2 MCVD:掩码条件视频扩散
MCVD将掩码扩散扩展到视频领域,支持视频生成、预测和插值。5
关键设计:
- 帧级掩码:随机掩码部分视频帧
- 条件掩码:给定过去帧,预测未来帧
- 时空一致的生成
6.3 DiT:扩散Transformer(对比参考)
DiT使用Transformer作为扩散模型的去噪网络,但仍然是连续空间的score-based方法,与离散掩码扩散互补。6
| 特性 | DiT (连续扩散) | MaskGIT/Dynin-Omni (掩码扩散) |
|---|---|---|
| 空间类型 | 连续 (latent) | 离散 (token) |
| 生成顺序 | 隐式(噪声→清晰) | 显式(mask→unmask) |
| 上下文 | 通常单向 | 双向 |
| 适用场景 | 图像/视频生成 | 多模态、序列生成 |
七、总结与展望
掩码扩散为多模态统一建模提供了一种优雅的范式。通过将所有模态映射到统一的离散token空间,并采用双向上下文建模的迭代去噪机制,掩码扩散模型能够:
- 消除模态鸿沟:统一的生成目标,统一的网络架构
- 克服AR限制:避免误差累积,支持并行生成
- 实现灵活控制:条件生成、局部编辑、多模态引导
未来研究方向包括:
- 更高效的掩码调度策略
- 模态特定 vs 模态无关的平衡
- 与大语言模型的深度融合
参考
Footnotes
-
Devlin et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL 2019. ↩
-
Alibaba DAMO Academy. Dynin-Omni: Towards Unified Multimodal Understanding and Generation via Masked Diffusion. 2025. ↩
-
Radford et al. Learning Transferable Visual Models From Natural Language Supervision. ICML 2021. ↩
-
Chang et al. MaskGIT: Masked Generative Image Transformer. CVPR 2022. ↩
-
Voleti et al. MCVD: Masked Conditional Video Diffusion for Prediction, Generation and Interpolation. CVPR 2022. ↩
-
Peebles & Xie. Scalable Diffusion Models with Transformers. ICCV 2023. ↩