一、概述

掩码扩散(Masked Diffusion)是一种区别于传统连续score-based扩散的生成范式,其核心思想源自NLP领域的BERT(见MAE掩码自编码器1。与扩散模型在连续高斯空间中操作不同,掩码扩散直接在离散token空间中进行生成,通过迭代地”解掩码”(unmasking)来恢复被遮蔽的token。

┌───────────────────────────────────────────────────────────────────────┐
│                    掩码扩散 vs 传统扩散对比                            │
├───────────────────────────────────────────────────────────────────────┤
│                                                                       │
│  传统连续扩散:                                                        │
│  x₀ → (加噪声) → x₁ → (加噪声) → ... → xₜ → ... → xₜ → (去噪) → x₀   │
│  空间:高维连续空间(RGB像素、latent空间)                              │
│  目标:预测噪声/ score ∇ₓ log p(xₜ)                                   │
│                                                                       │
│  掩码扩散:                                                            │
│  x₀ → (加掩码) → [M, M, x₀] → (加掩码) → [M, x₀, x₀] → ... → [M,M,M]  │
│  空间:离散token空间(文本词表、图像codebook、语音phoneme)            │
│  目标:预测被掩码位置的原始token                                       │
│                                                                       │
└───────────────────────────────────────────────────────────────────────┘

核心特性

  1. 离散空间操作:直接处理分类变量,无需量化-反量化过程
  2. 双向上下文建模:生成时可利用完整序列的上下文信息
  3. 迭代精细化:支持对已生成内容的修正,而不仅是单向逐步生成
  4. 统一生成顺序:不依赖数据的自然因果顺序(相关内容:扩散语言模型

二、相比自回归模型的优势

传统自回归(Autoregressive, AR)生成模型如GPT系列,在多模态场景中面临独特挑战。掩码扩散提供了系统性解决方案。

2.1 避免误差累积

AR模型的一个致命弱点是误差累积(error accumulation):早期生成的一个小错误会级联放大,导致后续所有生成质量下降。掩码扩散通过以下机制规避这一问题:

  • 全局上下文同时可用:在每个去噪步骤,模型可以看到当前所有未掩码的token
  • 迭代修正能力:后续步骤可以重新预测和修正之前的生成
  • 置信度自适应:对低置信度区域可以分配更多去噪步骤

2.2 并行计算优势

AR生成本质上是顺序的( 串行步骤),而掩码扩散每个去噪步骤可以并行处理所有位置

其中 为序列长度, 为去噪步数。这意味着在长序列生成场景下,掩码扩散有显著的速度优势。

2.3 异构模态处理

多模态数据天然缺乏统一的”因果顺序”:

模态自然顺序AR适用性
文本从左到右✓ 完美匹配
图像2D空间✗ 需人为定义(光栅/螺旋)
音频时间序列✓ 勉强适用
视频时空混合✗ 需要特殊处理

掩码扩散通过统一的mask/unmask机制,将所有模态映射到同一生成范式,消除了模态间的架构差异。


三、Dynin-Omni架构详解

Dynin-Omni(相关背景见多模态LLM架构综述)是阿里巴巴提出的一种全模态统一扩散模型,旨在实现文本、图像、语音、视频的联合生成与理解。2

3.1 多阶段训练策略

Dynin-Omni采用三阶段训练范式,体现了”分而治之”的设计哲学:

┌─────────────────────────────────────────────────────────────────────┐
│                   Dynin-Omni 三阶段训练                              │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  阶段1:模态特定预训练                                               │
│  ┌─────────┐  ┌─────────┐  ┌─────────┐  ┌─────────┐               │
│  │ 文本LLM │  │ 图像VAE │  │ 语音Enc │  │ 视频Enc │               │
│  └────┬────┘  └────┬────┘  └────┬────┘  └────┬────┘               │
│       │            │            │            │                    │
│       └────────────┴────────────┴────────────┘                    │
│                        ↓                                          │
│                   独立token化                                        │
│                                                                     │
│  阶段2:模型合并模态扩展                                              │
│       ┌─────────────────────────────────────┐                      │
│       │        模型合并 (Model Merging)      │                      │
│       │   Task Arithmetic / Fisher Merging   │                      │
│       └─────────────────────────────────────┘                      │
│                        ↓                                          │
│               统一离散token空间                                      │
│                                                                     │
│  阶段3:全模态对齐                                                   │
│       ┌─────────────────────────────────────┐                      │
│       │   Omnimodal Alignment Loss         │                      │
│       │   跨模态对比 + 重建 + 对齐           │                      │
│       └─────────────────────────────────────┘                      │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

3.2 统一离散Token空间

Dynin-Omni的核心创新是将异构模态映射到统一的离散token空间:

模态Token化方法Token数量表示粒度
文本SentencePiece tokenizer~32Ksubword
图像VQ-VAE / VQ-GAN~8K-32K16×16 patches
语音Whisper encoder~32K30ms frames
视频3D-VQ-VAE~8K时空patches

3.3 统一掩码扩散目标

所有模态共享同一套掩码-去噪机制:

其中:

  • 是二值掩码向量,标记哪些位置需要预测
  • 分别是被掩码和可见的token
  • 是去噪时间步,编码当前噪声水平

3.4 模型架构

Dynin-Omni的主干是一个Modality-Agnostic Transformer

  • 位置编码:支持可变长度的1D flattened sequence
  • 注意力机制:全attention(非因果),支持双向信息流动
  • 条件注入:通过cross-attention或adaptive norm注入模态类型和时间步信息
  • 输出头:共享的分类头,输出token logits

四、训练目标详解

4.1 掩码预测目标

核心目标类似BERT的掩码语言建模:

其中 是被掩码位置的集合。训练时随机采样掩码比例(通常50%-90%)。

4.2 跨模态重建

为了增强模态间的协同学习,Dynin-Omni引入了跨模态重建任务:

  • 给定图像token,生成对应文本描述
  • 给定文本,生成对应图像
  • 给定视频帧子集,重建缺失帧

4.3 全模态对齐损失

其中对比损失采用InfoNCE,将同一样本的不同模态表示拉近,不同样本的表示推远。3


五、应用场景

5.1 文本到图像生成

给定文本描述,模型以全mask的图像token序列为起点,逐步解掩码生成图像。

优势:

  • 避免AR模型从左上角开始的”偏向性”
  • 可以全局优化图像布局

5.2 图像到文本理解

给定图像,生成对应的文本描述或回答问题。掩码扩散可以更好地处理图像局部区域与文本的细粒度对应

5.3 语音识别与合成

  • ASR:输入语音token,生成对应的文本token
  • TTS:输入文本token,生成对应的语音token

掩码扩散特别适合语音,因为语音帧之间的时间依赖不如文本严格。

5.4 视频理解与生成

视频的时空复杂性使得AR生成面临挑战。掩码扩散可以:

  • 同时考虑时间维度和空间维度
  • 对关键帧进行条件化,引导全局生成
  • 支持局部修补和编辑

5.5 跨模态检索

统一的token空间使得跨模态检索变得自然:任意模态的query可以检索任意模态的candidate。


六、相关方法

6.1 MaskGIT:掩码生成图像Transformer

MaskGIT是CVPR 2022的工作,首次将BERT-style掩码机制引入图像生成。4

核心思想:

  • 双向Transformer作为解码器
  • 迭代解掩码,每步随机选择子集
  • 配合Classifier-Free Guidance提升质量

6.2 MCVD:掩码条件视频扩散

MCVD将掩码扩散扩展到视频领域,支持视频生成、预测和插值。5

关键设计:

  • 帧级掩码:随机掩码部分视频帧
  • 条件掩码:给定过去帧,预测未来帧
  • 时空一致的生成

6.3 DiT:扩散Transformer(对比参考)

DiT使用Transformer作为扩散模型的去噪网络,但仍然是连续空间的score-based方法,与离散掩码扩散互补。6

特性DiT (连续扩散)MaskGIT/Dynin-Omni (掩码扩散)
空间类型连续 (latent)离散 (token)
生成顺序隐式(噪声→清晰)显式(mask→unmask)
上下文通常单向双向
适用场景图像/视频生成多模态、序列生成

七、总结与展望

掩码扩散为多模态统一建模提供了一种优雅的范式。通过将所有模态映射到统一的离散token空间,并采用双向上下文建模的迭代去噪机制,掩码扩散模型能够:

  1. 消除模态鸿沟:统一的生成目标,统一的网络架构
  2. 克服AR限制:避免误差累积,支持并行生成
  3. 实现灵活控制:条件生成、局部编辑、多模态引导

未来研究方向包括:

  • 更高效的掩码调度策略
  • 模态特定 vs 模态无关的平衡
  • 与大语言模型的深度融合

参考

Footnotes

  1. Devlin et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL 2019.

  2. Alibaba DAMO Academy. Dynin-Omni: Towards Unified Multimodal Understanding and Generation via Masked Diffusion. 2025.

  3. Radford et al. Learning Transferable Visual Models From Natural Language Supervision. ICML 2021.

  4. Chang et al. MaskGIT: Masked Generative Image Transformer. CVPR 2022.

  5. Voleti et al. MCVD: Masked Conditional Video Diffusion for Prediction, Generation and Interpolation. CVPR 2022.

  6. Peebles & Xie. Scalable Diffusion Models with Transformers. ICCV 2023.