Dynin-Omni：掩码扩散全模态统一大模型

概述

Dynin-Omni是首个基于**掩码扩散（Masked Diffusion）**的全模态（Omnimodal）基础模型，能够在单一架构内统一处理文本、图像、语音的理解与生成，以及视频的理解任务。¹

论文：Dynin-Omni: Omnimodal Unified Large Diffusion Language Model

作者：Jaeik Kim, Woojin Kim, Jihwan Hong等（2026年3月）

核心创新

Dynin-Omni的核心贡献在于原生地将全模态建模形式化为离散共享token空间上的掩码扩散过程，避免了传统方法的以下问题：

方法	问题
自回归统一模型	将异构模态序列化，丢失模态间的并行性和交互性
组合式统一模型	需要外部模态特定解码器的编排，架构复杂
Dynin-Omni	掩码扩散 + 共享离散token空间 = 原生统一

设计动机

现有统一模型的局限

自回归统一模型

自回归（Autoregressive, AR）统一模型将不同模态转换为统一序列进行建模。这种序列化方法存在以下固有缺陷：

丢失并行性：必须按顺序生成，推理延迟随序列长度线性增长
上下文限制：仅能利用前缀上下文，无法获得完整的双向上下文信息
模态冲突：不同模态的数据分布差异大，共享参数难以同时优化

组合式统一模型

组合式方法通过连接预训练的单模态专家模型实现多模态能力：

架构复杂：需要额外的编排层协调各专家模型
交互受限：模态间的深层交互被限制在各模态编码器/解码器内部
部署困难：多模型组合带来显著的工程开销

掩码扩散的优势

掩码扩散语言模型（Masked Diffusion Language Model）提供了一种优雅的替代方案：

双向上下文：在每个去噪步骤中同时看到所有位置的token
并行生成：多个token可同时被预测，不受序列化约束
统一优化：所有模态在共享token空间中进行学习和生成

架构设计

整体架构

┌─────────────────────────────────────────────────────────────────────┐
│                        Dynin-Omni 整体架构                            │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  输入层                                                              │
│  ┌─────────┐    ┌─────────┐    ┌─────────┐    ┌─────────┐        │
│  │  文本   │    │  图像   │    │  语音   │    │  视频   │        │
│  └────┬────┘    └────┬────┘    └────┬────┘    └────┬────┘        │
│       │              │              │              │              │
│       ▼              ▼              ▼              ▼              │
│  ┌───────────┐  ┌───────────┐  ┌───────────┐  ┌───────────┐      │
│  │文本Tokenizer│  │图像Tokenizer│ │语音Tokenizer│ │视频Tokenizer│    │
│  └─────┬─────┘  └─────┬─────┘  └─────┬─────┘  └─────┬─────┘      │
│        │              │              │              │              │
│        └──────────────┼──────────────┼──────────────┘              │
│                       ▼                                              │
│              ┌─────────────────┐                                    │
│              │  共享离散Token空间  │                                  │
│              │ (Unified Vocab)  │                                  │
│              └────────┬────────┘                                    │
│                       │                                              │
│                       ▼                                              │
│  ┌──────────────────────────────────────────────────────────────┐   │
│  │              掩码扩散Transformer (Masked Diffusion LM)       │   │
│  │                                                               │   │
│  │   ┌─────────────────────────────────────────────────────┐    │   │
│  │   │           Bidirectional Attention                   │    │   │
│  │   │         (双向上下文建模)                             │    │   │
│  │   └─────────────────────────────────────────────────────┘    │   │
│  │                                                               │   │
│  │   输入: 带噪token序列 x_t                                    │   │
│  │   输出: 每个位置预测原始token的概率 P(x_0 | x_t)             │   │
│  │                                                               │   │
│  └──────────────────────────────────────────────────────────────┘   │
│                       │                                              │
│                       ▼                                              │
│  ┌──────────────────────────────────────────────────────────────┐   │
│  │                    多阶段训练                                 │   │
│  │  阶段1: 模态预训练 → 阶段2: 模态扩展 → 阶段3: 全模态对齐      │   │
│  └──────────────────────────────────────────────────────────────┘   │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

核心技术组件

1. 共享离散Token空间

Dynin-Omni的核心设计是建立一个统一的离散token空间，将所有模态映射到同一语义空间：

V = V_{text} \cup V_{image} \cup V_{speech} \cup V_{video}

每个模态通过专属的tokenizer映射到此共享空间：

文本：SentencePiece/BPE tokenizer
图像：VQ-VAE或Semantic tokenizer（如Semantic Latent Space）
语音：HuBERT/Whisper encoder + Vector quantization
视频：时空联合tokenizer，压缩为帧级和clip级token

2. 掩码扩散过程

在共享token空间上执行Masked Diffusion过程：

前向过程（Masking）：

q (x_{t} ∣ x_{t - 1}) = MaskTransition (x_{t - 1})

每个时间步随机将一定比例的token替换为[MASK]：

原始: "The cat sat on the mat"
t=1:  "The cat [MASK] on the [MASK]"
t=2:  "The [MASK] [MASK] [MASK] the [MASK]"
...
t=T:  "[MASK] [MASK] [MASK] [MASK] [MASK]"

反向过程（Denoising）：

p_{θ} (x_{t - 1} ∣ x_{t}) = Softmax (f_{θ} (x_{t}, t))

其中 $f_{θ}$ 是双向Transformer网络。

3. 双向上下文建模

与自回归模型不同，掩码扩散在每个去噪步骤中都能看到完整序列的上下文：

p (x_{i} ∣ x_{∖ i}, context) = Attention (x_{i}, x_{∖ i})

这种双向上下文带来以下优势：

全局一致性：生成的各部分之间语义连贯
条件生成：可以同时接收多个模态的条件信号
迭代精炼：支持多步迭代提升生成质量

多阶段训练策略

Dynin-Omni采用三阶段训练策略，逐步构建全模态能力：

阶段1：模态预训练

在单一模态数据上分别预训练各模态的tokenizer和基础表示：

模态	数据	目标
文本	Large-scale text corpus	语言理解与生成
图像	High-quality image dataset	视觉表示学习
语音	Multi-speaker speech data	语音识别与合成
视频	Video-text pairs	时序视觉理解

阶段2：基于模型合并的模态扩展

采用**模型合并（Model Merging）**技术模型合并基础，将单模态专家模型的能力整合到统一架构中：

专家训练：分别训练各模态的专用Transformer
权重合并：使用Task Arithmetic、TIES-Merging等技术合并权重
模态适配：添加轻量级模态嵌入层处理token来源差异

这种基于合并的扩展方式相比联合训练更加稳定，避免了模态间的干扰。

阶段3：全模态对齐

最后阶段进行跨模态对齐训练：

模态对齐：对齐不同模态在共享空间中的表示
指令微调：提升模型遵循多模态指令的能力
人类反馈：结合RLHF/PPO进行偏好对齐

实验结果

基准测试

Dynin-Omni在多个权威基准上取得了优异的成绩：

任务类型	基准	指标	数值
文本理解	GSM8K	Accuracy	87.6
多模态理解	MME-P	Score	1733.6
视频理解	VideoMME	Accuracy	61.4
图像生成	GenEval	Score	0.87
语音识别	LibriSpeech test-clean	WER (%)	2.1

与现有方法对比

文本理解（GSM8K）

模型	方法	GSM8K
GPT-4	AR	92.0
Claude-3.5	AR	91.0
Dynin-Omni	Masked Diffusion	87.6
LLaDA	Masked Diffusion	85.2
MDLM	Masked Diffusion	83.8

多模态理解（MME-P）

模型	方法	MME-P
GPT-4V	AR	1771
Claude-3.5-Vision	AR	1744
Dynin-Omni	Masked Diffusion	1733.6
LLaVA	AR	1511
InstructBLIP	AR	1534

图像生成（GenEval）

模型	方法	GenEval
DALL-E 3	AR + Diffusion	0.89
Stable Diffusion 3	Diffusion	0.88
Dynin-Omni	Masked Diffusion	0.87
Playground 2.5	Diffusion	0.82

关键发现

超越开源统一模型：在所有测试基准上显著优于现有的开源统一模型
竞争模态专家：在多数任务上可与针对单一模态优化的专家系统竞争
掩码扩散有效性：验证了掩码扩散范式在全模态建模中的可行性

应用场景

Dynin-Omni的全模态统一能力使其适用于多种应用场景：

1. 实时全模态系统

多模态对话助手：同时理解和生成文本、图像、语音
智能客服：综合分析用户的文本、语音、视频输入
实时翻译：语音到语音的跨语言翻译

2. 跨模态检索与生成

以文搜图/视频：基于文本描述检索相关视觉内容
图生文描述：为图像和视频自动生成描述
跨模态编辑：结合文本指令编辑图像或视频

3. 具身多模态智能体

机器人感知：整合视觉、语音、文本信息进行决策
自动驾驶：理解道路视频、语音指令、文字导航
AR/VR交互：实时的多模态人机交互

技术优势

相比自回归方法

方面	自回归统一模型	Dynin-Omni
上下文建模	仅前缀	双向完整
生成并行性	顺序	并行
多条件融合	级联条件	并行条件
推理延迟	$O (N)$	$O (lo g N)$

相比组合式方法

方面	组合式统一模型	Dynin-Omni
架构复杂度	多模型协同	单一模型
模态交互深度	表面级	深层融合
部署便利性	复杂	简洁
扩展新模态	需新增专家	微调即可

参考文献

Kim J, Kim W, Hong J, et al. Dynin-Omni: Omnimodal Unified Large Diffusion Language Model. arXiv:2604.00007, 2026. ↩

Metaphor

探索

Dynin-Omni：掩码扩散全模态统一大模型

概述

核心创新

设计动机

现有统一模型的局限

自回归统一模型

组合式统一模型

掩码扩散的优势

架构设计

整体架构

核心技术组件

1. 共享离散Token空间

2. 掩码扩散过程

3. 双向上下文建模

多阶段训练策略

阶段1：模态预训练

阶段2：基于模型合并的模态扩展

阶段3：全模态对齐

实验结果

基准测试

与现有方法对比

文本理解（GSM8K）

多模态理解（MME-P）

图像生成（GenEval）

关键发现

应用场景

1. 实时全模态系统

2. 跨模态检索与生成

3. 具身多模态智能体

技术优势

相比自回归方法

相比组合式方法

相关工作

参考文献

关系图谱

目录

Metaphor

探索

Dynin-Omni：掩码扩散全模态统一大模型

概述

核心创新

设计动机

现有统一模型的局限

自回归统一模型

组合式统一模型

掩码扩散的优势

架构设计

整体架构

核心技术组件

1. 共享离散Token空间

2. 掩码扩散过程

3. 双向上下文建模

多阶段训练策略

阶段1：模态预训练

阶段2：基于模型合并的模态扩展

阶段3：全模态对齐

实验结果

基准测试

与现有方法对比

文本理解（GSM8K）

多模态理解（MME-P）

图像生成（GenEval）

关键发现

应用场景

1. 实时全模态系统

2. 跨模态检索与生成

3. 具身多模态智能体

技术优势

相比自回归方法

相比组合式方法

相关工作

参考文献

Footnotes

关系图谱

目录