概述
Dynin-Omni是首个基于**掩码扩散(Masked Diffusion)**的全模态(Omnimodal)基础模型,能够在单一架构内统一处理文本、图像、语音的理解与生成,以及视频的理解任务。1
论文:Dynin-Omni: Omnimodal Unified Large Diffusion Language Model
作者:Jaeik Kim, Woojin Kim, Jihwan Hong等(2026年3月)
核心创新
Dynin-Omni的核心贡献在于原生地将全模态建模形式化为离散共享token空间上的掩码扩散过程,避免了传统方法的以下问题:
| 方法 | 问题 |
|---|---|
| 自回归统一模型 | 将异构模态序列化,丢失模态间的并行性和交互性 |
| 组合式统一模型 | 需要外部模态特定解码器的编排,架构复杂 |
| Dynin-Omni | 掩码扩散 + 共享离散token空间 = 原生统一 |
设计动机
现有统一模型的局限
自回归统一模型
自回归(Autoregressive, AR)统一模型将不同模态转换为统一序列进行建模。这种序列化方法存在以下固有缺陷:
- 丢失并行性:必须按顺序生成,推理延迟随序列长度线性增长
- 上下文限制:仅能利用前缀上下文,无法获得完整的双向上下文信息
- 模态冲突:不同模态的数据分布差异大,共享参数难以同时优化
组合式统一模型
组合式方法通过连接预训练的单模态专家模型实现多模态能力:
- 架构复杂:需要额外的编排层协调各专家模型
- 交互受限:模态间的深层交互被限制在各模态编码器/解码器内部
- 部署困难:多模型组合带来显著的工程开销
掩码扩散的优势
掩码扩散语言模型(Masked Diffusion Language Model)提供了一种优雅的替代方案:
- 双向上下文:在每个去噪步骤中同时看到所有位置的token
- 并行生成:多个token可同时被预测,不受序列化约束
- 统一优化:所有模态在共享token空间中进行学习和生成
架构设计
整体架构
┌─────────────────────────────────────────────────────────────────────┐
│ Dynin-Omni 整体架构 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 输入层 │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ 文本 │ │ 图像 │ │ 语音 │ │ 视频 │ │
│ └────┬────┘ └────┬────┘ └────┬────┘ └────┬────┘ │
│ │ │ │ │ │
│ ▼ ▼ ▼ ▼ │
│ ┌───────────┐ ┌───────────┐ ┌───────────┐ ┌───────────┐ │
│ │文本Tokenizer│ │图像Tokenizer│ │语音Tokenizer│ │视频Tokenizer│ │
│ └─────┬─────┘ └─────┬─────┘ └─────┬─────┘ └─────┬─────┘ │
│ │ │ │ │ │
│ └──────────────┼──────────────┼──────────────┘ │
│ ▼ │
│ ┌─────────────────┐ │
│ │ 共享离散Token空间 │ │
│ │ (Unified Vocab) │ │
│ └────────┬────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────────────────────────────────────────────────┐ │
│ │ 掩码扩散Transformer (Masked Diffusion LM) │ │
│ │ │ │
│ │ ┌─────────────────────────────────────────────────────┐ │ │
│ │ │ Bidirectional Attention │ │ │
│ │ │ (双向上下文建模) │ │ │
│ │ └─────────────────────────────────────────────────────┘ │ │
│ │ │ │
│ │ 输入: 带噪token序列 x_t │ │
│ │ 输出: 每个位置预测原始token的概率 P(x_0 | x_t) │ │
│ │ │ │
│ └──────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────────────────────────────────────────────────┐ │
│ │ 多阶段训练 │ │
│ │ 阶段1: 模态预训练 → 阶段2: 模态扩展 → 阶段3: 全模态对齐 │ │
│ └──────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────┘
核心技术组件
1. 共享离散Token空间
Dynin-Omni的核心设计是建立一个统一的离散token空间,将所有模态映射到同一语义空间:
每个模态通过专属的tokenizer映射到此共享空间:
- 文本:SentencePiece/BPE tokenizer
- 图像:VQ-VAE或Semantic tokenizer(如Semantic Latent Space)
- 语音:HuBERT/Whisper encoder + Vector quantization
- 视频:时空联合tokenizer,压缩为帧级和clip级token
2. 掩码扩散过程
在共享token空间上执行Masked Diffusion过程:
前向过程(Masking):
每个时间步随机将一定比例的token替换为[MASK]:
原始: "The cat sat on the mat"
t=1: "The cat [MASK] on the [MASK]"
t=2: "The [MASK] [MASK] [MASK] the [MASK]"
...
t=T: "[MASK] [MASK] [MASK] [MASK] [MASK]"
反向过程(Denoising):
其中 是双向Transformer网络。
3. 双向上下文建模
与自回归模型不同,掩码扩散在每个去噪步骤中都能看到完整序列的上下文:
这种双向上下文带来以下优势:
- 全局一致性:生成的各部分之间语义连贯
- 条件生成:可以同时接收多个模态的条件信号
- 迭代精炼:支持多步迭代提升生成质量
多阶段训练策略
Dynin-Omni采用三阶段训练策略,逐步构建全模态能力:
阶段1:模态预训练
在单一模态数据上分别预训练各模态的tokenizer和基础表示:
| 模态 | 数据 | 目标 |
|---|---|---|
| 文本 | Large-scale text corpus | 语言理解与生成 |
| 图像 | High-quality image dataset | 视觉表示学习 |
| 语音 | Multi-speaker speech data | 语音识别与合成 |
| 视频 | Video-text pairs | 时序视觉理解 |
阶段2:基于模型合并的模态扩展
采用**模型合并(Model Merging)**技术模型合并基础,将单模态专家模型的能力整合到统一架构中:
- 专家训练:分别训练各模态的专用Transformer
- 权重合并:使用Task Arithmetic、TIES-Merging等技术合并权重
- 模态适配:添加轻量级模态嵌入层处理token来源差异
这种基于合并的扩展方式相比联合训练更加稳定,避免了模态间的干扰。
阶段3:全模态对齐
最后阶段进行跨模态对齐训练:
- 模态对齐:对齐不同模态在共享空间中的表示
- 指令微调:提升模型遵循多模态指令的能力
- 人类反馈:结合RLHF/PPO进行偏好对齐
实验结果
基准测试
Dynin-Omni在多个权威基准上取得了优异的成绩:
| 任务类型 | 基准 | 指标 | 数值 |
|---|---|---|---|
| 文本理解 | GSM8K | Accuracy | 87.6 |
| 多模态理解 | MME-P | Score | 1733.6 |
| 视频理解 | VideoMME | Accuracy | 61.4 |
| 图像生成 | GenEval | Score | 0.87 |
| 语音识别 | LibriSpeech test-clean | WER (%) | 2.1 |
与现有方法对比
文本理解(GSM8K)
| 模型 | 方法 | GSM8K |
|---|---|---|
| GPT-4 | AR | 92.0 |
| Claude-3.5 | AR | 91.0 |
| Dynin-Omni | Masked Diffusion | 87.6 |
| LLaDA | Masked Diffusion | 85.2 |
| MDLM | Masked Diffusion | 83.8 |
多模态理解(MME-P)
| 模型 | 方法 | MME-P |
|---|---|---|
| GPT-4V | AR | 1771 |
| Claude-3.5-Vision | AR | 1744 |
| Dynin-Omni | Masked Diffusion | 1733.6 |
| LLaVA | AR | 1511 |
| InstructBLIP | AR | 1534 |
图像生成(GenEval)
| 模型 | 方法 | GenEval |
|---|---|---|
| DALL-E 3 | AR + Diffusion | 0.89 |
| Stable Diffusion 3 | Diffusion | 0.88 |
| Dynin-Omni | Masked Diffusion | 0.87 |
| Playground 2.5 | Diffusion | 0.82 |
关键发现
- 超越开源统一模型:在所有测试基准上显著优于现有的开源统一模型
- 竞争模态专家:在多数任务上可与针对单一模态优化的专家系统竞争
- 掩码扩散有效性:验证了掩码扩散范式在全模态建模中的可行性
应用场景
Dynin-Omni的全模态统一能力使其适用于多种应用场景:
1. 实时全模态系统
- 多模态对话助手:同时理解和生成文本、图像、语音
- 智能客服:综合分析用户的文本、语音、视频输入
- 实时翻译:语音到语音的跨语言翻译
2. 跨模态检索与生成
- 以文搜图/视频:基于文本描述检索相关视觉内容
- 图生文描述:为图像和视频自动生成描述
- 跨模态编辑:结合文本指令编辑图像或视频
3. 具身多模态智能体
- 机器人感知:整合视觉、语音、文本信息进行决策
- 自动驾驶:理解道路视频、语音指令、文字导航
- AR/VR交互:实时的多模态人机交互
技术优势
相比自回归方法
| 方面 | 自回归统一模型 | Dynin-Omni |
|---|---|---|
| 上下文建模 | 仅前缀 | 双向完整 |
| 生成并行性 | 顺序 | 并行 |
| 多条件融合 | 级联条件 | 并行条件 |
| 推理延迟 |
相比组合式方法
| 方面 | 组合式统一模型 | Dynin-Omni |
|---|---|---|
| 架构复杂度 | 多模型协同 | 单一模型 |
| 模态交互深度 | 表面级 | 深层融合 |
| 部署便利性 | 复杂 | 简洁 |
| 扩展新模态 | 需新增专家 | 微调即可 |
相关工作
- 扩散模型基础 — 了解扩散模型的基本原理
- 扩散语言模型 — 离散扩散在语言建模中的应用
- 扩散模型架构 — 从像素空间到潜在空间的架构演进
- LaViDa多模态扩散VLM — 多模态扩散视觉语言模型
- DDPM实现 — 去噪扩散概率模型的代码实现
- 模型合并基础 — 理解Dynin-Omni的模态扩展技术
参考文献
Footnotes
-
Kim J, Kim W, Hong J, et al. Dynin-Omni: Omnimodal Unified Large Diffusion Language Model. arXiv:2604.00007, 2026. ↩