概述

Dynin-Omni是首个基于**掩码扩散(Masked Diffusion)**的全模态(Omnimodal)基础模型,能够在单一架构内统一处理文本、图像、语音的理解与生成,以及视频的理解任务。1

论文Dynin-Omni: Omnimodal Unified Large Diffusion Language Model

作者:Jaeik Kim, Woojin Kim, Jihwan Hong等(2026年3月)

核心创新

Dynin-Omni的核心贡献在于原生地将全模态建模形式化为离散共享token空间上的掩码扩散过程,避免了传统方法的以下问题:

方法问题
自回归统一模型将异构模态序列化,丢失模态间的并行性和交互性
组合式统一模型需要外部模态特定解码器的编排,架构复杂
Dynin-Omni掩码扩散 + 共享离散token空间 = 原生统一

设计动机

现有统一模型的局限

自回归统一模型

自回归(Autoregressive, AR)统一模型将不同模态转换为统一序列进行建模。这种序列化方法存在以下固有缺陷:

  • 丢失并行性:必须按顺序生成,推理延迟随序列长度线性增长
  • 上下文限制:仅能利用前缀上下文,无法获得完整的双向上下文信息
  • 模态冲突:不同模态的数据分布差异大,共享参数难以同时优化

组合式统一模型

组合式方法通过连接预训练的单模态专家模型实现多模态能力:

  • 架构复杂:需要额外的编排层协调各专家模型
  • 交互受限:模态间的深层交互被限制在各模态编码器/解码器内部
  • 部署困难:多模型组合带来显著的工程开销

掩码扩散的优势

掩码扩散语言模型(Masked Diffusion Language Model)提供了一种优雅的替代方案:

  • 双向上下文:在每个去噪步骤中同时看到所有位置的token
  • 并行生成:多个token可同时被预测,不受序列化约束
  • 统一优化:所有模态在共享token空间中进行学习和生成

架构设计

整体架构

┌─────────────────────────────────────────────────────────────────────┐
│                        Dynin-Omni 整体架构                            │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  输入层                                                              │
│  ┌─────────┐    ┌─────────┐    ┌─────────┐    ┌─────────┐        │
│  │  文本   │    │  图像   │    │  语音   │    │  视频   │        │
│  └────┬────┘    └────┬────┘    └────┬────┘    └────┬────┘        │
│       │              │              │              │              │
│       ▼              ▼              ▼              ▼              │
│  ┌───────────┐  ┌───────────┐  ┌───────────┐  ┌───────────┐      │
│  │文本Tokenizer│  │图像Tokenizer│ │语音Tokenizer│ │视频Tokenizer│    │
│  └─────┬─────┘  └─────┬─────┘  └─────┬─────┘  └─────┬─────┘      │
│        │              │              │              │              │
│        └──────────────┼──────────────┼──────────────┘              │
│                       ▼                                              │
│              ┌─────────────────┐                                    │
│              │  共享离散Token空间  │                                  │
│              │ (Unified Vocab)  │                                  │
│              └────────┬────────┘                                    │
│                       │                                              │
│                       ▼                                              │
│  ┌──────────────────────────────────────────────────────────────┐   │
│  │              掩码扩散Transformer (Masked Diffusion LM)       │   │
│  │                                                               │   │
│  │   ┌─────────────────────────────────────────────────────┐    │   │
│  │   │           Bidirectional Attention                   │    │   │
│  │   │         (双向上下文建模)                             │    │   │
│  │   └─────────────────────────────────────────────────────┘    │   │
│  │                                                               │   │
│  │   输入: 带噪token序列 x_t                                    │   │
│  │   输出: 每个位置预测原始token的概率 P(x_0 | x_t)             │   │
│  │                                                               │   │
│  └──────────────────────────────────────────────────────────────┘   │
│                       │                                              │
│                       ▼                                              │
│  ┌──────────────────────────────────────────────────────────────┐   │
│  │                    多阶段训练                                 │   │
│  │  阶段1: 模态预训练 → 阶段2: 模态扩展 → 阶段3: 全模态对齐      │   │
│  └──────────────────────────────────────────────────────────────┘   │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

核心技术组件

1. 共享离散Token空间

Dynin-Omni的核心设计是建立一个统一的离散token空间,将所有模态映射到同一语义空间:

每个模态通过专属的tokenizer映射到此共享空间:

  • 文本:SentencePiece/BPE tokenizer
  • 图像:VQ-VAE或Semantic tokenizer(如Semantic Latent Space
  • 语音:HuBERT/Whisper encoder + Vector quantization
  • 视频:时空联合tokenizer,压缩为帧级和clip级token

2. 掩码扩散过程

在共享token空间上执行Masked Diffusion过程:

前向过程(Masking)

每个时间步随机将一定比例的token替换为[MASK]:

原始: "The cat sat on the mat"
t=1:  "The cat [MASK] on the [MASK]"
t=2:  "The [MASK] [MASK] [MASK] the [MASK]"
...
t=T:  "[MASK] [MASK] [MASK] [MASK] [MASK]"

反向过程(Denoising)

其中 是双向Transformer网络。

3. 双向上下文建模

与自回归模型不同,掩码扩散在每个去噪步骤中都能看到完整序列的上下文:

这种双向上下文带来以下优势:

  • 全局一致性:生成的各部分之间语义连贯
  • 条件生成:可以同时接收多个模态的条件信号
  • 迭代精炼:支持多步迭代提升生成质量

多阶段训练策略

Dynin-Omni采用三阶段训练策略,逐步构建全模态能力:

阶段1:模态预训练

在单一模态数据上分别预训练各模态的tokenizer和基础表示:

模态数据目标
文本Large-scale text corpus语言理解与生成
图像High-quality image dataset视觉表示学习
语音Multi-speaker speech data语音识别与合成
视频Video-text pairs时序视觉理解

阶段2:基于模型合并的模态扩展

采用**模型合并(Model Merging)**技术模型合并基础,将单模态专家模型的能力整合到统一架构中:

  1. 专家训练:分别训练各模态的专用Transformer
  2. 权重合并:使用Task Arithmetic、TIES-Merging等技术合并权重
  3. 模态适配:添加轻量级模态嵌入层处理token来源差异

这种基于合并的扩展方式相比联合训练更加稳定,避免了模态间的干扰。

阶段3:全模态对齐

最后阶段进行跨模态对齐训练:

  • 模态对齐:对齐不同模态在共享空间中的表示
  • 指令微调:提升模型遵循多模态指令的能力
  • 人类反馈:结合RLHF/PPO进行偏好对齐

实验结果

基准测试

Dynin-Omni在多个权威基准上取得了优异的成绩:

任务类型基准指标数值
文本理解GSM8KAccuracy87.6
多模态理解MME-PScore1733.6
视频理解VideoMMEAccuracy61.4
图像生成GenEvalScore0.87
语音识别LibriSpeech test-cleanWER (%)2.1

与现有方法对比

文本理解(GSM8K)

模型方法GSM8K
GPT-4AR92.0
Claude-3.5AR91.0
Dynin-OmniMasked Diffusion87.6
LLaDAMasked Diffusion85.2
MDLMMasked Diffusion83.8

多模态理解(MME-P)

模型方法MME-P
GPT-4VAR1771
Claude-3.5-VisionAR1744
Dynin-OmniMasked Diffusion1733.6
LLaVAAR1511
InstructBLIPAR1534

图像生成(GenEval)

模型方法GenEval
DALL-E 3AR + Diffusion0.89
Stable Diffusion 3Diffusion0.88
Dynin-OmniMasked Diffusion0.87
Playground 2.5Diffusion0.82

关键发现

  1. 超越开源统一模型:在所有测试基准上显著优于现有的开源统一模型
  2. 竞争模态专家:在多数任务上可与针对单一模态优化的专家系统竞争
  3. 掩码扩散有效性:验证了掩码扩散范式在全模态建模中的可行性

应用场景

Dynin-Omni的全模态统一能力使其适用于多种应用场景:

1. 实时全模态系统

  • 多模态对话助手:同时理解和生成文本、图像、语音
  • 智能客服:综合分析用户的文本、语音、视频输入
  • 实时翻译:语音到语音的跨语言翻译

2. 跨模态检索与生成

  • 以文搜图/视频:基于文本描述检索相关视觉内容
  • 图生文描述:为图像和视频自动生成描述
  • 跨模态编辑:结合文本指令编辑图像或视频

3. 具身多模态智能体

  • 机器人感知:整合视觉、语音、文本信息进行决策
  • 自动驾驶:理解道路视频、语音指令、文字导航
  • AR/VR交互:实时的多模态人机交互

技术优势

相比自回归方法

方面自回归统一模型Dynin-Omni
上下文建模仅前缀双向完整
生成并行性顺序并行
多条件融合级联条件并行条件
推理延迟

相比组合式方法

方面组合式统一模型Dynin-Omni
架构复杂度多模型协同单一模型
模态交互深度表面级深层融合
部署便利性复杂简洁
扩展新模态需新增专家微调即可

相关工作


参考文献

Footnotes

  1. Kim J, Kim W, Hong J, et al. Dynin-Omni: Omnimodal Unified Large Diffusion Language Model. arXiv:2604.00007, 2026.