1. 引言
连续生成模型在过去几年取得了显著进展,涵盖了多种范式1:
| 范式 | 代表方法 | 典型步数 | 特点 |
|---|---|---|---|
| Multi-step | Diffusion Models, Flow Matching | 8-1000步 | 高表达力,质量好 |
| Few-step | Consistency Models | 1-8步 | 快速生成 |
尽管这些方法都取得了令人印象深刻的效果,但现有工作通常将它们视为不同的范式,导致训练和采样方法各异。这种割裂的视角限制了知识共享和方法进步。
Unified Continuous Generative Models (UCGM) 提出了一个统一框架,首次在理论上证明了few-step目标可以被视为multi-step目标加上一个正则化项。
2. 问题形式化
2.1 Multi-step过程
Score-based Diffusion (SDEs) 学习score函数 来逆转随机扩散过程。采样需要模拟反向时间SDE或其确定性概率流ODE。
Flow Matching (CNFs) 直接回归一个速度场 ,将高斯源概率路径推向数据目标:
2.2 Few-step过程
Consistency Models 试图绕过积分过程,学习一个映射 将轨迹上的任意点直接投影到起点 :
这种”锚定”到固定端点的特性带来了schedule锁定问题。
3. 统一框架
3.1 核心洞察
UCGM的核心洞察是:multi-step和few-step方法实际上共享相同的潜在结构。
设 为时间 的数据分布(从噪声到数据的插值), 为对应的生成轨迹。Multi-step方法预测轨迹的局部属性(如速度或score),而few-step方法预测轨迹的全局属性(如起点)。
3.2 统一目标函数
UCGM推导出统一目标函数:
其中:
- 是多步目标(如Flow Matching损失)
- 是正则化项
- 是平衡参数
关键理论结果:Few-step目标可以被视为多步目标加上一个与轨迹几何相关的正则化项。这一结果首次在理论上建立了两种范式之间的联系。
4. UCGM-T训练器
4.1 设计目标
UCGM-T的目标是高效稳定地训练同时支持multi-step和few-step的模型。
4.2 训练策略
UCGM-T采用以下关键设计:
- 统一梯度计算:单一梯度计算同时适用于multi-step和few-step目标
- 自适应正则化:根据训练阶段动态调整正则化强度
- 课程学习:从multi-step逐渐过渡到few-step
4.3 理论保证
UCGM-T具有以下理论保证:
- 训练稳定性:正则化项有助于稳定训练过程
- 收敛性:目标函数的结构保证收敛到优质解
- 灵活性:可以在训练后自由选择采样步数
5. UCGM-S采样器
5.1 设计目标
UCGM-S是统一采样器,可以高效地使用UCGM-T训练的模型进行生成。
5.2 采样策略
UCGM-S支持:
- 任意步数采样:从1步到数百步均可
- 自适应步长:根据样本质量需求自动调整
- 与现有方法兼容:可以应用到已有模型(如REPA-E)
5.3 实验结果
在ImageNet 256×256数据集上,使用675M参数的Diffusion Transformer:
| 方法 | 步数 | FID |
|---|---|---|
| Multi-step (UCGM-T) | 20步 | 1.30 |
| Few-step (UCGM-T) | 2步 | 1.42 |
| REPA-E (基线) | 250步 | 1.26 |
| REPA-E + UCGM-S | 40步 | 1.06 |
UCGM-S应用到REPA-E后,在减少83%步数的情况下,反而提升了20%的FID。
6. 与现有理论的关系
6.1 与Score Matching的联系
UCGM统一框架与score-matching-sde密切相关。Multi-step目标本质上是在学习score函数或速度场,而正则化项提供了额外的几何约束。
6.2 与Rectified Flow的联系
rectified-flows-optimal-transport中的Rectified Flow提供了特定的最优传输路径。UCGM将其推广到任意路径,同时保持理论保证。
6.3 与Consistency Distillation的联系
Consistency Distillation(一致性蒸馏)可以视为UCGM框架的一个特例,其中正则化项专门设计以鼓励轨迹的一致性。
7. 实践意义
7.1 训练效率
UCGM-T的统一梯度计算显著提高了训练效率。单一前向传播即可计算multi-step和few-step目标。
7.2 部署灵活性
UCGM-S允许在推理时自由选择步数,根据延迟和质量需求动态调整。
7.3 模型复用
UCGM-S可以应用到现有模型(如REPA-E),无需重新训练即可获得效率提升。
8. 结论
UCGM框架通过建立multi-step和few-step生成模型之间的理论联系,为连续生成模型提供了统一视角。这一框架不仅在理论上优美,而且在实践中取得了显著改进:
- Multi-step模型:20步达到1.30 FID
- Few-step模型:2步达到1.42 FID
- 模型增强:40步达到1.06 FID(超越250步基线)
这一工作为未来的生成模型研究开辟了新的方向,强调了不同范式之间的内在联系。
参考文献
Footnotes
-
“Unified Continuous Generative Models.” ICLR 2026. https://openreview.net/pdf?id=xFdT63wm5e ↩