1. 引言

连续生成模型领域近年来取得了显著进展,主要包括两大类方法:

范式代表方法采样步数核心特征
多步生成模型Diffusion、Flow Matching8-1000步高生成质量,计算成本高
少步生成模型Consistency Models1-8步高效推理,质量略有下降

长期以来,这两类方法被视为独立的范式,拥有各自不同的训练目标和采样算法。UCGM(Unified Continuous Generative Models)框架1首次从理论层面统一了这两类方法,揭示了它们之间的深层数学联系。


2. UCGM核心贡献回顾

UCGM框架的核心贡献可以从四个层面理解:

2.1 统一训练目标

UCGM提出了一个参数化的统一训练目标,通过一致性比率(Consistency Ratio)连接多步和少步范式:

2.2 定理:少步目标 = 多步目标 + 正则化

UCGM首次从理论上证明:

定理 1(少步-多步目标统一):少步生成目标可以形式化为多步目标加上一个一致性正则化项。

这一发现为理解和设计少步生成模型提供了全新的理论基础。

2.3 UCGM-{T,S} 实现

组件全称功能
UCGM-TUnified Continuous Generative Models Trainer统一训练器
UCGM-SUnified Continuous Generative Models Sampler统一采样器

2.4 自提升机制

UCGM-S能够无需额外训练即可提升已有模型的采样效率,实现了模型的自我增强。


3. 一致性比率 的深入分析

3.1 定义

一致性比率(Consistency Ratio) 是UCGM框架的核心超参数,控制模型在多步和少步范式之间的过渡:

  • :纯多步模式(Diffusion/Flow Matching)
  • :少步模式(Consistency Model)

3.2 物理意义

从Flow Map视角看, 描述了时间缩放因子

接近1时,模型学习从接近终点的状态直接投影到起点,这正是Consistency Model的核心思想。

3.3 对训练动态的影响

训练模式特点
多步回归关注局部速度场
混合模式平衡局部与全局
少步倾向强调捷径学习
纯一致性直接端到端映射

3.4 与采样步数的关系

理论上, 与可用采样步数存在以下关系:

其中NFE(Number of Function Evaluations)表示函数评估次数。


4. 多步目标与少步目标的数学统一

4.1 多步目标的数学形式

多步生成模型(如Flow Matching)的目标函数为:

其中:

  • 是时间的插值状态
  • 是网络预测的速度场
  • 是目标速度场

4.2 少步目标的数学形式

Consistency Model的目标函数为:

其中:

  • 是一致性函数
  • 是指数移动平均(EMA)的目标网络参数

4.3 代理统一目标

UCGM提出代理统一目标(Surrogate Unified Objective):

其中权重函数定义为:

4.4 定理1:目标统一定理

定理 1(少步目标 = 多步目标 + 正则化):设 为多步目标, 为UCGM代理目标,则:

其中 是一致性正则化项, 控制正则化强度。

直觉理解:当时,UCGM目标退化为标准的多步目标;当时,正则化项主导,模型被迫学习直接从中间状态投影到终点。

4.5 统一框架的参数化

UCGM框架提供了统一的参数化方式,可以恢复所有已知的连续生成模型:

模型类型
Diffusion0
Flow Matching0
Consistency Model任意任意

5. 代理统一目标的推导

5.1 从Flow Map视角出发

定义Flow Map ,满足:

  1. 身份性
  2. 半群性

5.2 多步目标的几何解释

多步目标关注Flow Map的局部性质

这本质上是要求学习到的速度场与真实Flow Map的瞬时变化率一致。

5.3 少步目标的几何解释

少步目标关注Flow Map的全局捷径

其中是捷径函数,直接从任意时间点映射到终点。

5.4 插值推导

对于,定义缩放后的Flow Map:

代理统一目标可以写成:

展开得:

5.5 连续性假设

假设Flow Map足够光滑,则:

这解释了为什么越接近1,正则化项越重要。


6. UCGM-T训练器的理论保证

6.1 架构

UCGM-T采用双网络架构

┌─────────────────────────────────────────────────────────────┐
│                      UCGM-T 架构                            │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   在线网络 (Online):  F_θ(x_t, t)     ← 梯度更新            │
│                                                             │
│   目标网络 (Target):  F_{θ^-}(x_t, t) ← EMA更新             │
│                           ↓                                 │
│                    θ^- ← ema_decay × θ^- + (1-ema_decay) × θ │
│                                                             │
└─────────────────────────────────────────────────────────────┘

6.2 训练稳定性分析

定理 2(训练稳定性):在UCGM框架下,训练过程是一致收敛的,当且仅当:

  1. EMA衰减率
  2. 目标网络更新滞后于在线网络至少一个梯度步

证明概要

  • 目标网络提供稳定的训练目标,避免了高频振荡
  • EMA机制等价于对网络参数空间进行低通滤波
  • 滞后更新确保目标不会”追逐”在线网络的变化

6.3 收敛性保证

定理 3(渐近收敛):设 为最优参数,则UCGM训练目标满足:

当学习率调度满足

6.4 多步-少步插值性质

定理 4(插值连续性):UCGM-T训练的目标函数在上连续:

即可以通过连续调整实现从多步到少步的平滑过渡。

6.5 增强目标分数机制

UCGM-T引入了增强目标分数机制(Enhanced Target Score):

# 伪代码
if random() < enhanced_ratio:
    # 使用增强目标
    target = alpha(t) * eps - sigma(t) * x0 + enhanced_correction
else:
    # 使用标准目标
    target = alpha(t) * eps - sigma(t) * x0

这进一步稳定了训练过程,尤其是在高值时。


7. UCGM-S采样器的效率分析

7.1 采样算法

UCGM-S采用自适应步长调度

def ucgm_sampling(model, x_T, num_steps=50, lambda_param=0.9):
    """
    UCGM-S 采样算法
    
    Args:
        model: 训练好的UCGM模型
        x_T: 初始噪声
        num_steps: 采样步数
        lambda_param: 一致性比率
    """
    timesteps = torch.linspace(1, 0, num_steps + 1)
    
    x = x_T
    for i in range(num_steps):
        t = timesteps[i]
        t_next = timesteps[i + 1] if i < num_steps - 1 else 0
        
        # 预测Flow Map
        f_theta = model(x, t)
        
        # 自适应更新步长
        dt = t - t_next
        
        # 半群一致性校正
        if i > 0:
            x = (1 - lambda_param * dt) * x + lambda_param * dt * f_theta
        else:
            x = f_theta
    
    return x

7.2 采样效率理论

定理 5(采样效率下界):设 为总生成时间,为采样步数,则UCGM-S的采样效率满足:

其中 是与模型相关的常数。

7.3 离散化误差分析

定理 6(离散化误差界):设为步长,则欧拉离散的累积误差为:

这意味着将步数加倍,误差大约减半。

7.4 半群一致性保证

UCGM-S的关键创新是半群一致性跳跃

这一性质确保了:

  • 步数鲁棒性:对采样步数变化不敏感
  • 组合稳定性:多次组合后保持一致

7.5 与现有采样器的对比

采样器特点效率质量
DDIM确定性跳步中等
DPM-Solver高阶求解较高
UCGM-S自适应 + 半群一致性最高最高

8. 自提升机制的理论基础

8.1 机制描述

UCGM-S的自提升(Self-Boosting)能力允许模型在无需重新训练的情况下提升采样效率。

8.2 理论解释

定理 7(自提升可能性):对于任意已训练的Flow Matching模型,存在一个采样策略使得:

前提是满足半群一致性约束。

8.3 关键洞察

自提升的理论基础在于:

  1. 信息利用不足:原始采样器未充分利用模型的全部信息
  2. 路径优化:通过重新调度采样路径,可以更快收敛
  3. 误差累积最小化:半群一致性校正减少了离散化误差

8.4 实践效果

实验表明,UCGM-S可以将已训练模型的FID从1.26(250步)提升到1.06(40步),提升幅度达15.8%,同时减少**84%**的计算量。


9. 与现有方法的理论联系

9.1 与Diffusion Model的联系

且使用特定参数化时,UCGM退化为标准Diffusion模型:

方面DiffusionUCGM ()
目标Score函数 Flow Map
训练回归噪声回归速度场
采样DDPM/DDIMUCGM-S

9.2 与Flow Matching的联系

且使用线性参数化时,UCGM等价于Flow Matching:

9.3 与Consistency Model的联系

定理 8(一致性模型特例):当时,UCGM目标收敛到Consistency Model目标。

9.4 与其他少步方法的关系

方法UCGM视角特点
sCM + 正则化连续时间一致性
FACM + Flow锚定锚定到Flow
IMM多时间点一致性时序正则化
MeanFlow平均速度建模统计一致性

10. 关键定理汇总

定理1:少步-多步目标统一定理

定理2:训练稳定性定理

训练一致收敛当且仅当 EMA衰减率 且目标网络滞后更新。

定理3:渐近收敛定理

在标准学习率调度下,参数序列几乎必然收敛到最优解

定理4:插值连续性定理

UCGM目标函数在上连续,允许平滑的多步-少步过渡。

定理5:采样效率下限定理

定理6:离散化误差界定理

定理7:自提升可能性定理

存在满足半群一致性约束的采样策略可提升任意Flow Matching模型。

定理8:一致性模型特例定理

时,UCGM收敛到Consistency Model。


11. 实验验证

11.1 多步模型性能

配置NFEFID
ImageNet 256×256201.30
ImageNet 256×256301.21
ImageNet 512×512401.48

11.2 少步模型性能

配置NFEFID
ImageNet 256×25621.42
ImageNet 512×51221.75

11.3 自提升效果

模型原始NFE原始FIDUCGM-S NFEUCGM-S FID
REPA-E2501.26401.06

12. 结论与展望

UCGM框架的核心贡献在于理论层面的统一:首次证明了少步生成目标可以分解为多步目标加上一致性正则化项。这一发现不仅简化了对生成模型的理解,还为设计更高效的算法提供了理论基础。

未来研究方向:

  1. 自适应调度:在训练过程中动态调整一致性比率
  2. 多模态扩展:将统一框架推广到多模态生成任务
  3. 理论深化:建立更严格的收敛性保证

参考文献


相关链接

Footnotes

  1. Sun, P., Jiang, Y., & Lin, T. (2025). Unified Continuous Generative Models. ICLR 2026. https://arxiv.org/abs/2505.07447