引言

扩散模型(Diffusion Models)作为当前生成式人工智能领域的核心技术之一,在图像1、视频2、音频3和文本生成4等任务中展现出卓越的生成能力。然而,扩散模型的采样过程通常需要数百甚至上千次迭代才能生成高质量样本,这一特性严重制约了其在实时应用场景中的部署效率。

扩散模型的采样本质上是求解一个反向随机微分方程(SDE)或常微分方程(ODE)的过程。以标准DDPM(Denoising Diffusion Probabilistic Model)为例,其采样过程需要执行 步迭代,每步都需要调用一次神经网络进行噪声预测5。即使在高性能GPU上,单次前向传播也需要数百毫秒,完整采样可能耗时数分钟,这使得扩散模型难以满足实时交互的需求。

本文系统梳理扩散模型采样加速的主流方法,从训练型和无训练型两大类别展开分析,重点介绍DDIM、一致性模型和轨迹重参数化等关键技术,并探讨采样效率与生成质量之间的权衡关系。

扩散模型采样挑战

迭代性带来的计算瓶颈

扩散模型的核心机制包含前向加噪过程和反向去噪过程。前向过程将真实数据 逐步添加高斯噪声:

经过 步后,任意时间步 的样本可以闭式表达为:

其中

反向去噪过程需要学习一个神经网络 来预测添加的噪声 。标准采样遵循马尔可夫链的递推关系:

其中

关键瓶颈:每步采样必须串行执行,无法并行化。当 时,即使单步耗时仅 秒,完整采样也需 秒以上。此外,大规模模型(如 Stable Diffusion 的 参数)的单步推理成本高昂,进一步加剧了计算负担。

离散化误差与采样步数的权衡

减少采样步数是最直接的加速策略,但会引入离散化误差。设 为采样步数,则:

采样步数CIFAR-10 FID相对耗时
10003.17
10015.30.1×
5035.70.05×

直接减少步数会导致生成质量急剧下降。加速方法的核心目标是在减少步数的同时控制离散化误差的累积

采样加速方法分类

根据是否需要额外训练,扩散模型采样加速方法可分为两大类别:

类别方法代表是否需要重训练优点缺点
训练型知识蒸馏、一致性模型加速效果显著,可达数十倍需要额外训练,计算成本高
无训练型ODE求解器、轨迹重参数化即插即用,兼容预训练模型加速倍数有限

训练型方法

训练型方法通过学习一个更高效的生成网络来替代原始扩散模型,核心思想是将多步采样过程压缩为少数几步甚至单步生成。

知识蒸馏

知识蒸馏(Knowledge Distillation)方法将预训练教师模型的知识迁移到学生模型。典型代表是 Progressive DistillationDMD(Diffusion Model Distillation)6

Progressive Distillation 的核心流程:

  1. 使用教师模型进行 步采样生成样本对
  2. 训练学生模型 直接预测 ,损失函数为:
  3. 每轮蒸馏将采样步数减半,重复直至达到目标步数

DMD 采用双重损失函数:

其中 匹配样本分布, 保持教师模型的预测一致性。

一致性模型

一致性模型(Consistency Models, CM)由 Song 等人于 2023 年提出7,通过引入自一致性约束来实现单步或少数步生成。

核心思想:扩散模型的概率流ODE(Probability Flow ODE)定义了一条从噪声到数据的确定性轨迹。一致性模型要求同一轨迹上的任意点都映射到轨迹的端点:

这意味着对于轨迹上的任意两点 ,应满足:

一致性蒸馏损失

其中 经ODE一步演化后的状态, 是目标网络(EMA更新)的参数。

一致性训练损失

其中 是时间依赖的加权函数。

近期进展:Easy Consistency Tuning (ECT)8 通过从预训练扩散模型微调,显著降低了训练成本。在 CIFAR-10 上,ECT 实现了 2步 FID 2.73 的性能,仅需单卡 A100 训练 1 小时即可达到传统方法数百卡时的效果。Stable Consistency Tuning (SCT)9 则引入方差缩减学习,在 ImageNet-64 上达到 1步 FID 2.42 的新纪录。

无训练方法

无训练方法不修改模型参数,通过改进数值求解器或重参数化采样轨迹来加速采样。

数值求解器改进

DDIM:确定性轨迹加速

去噪扩散隐式模型(Denoising Diffusion Implicit Models, DDIM)10是最具影响力的无训练加速方法。

关键洞察:DDPM的前向过程并非唯一,只要满足边缘分布 不变,任何非马尔可夫前向过程都可构造对应的反向过程。DDIM利用这一性质,将随机采样转换为确定性采样。

DDIM采样公式(设 ):

DDIM的核心优势

  1. 确定性采样 时,相同初始噪声必然产生相同结果,便于复现和编辑
  2. 灵活步长:可跳过中间时间步,实现 10-50 倍加速
  3. 零训练成本:直接使用预训练DDPM模型

更一般化的DDIM(引入 参数):

参数 控制采样过程的随机性,当 时退化为DDIM,当 取DDPM值时退化为原始DDPM。

高阶ODE求解器

DPM-Solver11 和 DPM-Solver++12 利用指数积分器(Exponential Integrator)技术,实现高阶精度采样。

DPM-Solver核心思想:将ODE中的扩散项与漂移项分离,分别处理。

概率流ODE的形式为:

使用指数积分器可以解析求解线性项,仅对非线性项使用数值积分,从而提高效率。

DPM-Solver-2 的更新公式

def dpm_solver_2_step(x_t, t, dt, model):
    # dt 为负的小时间步长
    lambda_t = log_alpha_t / (1 - bar_alpha_t)  # 对数信噪比
    lambda_s = log_alpha_s / (1 - bar_alpha_s)
    
    # 一阶估计
    x_s = x_t + dt * f(x_t, t)
    
    # 二阶修正(使用Heun方法)
    x_s_pred = x_s + 0.5 * dt * [f(x_s, t+dt) - f(x_t, t)]
    
    return x_s_pred
IIA:改进积分近似

改进积分近似(Improved Integration Approximation, IIA)13方法通过优化ODE求解器的系数来提升采样质量。

对于DDIM采样,IIA最小化以下均方误差:

其中 来自细粒度时间步的参考轨迹, 为待优化的系数。实验表明,IIA-DDIM 在 NFE < 25 时显著优于原始DDIM。

轨迹重参数化

轨迹重参数化方法不改变模型本身,而是重新设计从噪声到数据的采样轨迹,使离散轨迹更接近连续ODE的真实解。

采样轨迹优化(VRG)

采样轨迹优化(Variance-Reduction Guidance, VRG)14发现:每步的预测误差会沿轨迹累积,最终影响生成质量。通过优化时间步序列 ,可以降低累积误差的方差。

累积预测误差定义为:

其中 是由轨迹决定的权重, 是第 步的预测误差。VRG通过重新分配采样时间步,使低噪声阶段(高 )承担更小的误差权重。

自适应流路径采样器(A-FloPS)

A-FloPS(Adaptive Flow Path Sampler)15将扩散采样轨迹重参数化为流匹配形式,并引入自适应速度分解。

核心步骤

  1. 轨迹重参数化:将扩散分数转换为流匹配兼容的速度场

  2. 自适应速度分解

残差项的时间变化被主动抑制,从而在极低NFE(如10步)下仍能保持高阶积分的精度优势。

Look-Ahead / Look-Back 轨迹平滑

针对流匹配采样中低信噪比(SNR)区域的轨迹发散问题,Look-Ahead 和 Look-Back 方法16直接在隐空间调整轨迹:

Look-Ahead 策略

其中 是曲率门控权重,平衡下一时间步信息和当前速度场信息。

Look-Back 策略

使用指数移动平均平滑轨迹,减少震荡和过冲。

PFDiff:过去-未来分数融合

PFDiff(Past-Future Diffusion)17创新性地利用过去和未来时间步的分数预测构建”弹簧板”(springboard),结合Nesterov动量启发式更新:

该方法在 Stable Diffusion 上用 10 NFE 达到 FID 13.06,显著优于标准DDIM。

采样效率与质量权衡

效率-质量权衡曲线

不同加速方法在效率与质量之间呈现不同的权衡关系:

FID ↑
  │
  │  * 一致性模型(1-2步)
  │    *
  │    │* DPM-Solver++(10步)
  │    │  *
  │    │  │* DDIM(20步)
  │    │  │  *
  │    │  │  │* A-FloPS(20步)
  │    │  │  │  *
  │────│──│──│──*──────────→ NFE ↓
  │    │  │  │     *
  │    │  │  │     │* 原始DDPM(1000步)
  │    │  │  │     │  *
  └─────────────────────────

权衡的本质

采样加速的本质是在离散化误差计算成本之间寻找最优平衡。设 为采样步数, 为离散化误差, 为单步计算成本:

减少时, 线性降低,但 通常呈非线性增长。高效的加速方法应使 增长尽可能缓慢。

方法选型指南

场景推荐方法理由
实时交互(<1秒)一致性模型单步生成,延迟最低
批量生成(质量优先)DPM-Solver++20-50步可达接近原始质量
已有模型快速实验DDIM无需训练,即插即用
极端少步(5-10步)A-FloPS / VRG轨迹优化弥补离散化误差
条件生成 + 少步PFDiff条件模型上表现优异

未来研究方向

1. 理论深化

尽管各类加速方法在实践中取得了显著成效,其理论基础仍有待完善。主要研究方向包括:

  • 收敛性分析:建立采样步数与生成质量之间严格的数学联系
  • 误差传播机制:深入理解离散化误差如何在多步采样中累积和放大
  • 最优轨迹理论:是否存在理论最优的采样轨迹?如何在给定步数下找到它?

2. 少步生成的质量极限

当前方法在 1-2 步生成时仍难以完全匹配数百步采样的质量上限。关键问题包括:

  • 信息瓶颈:极短轨迹是否固有地丢失了某些生成所需的信息?
  • 模式覆盖 vs 模式搜索:如何设计损失函数,在少步生成中平衡多样性和保真度?

3. 大规模模型的高效采样

随着 Diffusion Transformer(DiT)18、Stable Diffusion 3 等大规模模型的兴起,采样加速面临新的挑战:

  • 缓存与复用:利用相邻时间步之间的特征相似性(如 FORA19
  • 推测采样:借鉴大语言模型中的推测解码技术(如 Morse20
  • 量化加速:结合INT8/INT4量化,在减少内存访问的同时加速推理

4. 跨模态泛化

当前大多数加速方法针对图像生成任务设计。将其泛化至视频、3D、音频等领域需要:

  • 时间维度的轨迹设计
  • 多模态一致性约束
  • 自适应步长调度

5. 条件控制的效率平衡

分类器引导(Classifier Guidance)和无分类器引导(Classifier-Free Guidance)在加速场景下的行为差异尚不完全清楚。条件信息如何影响最优采样轨迹?如何在保持条件可控性的同时进一步加速?

结论

扩散模型采样加速是连接学术研究与实际应用的关键桥梁。本文系统梳理了训练型和无训练型两大类加速方法,重点分析了DDIM确定性采样、一致性模型和轨迹重参数化等核心技术。

核心洞见:扩散采样本质上是求解ODE的问题,不同的数值求解器和轨迹设计会产生截然不同的效率-质量权衡。DDIM揭示了边缘分布约束下的采样自由度和隐式模型潜力;一致性模型展示了通过自一致性约束压缩多步生成为单步的强大能力;轨迹重参数化方法则证明了优化采样轨迹本身的价值。

实践建议

  • 追求极致速度选择一致性模型
  • 已有模型快速实验选择DDIM或DPM-Solver++
  • 极端少步场景选择A-FloPS等轨迹优化方法
  • 多种方法可叠加使用(如一致性模型 + ODE求解器微调)

随着研究的深入,扩散模型的采样效率将持续提升,为实时生成应用开辟更广阔的空间。

参考资料

Footnotes

  1. Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS.

  2. Ho, J., et al. (2022). Imagen Video: High Definition Video Generation with Diffusion Models. arXiv.

  3. Kong, Z., et al. (2021). DiffWave: A Versatile Diffusion Model for Audio Synthesis. ICLR.

  4. Li, Y., et al. (2023). Multi-Subject Video Inpainting with Motion-Guided Diffusion Models. CVPR.

  5. Song, Y., et al. (2021). Score-Based Generative Modeling through Stochastic Differential Equations. ICLR.

  6. Salimans, T., & Ho, J. (2022). Progressive Distillation for Fast Sampling of Diffusion Models. ICLR.

  7. Song, Y., Dhariwal, P., Chen, M., & Sutskever, I. (2023). Consistency Models. ICML.

  8. Chen, M., et al. (2024). Consistency Models Made Easy. NeurIPS.

  9. Zhou, S., et al. (2024). Stable Consistency Tuning: Understanding and Improving Consistency Models. arXiv.

  10. Song, J., Meng, C., & Ermon, S. (2021). Denoising Diffusion Implicit Models. ICLR.

  11. Lu, C., et al. (2022). DPM-Solver: Fast Solver for Generative Modeling with Diffusion Models. NeurIPS.

  12. Lu, C., et al. (2022). DPM-Solver++: Fast Solver for Diffusion Models with High-Order Integrators. arXiv.

  13. Zhao, Y., et al. (2024). Improved Integration Approximation for Accelerated Diffusion Sampling. ICLR.

  14. Wang, G., et al. (2025). Sampling Trajectory Optimization for Diffusion Models. arXiv.

  15. Liu, X., et al. (2025). A-FloPS: Accelerating Diffusion Models via Adaptive Flow Path Sampler. arXiv.

  16. Chen, Y., et al. (2026). Look-Ahead and Look-Back Flows: Training-Free Image Generation with Trajectory Smoothing. arXiv.

  17. Wang, G., et al. (2024). PFDiff: Training-Free Acceleration of Diffusion Models Combining Past and Future Scores. arXiv.

  18. Peebles, P., & Xie, S. (2023). Scalable Diffusion Models with Transformers. ICCV.

  19. Li, H., et al. (2024). FORA: Fast-Forward Caching in Diffusion Transformers. arXiv.

  20. Liu, Y., et al. (2025). Morse: Dual-Sampling for Lossless Acceleration of Diffusion Models. arXiv.