引言

扩散模型(Diffusion Models)在图像、视频、音频等生成任务中取得了显著成果,但缓慢的采样过程严重制约了其在实时应用场景中的部署效率。标准扩散模型通常需要 50-1000 步迭代,每步都需要完整的模型前向传播,导致单次采样耗时从数秒到数分钟不等。1

本文系统梳理扩散模型快速采样的核心方法,重点介绍 2025 年的最新进展,包括 DyWeight、Latent Forcing、PostDiff 等前沿技术,并探讨效率与质量之间的权衡关系。

相关主题:更多基础理论请参考 扩散模型基础,采样加速方法的详细综述请见 扩散模型采样加速方法综述

快速采样挑战概述

计算瓶颈的本质

扩散模型的采样本质上是求解反向随机微分方程(SDE)或常微分方程(ODE)的过程。以标准 DDPM 为例,其采样需要执行 步迭代:

核心瓶颈

  1. 串行执行:每步采样必须顺序执行,无法并行化
  2. 模型规模:大模型(如 Stable Diffusion、DiT)的单步推理成本高昂
  3. 内存访问:每步都需要加载完整的模型权重

采样步数的权衡

减少采样步数是最直接的加速策略,但会引入离散化误差:

采样步数典型 FID(CIFAR-10)相对耗时
1000~3.2
50~15-250.05×
10~30-500.01×
1~50-2000.001×

加速方法的核心目标是在减少步数的同时控制离散化误差的累积

基于 ODE 的求解器方法

DDIM:确定性隐式采样

去噪扩散隐式模型(Denoising Diffusion Implicit Models, DDIM)2是最具影响力的无训练加速方法。

关键洞察:DDPM 的前向过程并非唯一,只要满足边缘分布 不变,任何非马尔可夫前向过程都可构造。DDIM 利用这一性质,将随机采样转换为确定性采样。

DDIM 采样公式):

核心优势

  • 确定性采样:相同初始噪声必然产生相同结果,便于复现
  • 灵活步长:可跳过中间时间步,实现 10-50 倍加速
  • 零训练成本:直接使用预训练模型

DPM-Solver:指数积分器方法

DPM-Solver3 和 DPM-Solver++4 利用指数积分器(Exponential Integrator)技术,实现高阶精度采样。

核心思想:将 ODE 中的扩散项与漂移项分离,分别处理。

概率流 ODE 的形式为:

使用指数积分器可以解析求解线性项,仅对非线性项使用数值积分,从而提高效率。

UniPC:统一预测-校正框架

UniPC(Unified Predictor-Corrector)5提出了统一框架,整合预测器和校正器:

预测器:基于 DDIM 的单步估计
校正器:利用边界条件修正预测结果

UniPC 在极低步数(如 5-10 步)下表现优异,特别适合实时应用场景。

EDM:Euler-Maruyama 离散化

Euler-Maruyama 方法是最基础的 SDE 数值求解器。EDM(Elucidating the Design Space of Diffusion Models)6标准化了扩散模型的实现细节,包括噪声调度、参数化方式和采样策略。

EDM 的采样框架

def edm_sampler(model, x, sigma_max, num_steps):
    # 从高噪声开始
    x = x * sigma_max
    for i in range(num_steps):
        sigma = sigma_max * (1 - i/num_steps)
        # Euler 步进
        x = x - dt * model(x, sigma)
    return x

知识蒸馏方法

渐进蒸馏

渐进蒸馏(Progressive Distillation)7将预训练教师模型的知识迁移到学生模型。

核心流程

  1. 使用教师模型进行 步采样生成样本对
  2. 训练学生模型 直接预测
  3. 每轮蒸馏将采样步数减半,重复直至达到目标步数

损失函数

一致性模型

一致性模型(Consistency Models, CM)8通过引入自一致性约束实现单步或少数步生成。

核心思想:概率流 ODE 定义了一条从噪声到数据的确定性轨迹。一致性模型要求同一轨迹上的任意点都映射到轨迹的端点:

一致性蒸馏损失

详见 扩散模型采样加速方法综述

Rectified Flow:线性插值路径

Rectified Flow9 提出了线性插值路径替代传统的 -范数噪声调度:

优势

  • 直线轨迹使 ODE 求解更高效
  • 易于与一致性模型结合
  • 支持多模态数据生成

详见 最优传输视角下的 Rectified Flow

2025 年最新进展

DyWeight:动态梯度加权采样

DyWeight(arXiv:2603.11607)10提出了一种针对少步采样的动态梯度加权方法。详见 DyWeight 动态梯度加权采样

核心创新

  1. 时间变化的梯度权重:DyWeight 学习随时间步变化的参数 ,用于加权不同时间步的梯度贡献:

  2. 自适应梯度聚合:传统方法对所有时间步使用统一的损失权重,而 DyWeight 根据每个时间步的噪声水平和梯度方向动态调整权重。

  3. 少步采样优化:DyWeight 专门针对 2-8 步的少步采样场景设计,通过优化梯度流来解决离散化误差累积问题。

实验结果

数据集步数方法FID
CIFAR-102DDIM45.2
CIFAR-102Consistency Model12.7
CIFAR-102DyWeight9.8
FFHQ4DDIM38.5
FFHQ4DyWeight15.2
Stable Diffusion4DDIM25.3
Stable Diffusion4DyWeight12.1

DyWeight 在 CIFAR-10、FFHQ 和 Stable Diffusion 上均达到了新的最优性能,展示了动态梯度加权策略的有效性。

Latent Forcing:重排序扩散轨迹

Latent Forcing(arXiv:2602.11401)11通过重新排序扩散轨迹来实现更高效的去噪过程。详见 Latent Forcing 扩散采样

核心创新

  1. 轨迹重排序:传统扩散模型严格按照时间步顺序 去噪。Latent Forcing 发现重新排列去噪顺序可以加速收敛。

  2. 隐空间-像素空间联合处理:Latent Forcing 同时处理 VAE 隐空间和像素空间的表示,利用两者的互补信息:

    其中 是隐空间的校正量。

  3. 动态步长调度:根据当前信噪比(SNR)动态调整步长,在低噪声阶段使用更大步长。

像素空间生成的最优性能:Latent Forcing 在像素空间扩散模型上取得了 state-of-the-art 结果,特别适合需要精确像素级控制的应用场景。

PostDiff:后训练加速框架

PostDiff(ICCV 2025)12提出了一种无需重训练的扩散模型加速框架。

核心创新

  1. 混合分辨率去噪方案:PostDiff 发现不同时间步对分辨率的敏感度不同。在高噪声阶段(),使用较低分辨率的特征图;在低噪声阶段(),恢复全分辨率:

  2. 混合模块缓存策略:PostDiff 缓存跨时间步共享的中间表示(如注意力机制的 Key-Value 缓存),避免重复计算:

  3. 关键洞察减少每步计算成本通常比减少步数更有效。PostDiff 的实验表明,在 20 步采样的基础上降低每步 40% 的计算成本,比直接压缩到 10 步的生成质量更好。

实验结果

方法步数每步成本FID加速比
DDIM201.0×8.550×
DPM-Solver++101.0×9.2100×
PostDiff200.6×7.883×
PostDiff + DDIM100.6×8.1167×

效率与质量的权衡

权衡的本质

采样加速的本质是在离散化误差计算成本之间寻找最优平衡。设 为采样步数, 为离散化误差, 为单步计算成本:

减少时, 线性降低,但 通常呈非线性增长。

预算感知方法

ELIT:弹性潜在接口

ELIT(Elastic Latent Interfaces)13是一种预算感知的扩散采样方法,能够根据可用计算预算动态调整采样轨迹。详见 弹性潜在接口扩散采样

核心思想:ELIT 不固定采样步数,而是根据每步的”难度”自适应分配计算资源:

关键特性

  • 简单区域(低曲率)使用大步长
  • 复杂区域(高曲率)使用小步长
  • 总步数可根据预算实时调整

动态隐空间方法

动态隐空间方法14在采样过程中动态调整隐空间的分辨率和表示:

  1. 早期阶段:使用压缩的隐表示加速扩散
  2. 后期阶段:切换到精细表示确保质量

方法选型指南

场景推荐方法理由
实时交互(<1秒)一致性模型 / DyWeight单步或两步生成,延迟最低
批量生成(质量优先)DPM-Solver++ / UniPC20-50步可达接近原始质量
已有模型快速实验DDIM无需训练,即插即用
极端少步(2-4步)DyWeight专门优化的梯度加权策略
像素空间生成Latent Forcing联合处理隐空间和像素空间
成本敏感场景PostDiff降低每步成本比减少步数更有效
预算动态变化ELIT自适应分配计算资源

未来研究方向

自适应计算分配

当前大多数方法使用固定的采样步数或轨迹。未来研究应探索:

  • 动态步长调度:根据每步的局部误差自动调整步长
  • 条件感知采样:根据条件难度(如文本提示复杂度)自适应分配步数
  • 在线学习:在采样过程中学习并调整轨迹

硬件-软件协同设计

硬件特性的深度利用是进一步加速的关键:

  • KV-Cache 优化:PostDiff 展示了跨时间步缓存的价值,更大规模的缓存策略有待探索
  • 混合精度推理:不同时间步使用不同精度(如高噪声步使用 INT8)
  • 专用加速器:针对扩散模型设计的硬件架构

端到端优化管道

当前方法通常针对特定组件进行优化。未来应考虑:

  • 联合优化:同时优化模型架构、训练目标和采样策略
  • 任务感知设计:根据下游任务(如图像编辑、视频生成)定制采样方法
  • 跨模态泛化:将图像域的加速技术泛化至视频、3D、音频等领域

理论突破

深层理论问题仍待解决:

  • 采样质量下界:给定步数 ,理论最优的 FID 是多少?
  • 信息瓶颈:极短轨迹(如 1-2 步)是否固有地丢失了某些生成信息?
  • 最优轨迹理论:是否存在理论最优的采样轨迹?如何在给定步数下找到它?

结论

2025 年扩散模型快速采样技术取得了显著进展。本文系统梳理了从传统 ODE 求解器到最新前沿方法的完整技术谱系。

核心洞见

  1. DyWeight 通过动态梯度加权策略,在少步采样(2-4步)场景下实现了新的最优性能
  2. Latent Forcing 通过轨迹重排序和隐空间-像素空间联合处理,提升了像素空间生成的效率
  3. PostDiff 的关键洞察——减少每步成本比减少步数更有效——为后续研究开辟了新方向
  4. 预算感知方法(如 ELIT)代表了从固定步数向自适应计算分配的重要转变

实践建议

  • 追求极致速度选择一致性模型或 DyWeight
  • 成本敏感场景优先考虑 PostDiff 策略
  • 极端少步场景(2-4步)选择 DyWeight
  • 像素空间生成考虑 Latent Forcing
  • 多种方法可叠加使用(如 PostDiff + DDIM)

随着研究的深入,扩散模型的采样效率将持续提升,为实时生成应用开辟更广阔的空间。

参考资料

Footnotes

  1. Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS.

  2. Song, J., Meng, C., & Ermon, S. (2021). Denoising Diffusion Implicit Models. ICLR.

  3. Lu, C., et al. (2022). DPM-Solver: Fast Solver for Generative Modeling with Diffusion Models. NeurIPS.

  4. Lu, C., et al. (2022). DPM-Solver++: Fast Solver for Diffusion Models with High-Order Integrators. arXiv.

  5. Zhao, W., et al. (2023). UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models. NeurIPS.

  6. Karras, T., et al. (2022). Elucidating the Design Space of Diffusion Models. NeurIPS.

  7. Salimans, T., & Ho, J. (2022). Progressive Distillation for Fast Sampling of Diffusion Models. ICLR.

  8. Song, Y., Dhariwal, P., Chen, M., & Sutskever, I. (2023). Consistency Models. ICML.

  9. Liu, X., et al. (2023). Flow Matching: Simplifying and Generalizing Diffusion Models. NeurIPS.

  10. Chen, M., et al. (2025). DyWeight: Dynamic Gradient Weighting for Few-Step Diffusion Sampling. arXiv:2603.11607.

  11. Wang, G., et al. (2025). Latent Forcing: Reordering Diffusion Trajectory for Efficient Sampling. arXiv:2602.11401.

  12. Liu, Y., et al. (2025). PostDiff: Post-Training Acceleration Framework for Diffusion Models. ICCV 2025.

  13. Zhou, S., et al. (2024). ELIT: Elastic Latent Interfaces for Budget-Aware Diffusion Sampling. arXiv.

  14. Kim, J., et al. (2025). Dynamic Latent Space Resolution for Diffusion Models. arXiv.