引言
扩散模型(Diffusion Models)在图像、视频、音频等生成任务中取得了显著成果,但缓慢的采样过程严重制约了其在实时应用场景中的部署效率。标准扩散模型通常需要 50-1000 步迭代,每步都需要完整的模型前向传播,导致单次采样耗时从数秒到数分钟不等。1
本文系统梳理扩散模型快速采样的核心方法,重点介绍 2025 年的最新进展,包括 DyWeight、Latent Forcing、PostDiff 等前沿技术,并探讨效率与质量之间的权衡关系。
相关主题:更多基础理论请参考 扩散模型基础,采样加速方法的详细综述请见 扩散模型采样加速方法综述。
快速采样挑战概述
计算瓶颈的本质
扩散模型的采样本质上是求解反向随机微分方程(SDE)或常微分方程(ODE)的过程。以标准 DDPM 为例,其采样需要执行 步迭代:
核心瓶颈:
- 串行执行:每步采样必须顺序执行,无法并行化
- 模型规模:大模型(如 Stable Diffusion、DiT)的单步推理成本高昂
- 内存访问:每步都需要加载完整的模型权重
采样步数的权衡
减少采样步数是最直接的加速策略,但会引入离散化误差:
| 采样步数 | 典型 FID(CIFAR-10) | 相对耗时 |
|---|---|---|
| 1000 | ~3.2 | 1× |
| 50 | ~15-25 | 0.05× |
| 10 | ~30-50 | 0.01× |
| 1 | ~50-200 | 0.001× |
加速方法的核心目标是在减少步数的同时控制离散化误差的累积。
基于 ODE 的求解器方法
DDIM:确定性隐式采样
去噪扩散隐式模型(Denoising Diffusion Implicit Models, DDIM)2是最具影响力的无训练加速方法。
关键洞察:DDPM 的前向过程并非唯一,只要满足边缘分布 不变,任何非马尔可夫前向过程都可构造。DDIM 利用这一性质,将随机采样转换为确定性采样。
DDIM 采样公式():
核心优势:
- 确定性采样:相同初始噪声必然产生相同结果,便于复现
- 灵活步长:可跳过中间时间步,实现 10-50 倍加速
- 零训练成本:直接使用预训练模型
DPM-Solver:指数积分器方法
DPM-Solver3 和 DPM-Solver++4 利用指数积分器(Exponential Integrator)技术,实现高阶精度采样。
核心思想:将 ODE 中的扩散项与漂移项分离,分别处理。
概率流 ODE 的形式为:
使用指数积分器可以解析求解线性项,仅对非线性项使用数值积分,从而提高效率。
UniPC:统一预测-校正框架
UniPC(Unified Predictor-Corrector)5提出了统一框架,整合预测器和校正器:
预测器:基于 DDIM 的单步估计
校正器:利用边界条件修正预测结果
UniPC 在极低步数(如 5-10 步)下表现优异,特别适合实时应用场景。
EDM:Euler-Maruyama 离散化
Euler-Maruyama 方法是最基础的 SDE 数值求解器。EDM(Elucidating the Design Space of Diffusion Models)6标准化了扩散模型的实现细节,包括噪声调度、参数化方式和采样策略。
EDM 的采样框架:
def edm_sampler(model, x, sigma_max, num_steps):
# 从高噪声开始
x = x * sigma_max
for i in range(num_steps):
sigma = sigma_max * (1 - i/num_steps)
# Euler 步进
x = x - dt * model(x, sigma)
return x知识蒸馏方法
渐进蒸馏
渐进蒸馏(Progressive Distillation)7将预训练教师模型的知识迁移到学生模型。
核心流程:
- 使用教师模型进行 步采样生成样本对
- 训练学生模型 直接预测
- 每轮蒸馏将采样步数减半,重复直至达到目标步数
损失函数:
一致性模型
一致性模型(Consistency Models, CM)8通过引入自一致性约束实现单步或少数步生成。
核心思想:概率流 ODE 定义了一条从噪声到数据的确定性轨迹。一致性模型要求同一轨迹上的任意点都映射到轨迹的端点:
一致性蒸馏损失:
详见 扩散模型采样加速方法综述。
Rectified Flow:线性插值路径
Rectified Flow9 提出了线性插值路径替代传统的 -范数噪声调度:
优势:
- 直线轨迹使 ODE 求解更高效
- 易于与一致性模型结合
- 支持多模态数据生成
2025 年最新进展
DyWeight:动态梯度加权采样
DyWeight(arXiv:2603.11607)10提出了一种针对少步采样的动态梯度加权方法。详见 DyWeight 动态梯度加权采样。
核心创新:
-
时间变化的梯度权重:DyWeight 学习随时间步变化的参数 ,用于加权不同时间步的梯度贡献:
-
自适应梯度聚合:传统方法对所有时间步使用统一的损失权重,而 DyWeight 根据每个时间步的噪声水平和梯度方向动态调整权重。
-
少步采样优化:DyWeight 专门针对 2-8 步的少步采样场景设计,通过优化梯度流来解决离散化误差累积问题。
实验结果:
| 数据集 | 步数 | 方法 | FID |
|---|---|---|---|
| CIFAR-10 | 2 | DDIM | 45.2 |
| CIFAR-10 | 2 | Consistency Model | 12.7 |
| CIFAR-10 | 2 | DyWeight | 9.8 |
| FFHQ | 4 | DDIM | 38.5 |
| FFHQ | 4 | DyWeight | 15.2 |
| Stable Diffusion | 4 | DDIM | 25.3 |
| Stable Diffusion | 4 | DyWeight | 12.1 |
DyWeight 在 CIFAR-10、FFHQ 和 Stable Diffusion 上均达到了新的最优性能,展示了动态梯度加权策略的有效性。
Latent Forcing:重排序扩散轨迹
Latent Forcing(arXiv:2602.11401)11通过重新排序扩散轨迹来实现更高效的去噪过程。详见 Latent Forcing 扩散采样。
核心创新:
-
轨迹重排序:传统扩散模型严格按照时间步顺序 去噪。Latent Forcing 发现重新排列去噪顺序可以加速收敛。
-
隐空间-像素空间联合处理:Latent Forcing 同时处理 VAE 隐空间和像素空间的表示,利用两者的互补信息:
其中 是隐空间的校正量。
-
动态步长调度:根据当前信噪比(SNR)动态调整步长,在低噪声阶段使用更大步长。
像素空间生成的最优性能:Latent Forcing 在像素空间扩散模型上取得了 state-of-the-art 结果,特别适合需要精确像素级控制的应用场景。
PostDiff:后训练加速框架
PostDiff(ICCV 2025)12提出了一种无需重训练的扩散模型加速框架。
核心创新:
-
混合分辨率去噪方案:PostDiff 发现不同时间步对分辨率的敏感度不同。在高噪声阶段(),使用较低分辨率的特征图;在低噪声阶段(),恢复全分辨率:
-
混合模块缓存策略:PostDiff 缓存跨时间步共享的中间表示(如注意力机制的 Key-Value 缓存),避免重复计算:
-
关键洞察:减少每步计算成本通常比减少步数更有效。PostDiff 的实验表明,在 20 步采样的基础上降低每步 40% 的计算成本,比直接压缩到 10 步的生成质量更好。
实验结果:
| 方法 | 步数 | 每步成本 | FID | 加速比 |
|---|---|---|---|---|
| DDIM | 20 | 1.0× | 8.5 | 50× |
| DPM-Solver++ | 10 | 1.0× | 9.2 | 100× |
| PostDiff | 20 | 0.6× | 7.8 | 83× |
| PostDiff + DDIM | 10 | 0.6× | 8.1 | 167× |
效率与质量的权衡
权衡的本质
采样加速的本质是在离散化误差和计算成本之间寻找最优平衡。设 为采样步数, 为离散化误差, 为单步计算成本:
当 减少时, 线性降低,但 通常呈非线性增长。
预算感知方法
ELIT:弹性潜在接口
ELIT(Elastic Latent Interfaces)13是一种预算感知的扩散采样方法,能够根据可用计算预算动态调整采样轨迹。详见 弹性潜在接口扩散采样。
核心思想:ELIT 不固定采样步数,而是根据每步的”难度”自适应分配计算资源:
关键特性:
- 简单区域(低曲率)使用大步长
- 复杂区域(高曲率)使用小步长
- 总步数可根据预算实时调整
动态隐空间方法
动态隐空间方法14在采样过程中动态调整隐空间的分辨率和表示:
- 早期阶段:使用压缩的隐表示加速扩散
- 后期阶段:切换到精细表示确保质量
方法选型指南
| 场景 | 推荐方法 | 理由 |
|---|---|---|
| 实时交互(<1秒) | 一致性模型 / DyWeight | 单步或两步生成,延迟最低 |
| 批量生成(质量优先) | DPM-Solver++ / UniPC | 20-50步可达接近原始质量 |
| 已有模型快速实验 | DDIM | 无需训练,即插即用 |
| 极端少步(2-4步) | DyWeight | 专门优化的梯度加权策略 |
| 像素空间生成 | Latent Forcing | 联合处理隐空间和像素空间 |
| 成本敏感场景 | PostDiff | 降低每步成本比减少步数更有效 |
| 预算动态变化 | ELIT | 自适应分配计算资源 |
未来研究方向
自适应计算分配
当前大多数方法使用固定的采样步数或轨迹。未来研究应探索:
- 动态步长调度:根据每步的局部误差自动调整步长
- 条件感知采样:根据条件难度(如文本提示复杂度)自适应分配步数
- 在线学习:在采样过程中学习并调整轨迹
硬件-软件协同设计
硬件特性的深度利用是进一步加速的关键:
- KV-Cache 优化:PostDiff 展示了跨时间步缓存的价值,更大规模的缓存策略有待探索
- 混合精度推理:不同时间步使用不同精度(如高噪声步使用 INT8)
- 专用加速器:针对扩散模型设计的硬件架构
端到端优化管道
当前方法通常针对特定组件进行优化。未来应考虑:
- 联合优化:同时优化模型架构、训练目标和采样策略
- 任务感知设计:根据下游任务(如图像编辑、视频生成)定制采样方法
- 跨模态泛化:将图像域的加速技术泛化至视频、3D、音频等领域
理论突破
深层理论问题仍待解决:
- 采样质量下界:给定步数 ,理论最优的 FID 是多少?
- 信息瓶颈:极短轨迹(如 1-2 步)是否固有地丢失了某些生成信息?
- 最优轨迹理论:是否存在理论最优的采样轨迹?如何在给定步数下找到它?
结论
2025 年扩散模型快速采样技术取得了显著进展。本文系统梳理了从传统 ODE 求解器到最新前沿方法的完整技术谱系。
核心洞见:
- DyWeight 通过动态梯度加权策略,在少步采样(2-4步)场景下实现了新的最优性能
- Latent Forcing 通过轨迹重排序和隐空间-像素空间联合处理,提升了像素空间生成的效率
- PostDiff 的关键洞察——减少每步成本比减少步数更有效——为后续研究开辟了新方向
- 预算感知方法(如 ELIT)代表了从固定步数向自适应计算分配的重要转变
实践建议:
- 追求极致速度选择一致性模型或 DyWeight
- 成本敏感场景优先考虑 PostDiff 策略
- 极端少步场景(2-4步)选择 DyWeight
- 像素空间生成考虑 Latent Forcing
- 多种方法可叠加使用(如 PostDiff + DDIM)
随着研究的深入,扩散模型的采样效率将持续提升,为实时生成应用开辟更广阔的空间。
参考资料
Footnotes
-
Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS. ↩
-
Song, J., Meng, C., & Ermon, S. (2021). Denoising Diffusion Implicit Models. ICLR. ↩
-
Lu, C., et al. (2022). DPM-Solver: Fast Solver for Generative Modeling with Diffusion Models. NeurIPS. ↩
-
Lu, C., et al. (2022). DPM-Solver++: Fast Solver for Diffusion Models with High-Order Integrators. arXiv. ↩
-
Zhao, W., et al. (2023). UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models. NeurIPS. ↩
-
Karras, T., et al. (2022). Elucidating the Design Space of Diffusion Models. NeurIPS. ↩
-
Salimans, T., & Ho, J. (2022). Progressive Distillation for Fast Sampling of Diffusion Models. ICLR. ↩
-
Song, Y., Dhariwal, P., Chen, M., & Sutskever, I. (2023). Consistency Models. ICML. ↩
-
Liu, X., et al. (2023). Flow Matching: Simplifying and Generalizing Diffusion Models. NeurIPS. ↩
-
Chen, M., et al. (2025). DyWeight: Dynamic Gradient Weighting for Few-Step Diffusion Sampling. arXiv:2603.11607. ↩
-
Wang, G., et al. (2025). Latent Forcing: Reordering Diffusion Trajectory for Efficient Sampling. arXiv:2602.11401. ↩
-
Liu, Y., et al. (2025). PostDiff: Post-Training Acceleration Framework for Diffusion Models. ICCV 2025. ↩
-
Zhou, S., et al. (2024). ELIT: Elastic Latent Interfaces for Budget-Aware Diffusion Sampling. arXiv. ↩
-
Kim, J., et al. (2025). Dynamic Latent Space Resolution for Diffusion Models. arXiv. ↩