扩散模型快速采样技术（2025年进展）

引言

扩散模型（Diffusion Models）在图像、视频、音频等生成任务中取得了显著成果，但缓慢的采样过程严重制约了其在实时应用场景中的部署效率。标准扩散模型通常需要 50-1000 步迭代，每步都需要完整的模型前向传播，导致单次采样耗时从数秒到数分钟不等。¹

本文系统梳理扩散模型快速采样的核心方法，重点介绍 2025 年的最新进展，包括 DyWeight、Latent Forcing、PostDiff 等前沿技术，并探讨效率与质量之间的权衡关系。

相关主题：更多基础理论请参考扩散模型基础，采样加速方法的详细综述请见扩散模型采样加速方法综述。

快速采样挑战概述

计算瓶颈的本质

扩散模型的采样本质上是求解反向随机微分方程（SDE）或常微分方程（ODE）的过程。以标准 DDPM 为例，其采样需要执行 $T = 1000$ 步迭代：

x_{t - 1} = \frac{1}{α _{t}} (x_{t} - \frac{1 - α _{t}}{1 - α ˉ _{t}} ϵ_{θ} (x_{t}, t)) + σ_{t} ϵ

核心瓶颈：

串行执行：每步采样必须顺序执行，无法并行化
模型规模：大模型（如 Stable Diffusion、DiT）的单步推理成本高昂
内存访问：每步都需要加载完整的模型权重

采样步数的权衡

减少采样步数是最直接的加速策略，但会引入离散化误差：

采样步数	典型 FID（CIFAR-10）	相对耗时
1000	~3.2	1×
50	~15-25	0.05×
10	~30-50	0.01×
1	~50-200	0.001×

加速方法的核心目标是在减少步数的同时控制离散化误差的累积。

基于 ODE 的求解器方法

DDIM：确定性隐式采样

去噪扩散隐式模型（Denoising Diffusion Implicit Models, DDIM）²是最具影响力的无训练加速方法。

关键洞察：DDPM 的前向过程并非唯一，只要满足边缘分布 $q (x_{t} ∣ x_{0})$ 不变，任何非马尔可夫前向过程都可构造。DDIM 利用这一性质，将随机采样转换为确定性采样。

DDIM 采样公式（ $σ_{t} = 0$ ）：

x_{t - 1} = \overset{α}{ˉ}_{t - 1} (\frac{x _{t} - 1 - α ˉ _{t} ϵ _{θ} ( x _{t} , t )}{α ˉ _{t}}) + 1 - \overset{α}{ˉ}_{t - 1} \cdot ϵ_{θ} (x_{t}, t)

核心优势：

确定性采样：相同初始噪声必然产生相同结果，便于复现
灵活步长：可跳过中间时间步，实现 10-50 倍加速
零训练成本：直接使用预训练模型

DPM-Solver：指数积分器方法

DPM-Solver³ 和 DPM-Solver++⁴ 利用指数积分器（Exponential Integrator）技术，实现高阶精度采样。

核心思想：将 ODE 中的扩散项与漂移项分离，分别处理。

概率流 ODE 的形式为：

\frac{d x}{d t} = 线性项 - \frac{α ˙ _{t}}{2 α _{t}} x + 非线性项 \frac{α ˙ _{t}}{2 α _{t}} 1 - \overset{α}{ˉ}_{t} ϵ_{θ} (x, t)

使用指数积分器可以解析求解线性项，仅对非线性项使用数值积分，从而提高效率。

UniPC：统一预测-校正框架

UniPC（Unified Predictor-Corrector）⁵提出了统一框架，整合预测器和校正器：

预测器：基于 DDIM 的单步估计
校正器：利用边界条件修正预测结果

UniPC 在极低步数（如 5-10 步）下表现优异，特别适合实时应用场景。

EDM：Euler-Maruyama 离散化

Euler-Maruyama 方法是最基础的 SDE 数值求解器。EDM（Elucidating the Design Space of Diffusion Models）⁶标准化了扩散模型的实现细节，包括噪声调度、参数化方式和采样策略。

EDM 的采样框架：

def edm_sampler(model, x, sigma_max, num_steps):
    # 从高噪声开始
    x = x * sigma_max
    for i in range(num_steps):
        sigma = sigma_max * (1 - i/num_steps)
        # Euler 步进
        x = x - dt * model(x, sigma)
    return x

知识蒸馏方法

渐进蒸馏

渐进蒸馏（Progressive Distillation）⁷将预训练教师模型的知识迁移到学生模型。

核心流程：

使用教师模型进行 $N$ 步采样生成样本对 $(x_{t}, x_{t - 1})$
训练学生模型 $s_{ϕ}$ 直接预测 $x_{t - 1}$
每轮蒸馏将采样步数减半，重复直至达到目标步数

损失函数：

L (ϕ) = E_{t, x_{0}, ϵ} [∥ x_{t - 1} - s_{ϕ} (x_{t}, t) ∥^{2}]

一致性模型

一致性模型（Consistency Models, CM）⁸通过引入自一致性约束实现单步或少数步生成。

核心思想：概率流 ODE 定义了一条从噪声到数据的确定性轨迹。一致性模型要求同一轨迹上的任意点都映射到轨迹的端点：

f_{θ} (x_{t}) = x_{0}, \forall t \in [0, T]

一致性蒸馏损失：

L_{CD} (θ) = E_{t, ϵ} [∥ f_{θ} (x_{t}) - f_{θ^{-}} (x_{t^{'}}) ∥^{2}]

详见扩散模型采样加速方法综述。

Rectified Flow：线性插值路径

Rectified Flow⁹ 提出了线性插值路径替代传统的 $p$ -范数噪声调度：

x_{t} = (1 - t) \cdot x_{0} + t \cdot ϵ, ϵ \sim N (0, I)

优势：

直线轨迹使 ODE 求解更高效
易于与一致性模型结合
支持多模态数据生成

详见最优传输视角下的 Rectified Flow。

2025 年最新进展

DyWeight：动态梯度加权采样

DyWeight（arXiv:2603.11607）¹⁰提出了一种针对少步采样的动态梯度加权方法。详见 DyWeight 动态梯度加权采样。

核心创新：

时间变化的梯度权重：DyWeight 学习随时间步变化的参数 $ω (t)$ ，用于加权不同时间步的梯度贡献：
$L_{DyWeight} = E_{t, x_{0}, ϵ} [ω (t) \cdot ∥ x_{t - 1} - s_{θ} (x_{t}, t) ∥^{2}]$
自适应梯度聚合：传统方法对所有时间步使用统一的损失权重，而 DyWeight 根据每个时间步的噪声水平和梯度方向动态调整权重。
少步采样优化：DyWeight 专门针对 2-8 步的少步采样场景设计，通过优化梯度流来解决离散化误差累积问题。

实验结果：

数据集	步数	方法	FID
CIFAR-10	2	DDIM	45.2
CIFAR-10	2	Consistency Model	12.7
CIFAR-10	2	DyWeight	9.8
FFHQ	4	DDIM	38.5
FFHQ	4	DyWeight	15.2
Stable Diffusion	4	DDIM	25.3
Stable Diffusion	4	DyWeight	12.1

DyWeight 在 CIFAR-10、FFHQ 和 Stable Diffusion 上均达到了新的最优性能，展示了动态梯度加权策略的有效性。

Latent Forcing：重排序扩散轨迹

Latent Forcing（arXiv:2602.11401）¹¹通过重新排序扩散轨迹来实现更高效的去噪过程。详见 Latent Forcing 扩散采样。

核心创新：

轨迹重排序：传统扩散模型严格按照时间步顺序 $T \to T - 1 \to \dots \to 0$ 去噪。Latent Forcing 发现重新排列去噪顺序可以加速收敛。
隐空间-像素空间联合处理：Latent Forcing 同时处理 VAE 隐空间和像素空间的表示，利用两者的互补信息：
$\tilde{x}_{t} = Decoder (Encoder (x_{t}) + Δ z_{t})$
其中 $Δ z_{t}$ 是隐空间的校正量。
动态步长调度：根据当前信噪比（SNR）动态调整步长，在低噪声阶段使用更大步长。

像素空间生成的最优性能：Latent Forcing 在像素空间扩散模型上取得了 state-of-the-art 结果，特别适合需要精确像素级控制的应用场景。

PostDiff：后训练加速框架

PostDiff（ICCV 2025）¹²提出了一种无需重训练的扩散模型加速框架。

核心创新：

混合分辨率去噪方案：PostDiff 发现不同时间步对分辨率的敏感度不同。在高噪声阶段（ $t > T /2$ ），使用较低分辨率的特征图；在低噪声阶段（ $t \leq T /2$ ），恢复全分辨率：
$\overset{x}{^}_{t}^{(r)} = Downsample (x_{t}) 当 σ_{t} > σ_{threshold}$
混合模块缓存策略：PostDiff 缓存跨时间步共享的中间表示（如注意力机制的 Key-Value 缓存），避免重复计算：
$KVCache_{t} = Concat (KVCache_{t + 1}, Attn (x_{t + 1}))$
关键洞察：减少每步计算成本通常比减少步数更有效。PostDiff 的实验表明，在 20 步采样的基础上降低每步 40% 的计算成本，比直接压缩到 10 步的生成质量更好。

实验结果：

方法	步数	每步成本	FID	加速比
DDIM	20	1.0×	8.5	50×
DPM-Solver++	10	1.0×	9.2	100×
PostDiff	20	0.6×	7.8	83×
PostDiff + DDIM	10	0.6×	8.1	167×

效率与质量的权衡

权衡的本质

采样加速的本质是在离散化误差和计算成本之间寻找最优平衡。设 $N$ 为采样步数， $ϵ_{disc} (N)$ 为离散化误差， $C_{step}$ 为单步计算成本：

C_{total} (N) = N \cdot C_{step}, Quality (N) = f (ϵ_{disc} (N))

当 $N$ 减少时， $C_{total}$ 线性降低，但 $ϵ_{disc} (N)$ 通常呈非线性增长。

预算感知方法

ELIT：弹性潜在接口

ELIT（Elastic Latent Interfaces）¹³是一种预算感知的扩散采样方法，能够根据可用计算预算动态调整采样轨迹。详见弹性潜在接口扩散采样。

核心思想：ELIT 不固定采样步数，而是根据每步的”难度”自适应分配计算资源：

Δ t_{i} = Adapt (x_{i}, ϵ_{pred}, Budget)

关键特性：

简单区域（低曲率）使用大步长
复杂区域（高曲率）使用小步长
总步数可根据预算实时调整

动态隐空间方法

动态隐空间方法¹⁴在采样过程中动态调整隐空间的分辨率和表示：

早期阶段：使用压缩的隐表示加速扩散
后期阶段：切换到精细表示确保质量

方法选型指南

场景	推荐方法	理由
实时交互（<1秒）	一致性模型 / DyWeight	单步或两步生成，延迟最低
批量生成（质量优先）	DPM-Solver++ / UniPC	20-50步可达接近原始质量
已有模型快速实验	DDIM	无需训练，即插即用
极端少步（2-4步）	DyWeight	专门优化的梯度加权策略
像素空间生成	Latent Forcing	联合处理隐空间和像素空间
成本敏感场景	PostDiff	降低每步成本比减少步数更有效
预算动态变化	ELIT	自适应分配计算资源

未来研究方向

自适应计算分配

当前大多数方法使用固定的采样步数或轨迹。未来研究应探索：

动态步长调度：根据每步的局部误差自动调整步长
条件感知采样：根据条件难度（如文本提示复杂度）自适应分配步数
在线学习：在采样过程中学习并调整轨迹

硬件-软件协同设计

硬件特性的深度利用是进一步加速的关键：

KV-Cache 优化：PostDiff 展示了跨时间步缓存的价值，更大规模的缓存策略有待探索
混合精度推理：不同时间步使用不同精度（如高噪声步使用 INT8）
专用加速器：针对扩散模型设计的硬件架构

端到端优化管道

当前方法通常针对特定组件进行优化。未来应考虑：

联合优化：同时优化模型架构、训练目标和采样策略
任务感知设计：根据下游任务（如图像编辑、视频生成）定制采样方法
跨模态泛化：将图像域的加速技术泛化至视频、3D、音频等领域

理论突破

深层理论问题仍待解决：

采样质量下界：给定步数 $N$ ，理论最优的 FID 是多少？
信息瓶颈：极短轨迹（如 1-2 步）是否固有地丢失了某些生成信息？
最优轨迹理论：是否存在理论最优的采样轨迹？如何在给定步数下找到它？

结论

2025 年扩散模型快速采样技术取得了显著进展。本文系统梳理了从传统 ODE 求解器到最新前沿方法的完整技术谱系。

核心洞见：

DyWeight 通过动态梯度加权策略，在少步采样（2-4步）场景下实现了新的最优性能
Latent Forcing 通过轨迹重排序和隐空间-像素空间联合处理，提升了像素空间生成的效率
PostDiff 的关键洞察——减少每步成本比减少步数更有效——为后续研究开辟了新方向
预算感知方法（如 ELIT）代表了从固定步数向自适应计算分配的重要转变

实践建议：

追求极致速度选择一致性模型或 DyWeight
成本敏感场景优先考虑 PostDiff 策略
极端少步场景（2-4步）选择 DyWeight
像素空间生成考虑 Latent Forcing
多种方法可叠加使用（如 PostDiff + DDIM）

随着研究的深入，扩散模型的采样效率将持续提升，为实时生成应用开辟更广阔的空间。

参考资料

Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS. ↩
Song, J., Meng, C., & Ermon, S. (2021). Denoising Diffusion Implicit Models. ICLR. ↩
Lu, C., et al. (2022). DPM-Solver: Fast Solver for Generative Modeling with Diffusion Models. NeurIPS. ↩
Lu, C., et al. (2022). DPM-Solver++: Fast Solver for Diffusion Models with High-Order Integrators. arXiv. ↩
Zhao, W., et al. (2023). UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models. NeurIPS. ↩
Karras, T., et al. (2022). Elucidating the Design Space of Diffusion Models. NeurIPS. ↩
Salimans, T., & Ho, J. (2022). Progressive Distillation for Fast Sampling of Diffusion Models. ICLR. ↩
Song, Y., Dhariwal, P., Chen, M., & Sutskever, I. (2023). Consistency Models. ICML. ↩
Liu, X., et al. (2023). Flow Matching: Simplifying and Generalizing Diffusion Models. NeurIPS. ↩
Chen, M., et al. (2025). DyWeight: Dynamic Gradient Weighting for Few-Step Diffusion Sampling. arXiv:2603.11607. ↩
Wang, G., et al. (2025). Latent Forcing: Reordering Diffusion Trajectory for Efficient Sampling. arXiv:2602.11401. ↩
Liu, Y., et al. (2025). PostDiff: Post-Training Acceleration Framework for Diffusion Models. ICCV 2025. ↩
Zhou, S., et al. (2024). ELIT: Elastic Latent Interfaces for Budget-Aware Diffusion Sampling. arXiv. ↩
Kim, J., et al. (2025). Dynamic Latent Space Resolution for Diffusion Models. arXiv. ↩

Metaphor

探索

扩散模型快速采样技术（2025年进展）

引言

快速采样挑战概述

计算瓶颈的本质

采样步数的权衡

基于 ODE 的求解器方法

DDIM：确定性隐式采样

DPM-Solver：指数积分器方法

UniPC：统一预测-校正框架

EDM：Euler-Maruyama 离散化

知识蒸馏方法

渐进蒸馏

一致性模型

Rectified Flow：线性插值路径

2025 年最新进展

DyWeight：动态梯度加权采样

Latent Forcing：重排序扩散轨迹

PostDiff：后训练加速框架

效率与质量的权衡

权衡的本质

预算感知方法

ELIT：弹性潜在接口

动态隐空间方法

方法选型指南

未来研究方向

自适应计算分配

硬件-软件协同设计

端到端优化管道

理论突破

结论

参考资料

关系图谱

目录

Metaphor

探索

扩散模型快速采样技术（2025年进展）

引言

快速采样挑战概述

计算瓶颈的本质

采样步数的权衡

基于 ODE 的求解器方法

DDIM：确定性隐式采样

DPM-Solver：指数积分器方法

UniPC：统一预测-校正框架

EDM：Euler-Maruyama 离散化

知识蒸馏方法

渐进蒸馏

一致性模型

Rectified Flow：线性插值路径

2025 年最新进展

DyWeight：动态梯度加权采样

Latent Forcing：重排序扩散轨迹

PostDiff：后训练加速框架

效率与质量的权衡

权衡的本质

预算感知方法

ELIT：弹性潜在接口

动态隐空间方法

方法选型指南

未来研究方向

自适应计算分配

硬件-软件协同设计

端到端优化管道

理论突破

结论

参考资料

Footnotes

关系图谱

目录