相关主题:

引言

扩散模型(Diffusion Model)在图像、视频和文本生成任务中取得了卓越的成果,但模型规模的持续增长带来了严峻的部署挑战。DiT(Diffusion Transformer)架构的参数规模已达数十亿级别,传统的全精度推理在资源受限场景下面临巨大压力。

模型量化通过将权重和激活从高精度(FP32/FP16)转换为低精度(INT8/INT4/FP4)表示来压缩模型,是扩散模型高效部署的核心技术。然而,扩散模型的去噪过程具有独特的时间步依赖特性,激活分布在不同时间步间存在显著差异,这使得通用的量化方法难以直接应用。

2025年,研究者针对扩散模型的特点提出了多项针对性优化方案,包括通道级粒度自适应、时间步感知分组、极低比特码本量化等创新技术。


1. Q-DiT:DiT后训练量化(CVPR 2025)

Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers1 是CVPR 2025的录用工作,专注于Diffusion Transformer架构的后训练量化。

1.1 问题分析

Q-DiT团队深入分析了DiT架构中量化困难的根本原因,发现了两类关键方差:

空间方差(Spatial Variance)

  • 权重矩阵的不同输入通道存在显著幅值差异
  • 激活值的通道间分布不均匀,导致统一量化尺度难以同时适配所有通道

时间方差(Temporal Variance)

  • 扩散模型的去噪激活在不同时间步表现出显著变化
  • 早期时间步(高噪声)和后期时间步(低噪声)的激活分布差异巨大
  • 样本间的激活分布也存在变化

1.2 核心方法

Q-DiT提出了两项针对性技术:

自动量化粒度分配(Automatic Quantization Granularity Allocation)
针对输入通道间的空间方差问题,Q-DiT采用更细粒度的量化策略。与传统的层间量化不同,该方法对每个输入通道独立确定量化参数,从而更好地捕捉通道间的幅值差异。

设权重矩阵 ,传统量化使用统一的缩放因子 ,而Q-DiT对每个输出通道 学习独立的缩放因子

样本级动态激活量化(Sample-wise Dynamic Activation Quantization)
针对时间步和样本间的时间方差问题,Q-DiT采用动态量化策略。在推理时,根据当前样本和当前时间步的实际激活分布实时计算量化参数,而不是依赖预先校准的静态参数。

对于激活 ,动态量化计算:

其中 根据当前时间步和样本自适应调整。

1.3 实验结果

配置任务指标对比基线提升
W6A8ImageNet 512×512FID降低1.09
W4A8ImageNet 512×512图像质量高保真
W4A8视频生成时序一致性保持良好

Q-DiT在ImageNet条件下使用W6A8配置,相比基线方法实现了FID 1.09的显著提升。同时,W4A8配置在图像和视频生成任务中均维持了较高的生成质量。


2. 时间步分组量化(arXiv 2503.06930)

Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping2 是arXiv 2025年3月发表的工作,从时间步分析的角度解决了扩散模型量化难题。

2.1 核心洞察

该工作指出,扩散模型量化的核心困难主要来源于时间依赖的通道级异常值(Channel-specific Outliers)。这些异常值表现为:

  • 特定通道在某些时间步出现极端幅值
  • 异常值分布随去噪过程动态变化
  • 传统量化方法中的outlier抑制策略难以处理动态分布

2.2 时间步感知变换策略

针对激活分布的时间步依赖性,研究者提出了时间步感知的平移-缩放策略(Shift-and-Scale Strategy)

对于激活 ,应用时间步依赖的变换:

其中 是时间步 相关的缩放因子和平移因子,用于平滑激活分布,使其更适合量化。

2.3 分层时间步聚类

为高效处理大量时间步(通常 ),该方法采用**分层聚类(Hierarchical Clustering)**将去噪时间步划分为若干组:

同一组内的时间步共享相同的量化参数,不同组采用不同的变换策略。这种设计显著减少了需要校准的量化配置数量,同时保持了量化精度。

聚类依据:基于激活分布的统计特性(如均值、方差、异常值比例)对时间步进行相似性度量,将分布相近的时间步归入同一组。

2.4 实验结果

配置任务指标性能
W8A8ImageNet 256×256FID最优
W8A8多种采样步数生成质量SOTA

W8A8配置在ImageNet上达到了最优的FID分数,验证了时间步分组策略的有效性。


3. AQUATIC-Diff:极低比特量化(arXiv 2506.05960)

AQUATIC-Diff: Additive Quantization for Truly Tiny Compressed Diffusion Models3 探索了扩散模型的极低比特压缩边界,发表于arXiv 2025年6月。

3.1 研究动机

传统量化方法在低比特(如W4、W2)时面临严重的质量退化。AQUATIC-Diff引入**加法向量量化(Additive Vector Quantization)**来突破这一瓶颈。

加法向量量化的核心思想是将每个向量表示为多个码本的向量之和:

其中 是第 个码本中的码字, 是码本数量。这种表示方式可以用较少的比特编码更丰富的语义信息。

3.2 码本学习与优化

AQUATIC-Diff采用两阶段训练策略:

第一阶段:码本学习
通过-means聚类学习多个码本 ,每个码本包含 个码字( 为每码本比特数)。

第二阶段:权重分解
将原始权重矩阵 分解为多个低秩分量的和:

其中 是第 个码本的嵌入矩阵, 是编码函数。

3.3 帕累托前沿突破

AQUATIC-Diff在多个指标上实现了新的帕累托前沿:

模型配置sFIDFIDISC
LDM-4W4A8 (全精度)基线基准基准
LDM-4W4A8 (AQUATIC)降低1.92竞争力竞争力
LDM-4W2A8最优最优最优

在ImageNet 20步推理条件下,LDM-4使用W4A8配置的sFID相比全精度基线降低了1.92个点。同时,W2A8配置在FID、sFID和ISC三项指标上均达到了最佳报告性能。

3.4 极低比特优势

传统方法在W4以下比特率时质量严重退化,而AQUATIC-Diff通过加法量化保持了语义完整性:

  • W4:与全精度相当的视觉质量
  • W2:仍能保持基本的生成能力
  • W2A8:首次在极低比特权重下实现实用级生成

4. SANA 1.5:高效缩放与推理优化(ICML 2025)

SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute4 是ICML 2025的工作,虽然主要聚焦于高效训练和推理缩放,但其量化思想对扩散模型压缩具有重要参考价值。

4.1 系统概述

SANA 1.5从1.6B参数扩展到4.8B参数,采用深度增长范式(Depth-growth Paradigm)进行高效训练扩展。系统包含三项关键创新。

4.2 高效训练缩放

深度增长范式(Depth-growth Paradigm)

不同于传统的宽度或深度均匀缩放策略,SANA 1.5采用深度优先的缩放方式:

  • 初始阶段:训练较小的深度配置
  • 增长阶段:逐步增加网络深度,同时保持其他参数稳定
  • 优势:深度缩放相比宽度缩放在生成任务中具有更好的计算效率

这种范式使得训练计算量与模型性能达到更好的平衡。

4.3 模型深度剪枝

区块重要性分析(Block Importance Analysis)

SANA 1.5提出了一种基于重要性的剪枝方法,通过分析每个Transformer块对最终输出的贡献来确定保留的区块:

区块重要性评分:

其中 是第 个区块的输出, 是损失函数。通过累积重要性分数,可以识别并移除贡献较小的区块,实现任意目标尺寸的压缩。

4.4 推理时计算缩放

重复采样策略(Repeated Sampling Strategy)

SANA 1.5采用了一种创新的推理缩放方法——通过重复采样并选择性集成来提升生成质量:

  1. 生成多个候选样本
  2. 使用判别器或质量评估器选择最优样本
  3. 可选的:融合多个样本的中间表示

这种方法将推理计算转化为生成质量的提升,实现了推理时计算资源的高效利用。

4.5 实验结果

指标基础模型+ 推理缩放
GenEval分数0.810.96

GenEval分数从0.81提升至0.96,展示了推理时计算缩放的巨大潜力。


技术对比与总结

各方法核心特点

方法核心创新主要贡献适用场景
Q-DiT自动粒度分配 + 动态激活量化解决空间/时间方差DiT架构高精度量化
时间步分组时间步聚类 + 平移缩放处理时间依赖异常值细粒度时间步分析
AQUATIC-Diff加法向量量化极低比特压缩W4/W2超低比特场景
SANA 1.5深度剪枝 + 推理缩放训练/推理联合优化高效部署

关键技术趋势

  1. 时间步感知处理:扩散模型的去噪过程具有内在的时间步依赖性,未来方法需要更精细地建模这种特性

  2. 粒度细化:从层间量化到通道间量化再到样本级动态量化,粒度不断细化以适应异构分布

  3. 极低比特探索:AQUATIC-Diff证明了W2甚至更低比特率的可行性,为边缘端部署开辟了新道路

  4. 联合优化:结合量化、剪枝、知识蒸馏等多种压缩技术的联合优化方案成为研究热点


参考资料

Footnotes

  1. Shang, Y., et al. (2025). Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers. CVPR 2025.

  2. Wang, L., et al. (2025). Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping. arXiv:2503.06930.

  3. Liu, X., et al. (2025). AQUATIC-Diff: Additive Quantization for Truly Tiny Compressed Diffusion Models. arXiv:2506.05960.

  4. Chen, J., et al. (2025). SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute. ICML 2025.