相关主题:
引言
扩散模型(Diffusion Model)在图像、视频和文本生成任务中取得了卓越的成果,但模型规模的持续增长带来了严峻的部署挑战。DiT(Diffusion Transformer)架构的参数规模已达数十亿级别,传统的全精度推理在资源受限场景下面临巨大压力。
模型量化通过将权重和激活从高精度(FP32/FP16)转换为低精度(INT8/INT4/FP4)表示来压缩模型,是扩散模型高效部署的核心技术。然而,扩散模型的去噪过程具有独特的时间步依赖特性,激活分布在不同时间步间存在显著差异,这使得通用的量化方法难以直接应用。
2025年,研究者针对扩散模型的特点提出了多项针对性优化方案,包括通道级粒度自适应、时间步感知分组、极低比特码本量化等创新技术。
1. Q-DiT:DiT后训练量化(CVPR 2025)
Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers1 是CVPR 2025的录用工作,专注于Diffusion Transformer架构的后训练量化。
1.1 问题分析
Q-DiT团队深入分析了DiT架构中量化困难的根本原因,发现了两类关键方差:
空间方差(Spatial Variance):
- 权重矩阵的不同输入通道存在显著幅值差异
- 激活值的通道间分布不均匀,导致统一量化尺度难以同时适配所有通道
时间方差(Temporal Variance):
- 扩散模型的去噪激活在不同时间步表现出显著变化
- 早期时间步(高噪声)和后期时间步(低噪声)的激活分布差异巨大
- 样本间的激活分布也存在变化
1.2 核心方法
Q-DiT提出了两项针对性技术:
自动量化粒度分配(Automatic Quantization Granularity Allocation):
针对输入通道间的空间方差问题,Q-DiT采用更细粒度的量化策略。与传统的层间量化不同,该方法对每个输入通道独立确定量化参数,从而更好地捕捉通道间的幅值差异。
设权重矩阵 ,传统量化使用统一的缩放因子 ,而Q-DiT对每个输出通道 学习独立的缩放因子 :
样本级动态激活量化(Sample-wise Dynamic Activation Quantization):
针对时间步和样本间的时间方差问题,Q-DiT采用动态量化策略。在推理时,根据当前样本和当前时间步的实际激活分布实时计算量化参数,而不是依赖预先校准的静态参数。
对于激活 ,动态量化计算:
其中 根据当前时间步和样本自适应调整。
1.3 实验结果
| 配置 | 任务 | 指标 | 对比基线提升 |
|---|---|---|---|
| W6A8 | ImageNet 512×512 | FID | 降低1.09 |
| W4A8 | ImageNet 512×512 | 图像质量 | 高保真 |
| W4A8 | 视频生成 | 时序一致性 | 保持良好 |
Q-DiT在ImageNet条件下使用W6A8配置,相比基线方法实现了FID 1.09的显著提升。同时,W4A8配置在图像和视频生成任务中均维持了较高的生成质量。
2. 时间步分组量化(arXiv 2503.06930)
Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping2 是arXiv 2025年3月发表的工作,从时间步分析的角度解决了扩散模型量化难题。
2.1 核心洞察
该工作指出,扩散模型量化的核心困难主要来源于时间依赖的通道级异常值(Channel-specific Outliers)。这些异常值表现为:
- 特定通道在某些时间步出现极端幅值
- 异常值分布随去噪过程动态变化
- 传统量化方法中的outlier抑制策略难以处理动态分布
2.2 时间步感知变换策略
针对激活分布的时间步依赖性,研究者提出了时间步感知的平移-缩放策略(Shift-and-Scale Strategy):
对于激活 ,应用时间步依赖的变换:
其中 和 是时间步 相关的缩放因子和平移因子,用于平滑激活分布,使其更适合量化。
2.3 分层时间步聚类
为高效处理大量时间步(通常 ),该方法采用**分层聚类(Hierarchical Clustering)**将去噪时间步划分为若干组:
同一组内的时间步共享相同的量化参数,不同组采用不同的变换策略。这种设计显著减少了需要校准的量化配置数量,同时保持了量化精度。
聚类依据:基于激活分布的统计特性(如均值、方差、异常值比例)对时间步进行相似性度量,将分布相近的时间步归入同一组。
2.4 实验结果
| 配置 | 任务 | 指标 | 性能 |
|---|---|---|---|
| W8A8 | ImageNet 256×256 | FID | 最优 |
| W8A8 | 多种采样步数 | 生成质量 | SOTA |
W8A8配置在ImageNet上达到了最优的FID分数,验证了时间步分组策略的有效性。
3. AQUATIC-Diff:极低比特量化(arXiv 2506.05960)
AQUATIC-Diff: Additive Quantization for Truly Tiny Compressed Diffusion Models3 探索了扩散模型的极低比特压缩边界,发表于arXiv 2025年6月。
3.1 研究动机
传统量化方法在低比特(如W4、W2)时面临严重的质量退化。AQUATIC-Diff引入**加法向量量化(Additive Vector Quantization)**来突破这一瓶颈。
加法向量量化的核心思想是将每个向量表示为多个码本的向量之和:
其中 是第 个码本中的码字, 是码本数量。这种表示方式可以用较少的比特编码更丰富的语义信息。
3.2 码本学习与优化
AQUATIC-Diff采用两阶段训练策略:
第一阶段:码本学习:
通过-means聚类学习多个码本 ,每个码本包含 个码字( 为每码本比特数)。
第二阶段:权重分解:
将原始权重矩阵 分解为多个低秩分量的和:
其中 是第 个码本的嵌入矩阵, 是编码函数。
3.3 帕累托前沿突破
AQUATIC-Diff在多个指标上实现了新的帕累托前沿:
| 模型 | 配置 | sFID | FID | ISC |
|---|---|---|---|---|
| LDM-4 | W4A8 (全精度) | 基线 | 基准 | 基准 |
| LDM-4 | W4A8 (AQUATIC) | 降低1.92 | 竞争力 | 竞争力 |
| LDM-4 | W2A8 | 最优 | 最优 | 最优 |
在ImageNet 20步推理条件下,LDM-4使用W4A8配置的sFID相比全精度基线降低了1.92个点。同时,W2A8配置在FID、sFID和ISC三项指标上均达到了最佳报告性能。
3.4 极低比特优势
传统方法在W4以下比特率时质量严重退化,而AQUATIC-Diff通过加法量化保持了语义完整性:
- W4:与全精度相当的视觉质量
- W2:仍能保持基本的生成能力
- W2A8:首次在极低比特权重下实现实用级生成
4. SANA 1.5:高效缩放与推理优化(ICML 2025)
SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute4 是ICML 2025的工作,虽然主要聚焦于高效训练和推理缩放,但其量化思想对扩散模型压缩具有重要参考价值。
4.1 系统概述
SANA 1.5从1.6B参数扩展到4.8B参数,采用深度增长范式(Depth-growth Paradigm)进行高效训练扩展。系统包含三项关键创新。
4.2 高效训练缩放
深度增长范式(Depth-growth Paradigm):
不同于传统的宽度或深度均匀缩放策略,SANA 1.5采用深度优先的缩放方式:
- 初始阶段:训练较小的深度配置
- 增长阶段:逐步增加网络深度,同时保持其他参数稳定
- 优势:深度缩放相比宽度缩放在生成任务中具有更好的计算效率
这种范式使得训练计算量与模型性能达到更好的平衡。
4.3 模型深度剪枝
区块重要性分析(Block Importance Analysis):
SANA 1.5提出了一种基于重要性的剪枝方法,通过分析每个Transformer块对最终输出的贡献来确定保留的区块:
区块重要性评分:
其中 是第 个区块的输出, 是损失函数。通过累积重要性分数,可以识别并移除贡献较小的区块,实现任意目标尺寸的压缩。
4.4 推理时计算缩放
重复采样策略(Repeated Sampling Strategy):
SANA 1.5采用了一种创新的推理缩放方法——通过重复采样并选择性集成来提升生成质量:
- 生成多个候选样本
- 使用判别器或质量评估器选择最优样本
- 可选的:融合多个样本的中间表示
这种方法将推理计算转化为生成质量的提升,实现了推理时计算资源的高效利用。
4.5 实验结果
| 指标 | 基础模型 | + 推理缩放 |
|---|---|---|
| GenEval分数 | 0.81 | 0.96 |
GenEval分数从0.81提升至0.96,展示了推理时计算缩放的巨大潜力。
技术对比与总结
各方法核心特点
| 方法 | 核心创新 | 主要贡献 | 适用场景 |
|---|---|---|---|
| Q-DiT | 自动粒度分配 + 动态激活量化 | 解决空间/时间方差 | DiT架构高精度量化 |
| 时间步分组 | 时间步聚类 + 平移缩放 | 处理时间依赖异常值 | 细粒度时间步分析 |
| AQUATIC-Diff | 加法向量量化 | 极低比特压缩 | W4/W2超低比特场景 |
| SANA 1.5 | 深度剪枝 + 推理缩放 | 训练/推理联合优化 | 高效部署 |
关键技术趋势
-
时间步感知处理:扩散模型的去噪过程具有内在的时间步依赖性,未来方法需要更精细地建模这种特性
-
粒度细化:从层间量化到通道间量化再到样本级动态量化,粒度不断细化以适应异构分布
-
极低比特探索:AQUATIC-Diff证明了W2甚至更低比特率的可行性,为边缘端部署开辟了新道路
-
联合优化:结合量化、剪枝、知识蒸馏等多种压缩技术的联合优化方案成为研究热点
参考资料
Footnotes
-
Shang, Y., et al. (2025). Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers. CVPR 2025. ↩
-
Wang, L., et al. (2025). Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping. arXiv:2503.06930. ↩
-
Liu, X., et al. (2025). AQUATIC-Diff: Additive Quantization for Truly Tiny Compressed Diffusion Models. arXiv:2506.05960. ↩
-
Chen, J., et al. (2025). SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute. ICML 2025. ↩