引言
扩散模型(Diffusion Models)作为当前最流行的生成范式,能够将条件信息(如文本提示)注入生成路径,引导潜在变量向期望方向演化。然而,现有的文生图扩散模型在面对复杂提示词时,往往难以同时保持高质量图像和强提示对齐性。1
Z-Sampling(Zigzag Diffusion Sampling)是一种基于自反思机制的新型扩散采样方法,通过交替执行去噪和反演操作,利用引导间隙(Guidance Gap)逐步累积语义信息,显著提升生成质量。1
问题背景:引导生成的质量-对齐权衡
分类器自由引导(CFG)
分类器自由引导(Classifier-Free Guidance, CFG)是一种广泛使用的条件注入技术,通过结合条件预测和无条件预测来增强生成效果:
其中 为引导强度, 和 分别表示条件和无条件噪声预测。1
质量-对齐困境
然而,CFG 方法存在固有的权衡问题:增强引导强度虽然能提升图像质量和提示对齐性,但会牺牲样本多样性,导致模式坍缩(mode collapse)。这意味着现有的引导方法难以同时实现高质量、高对齐和大多样性。1
引导间隙(Guidance Gap)
概念定义
Z-Sampling 的核心发现是:去噪过程和反演(inversion)过程之间的条件引导间隙能够捕获与提示相关的语义信息。1
给定一个潜在变量 ,定义:
- 条件预测(有提示):
- 无条件预测(无提示):
引导间隙定义为两者之差:
这个间隙蕴含了模型对当前状态与条件匹配程度的”感知”,即语义信息。1
理论分析
论文从理论上证明,引导间隙 与生成过程中的语义信息存在正相关。当模型在引导下生成的轨迹偏离理想流形时,引导间隙会反映这种偏差,从而提供有价值的反馈信号。1
扩散自反思机制
自反思原理
受人类反思学习过程的启发,扩散自反思(Diffusion Self-Reflection)通过交替执行去噪(denoising)和反演(inversion)操作来利用引导间隙:
- 去噪步骤:在当前时间步 ,执行一次有条件/无条件引导的去噪,预测噪声并更新潜在变量
- 反演步骤:在相同或相近时间步,执行反向的噪声注入操作(inversion),回到一个近似的带噪状态
这种”之字形”(zigzag)轨迹使得模型能够:
- 在去噪过程中向目标分布移动
- 在反演过程中评估当前状态与条件的匹配程度
- 通过引导间隙捕获语义反馈信息1
语义信息提取
引导间隙可以被解释为模型对”当前生成结果与期望条件的偏差”的隐式评估。通过在每个之字形步骤中累积这些间隙信息,模型能够逐步修正生成轨迹,更好地对齐提示要求。1
Zigzag 采样算法
算法流程
Z-Sampling 的核心思想是沿采样路径逐步累积语义信息:
输入:噪声潜在变量 x_T,条件 c,采样步数 N
输出:生成图像
对于 t = T, T-1, ..., 1:
1. 去噪步骤(Denosing):
计算引导预测 \tilde{\epsilon}_\theta(x_t | c, γ_1)
更新:x_{t-1}^{denoise} = x_t + α_t · \tilde{\epsilon}
2. 反演步骤(Inversion):
在 x_{t-1}^{denoise} 附近进行小步反演
计算引导间隙 Δ_Φ(x_{t-1}^{denoise}, c)
累积语义信息:Δ_{total} += λ · Δ_Φ
3. 修正步骤:
x_{t-1} = x_{t-1}^{denoise} + β · Δ_{total}
返回最终潜在变量,解码为图像
关键参数
| 参数 | 说明 | 默认值 |
|---|---|---|
| 去噪过程的 CFG 引导强度 | 5.5 | |
| 反演过程的 CFG 引导强度 | 0 | |
| 语义信息累积系数 | 自适应 | |
| 每个之字形步骤的迭代轮数 | 1 |
Plug-and-Play 特性
Z-Sampling 具有良好的即插即用特性:
- 无需训练:作为推理时方法,不涉及模型参数的更新
- 架构无关:可应用于 U-Net 和 DiT 等多种扩散架构
- 计算开销小:仅需少量代码集成
- 可与其他方法正交组合:如 Diffusion-DPO 等1
实验验证
定量结果
论文在多个基准数据集和扩散模型上进行了广泛实验:
| 模型 | 评估指标 | 基准结果 | Z-Sampling 结果 | 提升 |
|---|---|---|---|---|
| DreamShaper | HPSv2 胜率 | 50% | 94% | +44% |
| SDXL | CLIP Score | - | 显著提升 | - |
| DiT-XL | FID | - | 显著改善 | - |
HPSv2(Human Preference Score v2)胜率 94% 意味着在人类评估中,Z-Sampling 生成的结果有 94% 的概率优于标准采样结果。1
定性结果
Z-Sampling 在以下复杂场景中表现优异:
- 风格控制:精确遵循艺术风格描述
- 物体位置:准确放置多个对象
- 颜色控制:忠实还原指定色彩
- 数量准确:正确生成指定数量的物体
- 文本渲染:在图像中清晰渲染文字
- 对象共现:处理复杂的多对象组合场景1
计算效率
尽管增加了之字形步骤,Z-Sampling 通过以下方式控制开销:
- 与标准采样相比,达到同等质量只需 36% 的额外计算时间
- 可与加速采样方法(如 DDIM、DPMSolver)结合使用1
与其他方法的正交性
Z-Sampling 的一个重要优势是其与现有技术的正交性(orthogonality),这意味着它可以与其他方法无缝组合:
与 Diffusion-DPO 的结合
Diffusion-DPO 是一种基于人类偏好反馈的后训练方法。实验表明,Z-Sampling 能够进一步增强 Diffusion-DPO 优化后的模型,实现 叠加效果。1
与加速采样的结合
Z-Sampling 可应用于加速采样的扩散模型(如 DDIM、DPMSolver),在不同架构(U-Net、DiT)和不同模态(图像、视频)中均展现出有效性。1
后续工作
-Sampling(Zero-Cost Zigzag Sampling)进一步优化了 Z-Sampling 的计算效率,通过隐式代数方法消除了显式之字形轨迹带来的额外评估开销,在保持语义探索能力的同时将计算成本恢复到 2-NFE 基线水平。2
总结
Z-Sampling 通过扩散自反思机制和引导间隙的创新性利用,为扩散模型提供了一种无需训练的推理时自我改进方法。其核心贡献包括:
- 理论贡献:首次揭示了去噪-反演引导间隙与语义信息捕获的关联
- 方法贡献:提出 Z-Sampling 算法,实现沿采样路径逐步累积语义信息
- 实践贡献:展示 94% HPSv2 胜率的显著提升,以及与现有方法的良好兼容性
作为 ICLR 2025 接收的论文,Z-Sampling 为扩散模型的推理优化开辟了新的研究方向,证明了”通往成功的道路是曲折的”这一朴素道理在生成模型中同样适用。1
Footnotes
-
Bai, L., Shao, S., Zhou, Z., Qi, Z., Xu, Z., Xiong, H., & Xie, Z. (2025). Zigzag Diffusion Sampling: Diffusion Models Can Self-Improve via Self-Reflection. International Conference on Learning Representations (ICLR 2025). https://openreview.net/forum?id=MKvQH1ekeY ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15 ↩16
-
-Sampling: Zero-Cost Zigzag Trajectories for Semantic Alignment in Diffusion Models. arXiv:2604.23536 ↩