引言

扩散模型(Diffusion Models)作为当前最流行的生成范式,能够将条件信息(如文本提示)注入生成路径,引导潜在变量向期望方向演化。然而,现有的文生图扩散模型在面对复杂提示词时,往往难以同时保持高质量图像和强提示对齐性。1

Z-Sampling(Zigzag Diffusion Sampling)是一种基于自反思机制的新型扩散采样方法,通过交替执行去噪和反演操作,利用引导间隙(Guidance Gap)逐步累积语义信息,显著提升生成质量。1

问题背景:引导生成的质量-对齐权衡

分类器自由引导(CFG)

分类器自由引导(Classifier-Free Guidance, CFG)是一种广泛使用的条件注入技术,通过结合条件预测和无条件预测来增强生成效果:

其中 为引导强度, 分别表示条件和无条件噪声预测。1

质量-对齐困境

然而,CFG 方法存在固有的权衡问题:增强引导强度虽然能提升图像质量和提示对齐性,但会牺牲样本多样性,导致模式坍缩(mode collapse)。这意味着现有的引导方法难以同时实现高质量、高对齐和大多样性。1

引导间隙(Guidance Gap)

概念定义

Z-Sampling 的核心发现是:去噪过程和反演(inversion)过程之间的条件引导间隙能够捕获与提示相关的语义信息1

给定一个潜在变量 ,定义:

  • 条件预测(有提示):
  • 无条件预测(无提示):

引导间隙定义为两者之差:

这个间隙蕴含了模型对当前状态与条件匹配程度的”感知”,即语义信息。1

理论分析

论文从理论上证明,引导间隙 与生成过程中的语义信息存在正相关。当模型在引导下生成的轨迹偏离理想流形时,引导间隙会反映这种偏差,从而提供有价值的反馈信号。1

扩散自反思机制

自反思原理

受人类反思学习过程的启发,扩散自反思(Diffusion Self-Reflection)通过交替执行去噪(denoising)和反演(inversion)操作来利用引导间隙:

  1. 去噪步骤:在当前时间步 ,执行一次有条件/无条件引导的去噪,预测噪声并更新潜在变量
  2. 反演步骤:在相同或相近时间步,执行反向的噪声注入操作(inversion),回到一个近似的带噪状态

这种”之字形”(zigzag)轨迹使得模型能够:

  • 在去噪过程中向目标分布移动
  • 在反演过程中评估当前状态与条件的匹配程度
  • 通过引导间隙捕获语义反馈信息1

语义信息提取

引导间隙可以被解释为模型对”当前生成结果与期望条件的偏差”的隐式评估。通过在每个之字形步骤中累积这些间隙信息,模型能够逐步修正生成轨迹,更好地对齐提示要求。1

Zigzag 采样算法

算法流程

Z-Sampling 的核心思想是沿采样路径逐步累积语义信息:

输入:噪声潜在变量 x_T,条件 c,采样步数 N
输出:生成图像

对于 t = T, T-1, ..., 1:
    1. 去噪步骤(Denosing):
       计算引导预测 \tilde{\epsilon}_\theta(x_t | c, γ_1)
       更新:x_{t-1}^{denoise} = x_t + α_t · \tilde{\epsilon}
    
    2. 反演步骤(Inversion):
       在 x_{t-1}^{denoise} 附近进行小步反演
       计算引导间隙 Δ_Φ(x_{t-1}^{denoise}, c)
       累积语义信息:Δ_{total} += λ · Δ_Φ
    
    3. 修正步骤:
       x_{t-1} = x_{t-1}^{denoise} + β · Δ_{total}

返回最终潜在变量,解码为图像

关键参数

参数说明默认值
去噪过程的 CFG 引导强度5.5
反演过程的 CFG 引导强度0
语义信息累积系数自适应
每个之字形步骤的迭代轮数1

Plug-and-Play 特性

Z-Sampling 具有良好的即插即用特性:

  • 无需训练:作为推理时方法,不涉及模型参数的更新
  • 架构无关:可应用于 U-Net 和 DiT 等多种扩散架构
  • 计算开销小:仅需少量代码集成
  • 可与其他方法正交组合:如 Diffusion-DPO 等1

实验验证

定量结果

论文在多个基准数据集和扩散模型上进行了广泛实验:

模型评估指标基准结果Z-Sampling 结果提升
DreamShaperHPSv2 胜率50%94%+44%
SDXLCLIP Score-显著提升-
DiT-XLFID-显著改善-

HPSv2(Human Preference Score v2)胜率 94% 意味着在人类评估中,Z-Sampling 生成的结果有 94% 的概率优于标准采样结果。1

定性结果

Z-Sampling 在以下复杂场景中表现优异:

  • 风格控制:精确遵循艺术风格描述
  • 物体位置:准确放置多个对象
  • 颜色控制:忠实还原指定色彩
  • 数量准确:正确生成指定数量的物体
  • 文本渲染:在图像中清晰渲染文字
  • 对象共现:处理复杂的多对象组合场景1

计算效率

尽管增加了之字形步骤,Z-Sampling 通过以下方式控制开销:

  • 与标准采样相比,达到同等质量只需 36% 的额外计算时间
  • 可与加速采样方法(如 DDIM、DPMSolver)结合使用1

与其他方法的正交性

Z-Sampling 的一个重要优势是其与现有技术的正交性(orthogonality),这意味着它可以与其他方法无缝组合:

与 Diffusion-DPO 的结合

Diffusion-DPO 是一种基于人类偏好反馈的后训练方法。实验表明,Z-Sampling 能够进一步增强 Diffusion-DPO 优化后的模型,实现 叠加效果1

与加速采样的结合

Z-Sampling 可应用于加速采样的扩散模型(如 DDIM、DPMSolver),在不同架构(U-Net、DiT)和不同模态(图像、视频)中均展现出有效性。1

后续工作

-Sampling(Zero-Cost Zigzag Sampling)进一步优化了 Z-Sampling 的计算效率,通过隐式代数方法消除了显式之字形轨迹带来的额外评估开销,在保持语义探索能力的同时将计算成本恢复到 2-NFE 基线水平。2

总结

Z-Sampling 通过扩散自反思机制和引导间隙的创新性利用,为扩散模型提供了一种无需训练的推理时自我改进方法。其核心贡献包括:

  1. 理论贡献:首次揭示了去噪-反演引导间隙与语义信息捕获的关联
  2. 方法贡献:提出 Z-Sampling 算法,实现沿采样路径逐步累积语义信息
  3. 实践贡献:展示 94% HPSv2 胜率的显著提升,以及与现有方法的良好兼容性

作为 ICLR 2025 接收的论文,Z-Sampling 为扩散模型的推理优化开辟了新的研究方向,证明了”通往成功的道路是曲折的”这一朴素道理在生成模型中同样适用。1


Footnotes

  1. Bai, L., Shao, S., Zhou, Z., Qi, Z., Xu, Z., Xiong, H., & Xie, Z. (2025). Zigzag Diffusion Sampling: Diffusion Models Can Self-Improve via Self-Reflection. International Conference on Learning Representations (ICLR 2025). https://openreview.net/forum?id=MKvQH1ekeY 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

  2. -Sampling: Zero-Cost Zigzag Trajectories for Semantic Alignment in Diffusion Models. arXiv:2604.23536