Z-Sampling 自反思扩散采样

引言

扩散模型（Diffusion Models）作为当前最流行的生成范式，能够将条件信息（如文本提示）注入生成路径，引导潜在变量向期望方向演化。然而，现有的文生图扩散模型在面对复杂提示词时，往往难以同时保持高质量图像和强提示对齐性。¹

Z-Sampling（Zigzag Diffusion Sampling）是一种基于自反思机制的新型扩散采样方法，通过交替执行去噪和反演操作，利用引导间隙（Guidance Gap）逐步累积语义信息，显著提升生成质量。¹

问题背景：引导生成的质量-对齐权衡

分类器自由引导（CFG）

分类器自由引导（Classifier-Free Guidance, CFG）是一种广泛使用的条件注入技术，通过结合条件预测和无条件预测来增强生成效果：

\tilde{ϵ}_{θ} (x_{t} ∣ c) = (1 + γ) \cdot ϵ_{θ} (x_{t} ∣ c) - γ \cdot ϵ_{θ} (x_{t} ∣\emptyset)

其中 $γ$ 为引导强度， $ϵ_{θ} (x_{t} ∣ c)$ 和 $ϵ_{θ} (x_{t} ∣\emptyset)$ 分别表示条件和无条件噪声预测。¹

质量-对齐困境

然而，CFG 方法存在固有的权衡问题：增强引导强度虽然能提升图像质量和提示对齐性，但会牺牲样本多样性，导致模式坍缩（mode collapse）。这意味着现有的引导方法难以同时实现高质量、高对齐和大多样性。¹

引导间隙（Guidance Gap）

概念定义

Z-Sampling 的核心发现是：去噪过程和反演（inversion）过程之间的条件引导间隙能够捕获与提示相关的语义信息。¹

给定一个潜在变量 $x_{t}$ ，定义：

条件预测（有提示）： $ϵ_{θ}^{Φ} (x_{t} ∣ c)$
无条件预测（无提示）： $ϵ_{θ}^{Φ} (x_{t} ∣\emptyset)$

引导间隙定义为两者之差：

Δ_{Φ} (x_{t}, c) = ϵ_{θ}^{Φ} (x_{t} ∣ c) - ϵ_{θ}^{Φ} (x_{t} ∣\emptyset)

这个间隙蕴含了模型对当前状态与条件匹配程度的”感知”，即语义信息。¹

理论分析

论文从理论上证明，引导间隙 $Δ_{Φ} (x_{t}, c)$ 与生成过程中的语义信息存在正相关。当模型在引导下生成的轨迹偏离理想流形时，引导间隙会反映这种偏差，从而提供有价值的反馈信号。¹

扩散自反思机制

自反思原理

受人类反思学习过程的启发，扩散自反思（Diffusion Self-Reflection）通过交替执行去噪（denoising）和反演（inversion）操作来利用引导间隙：

去噪步骤：在当前时间步 $t$ ，执行一次有条件/无条件引导的去噪，预测噪声并更新潜在变量
反演步骤：在相同或相近时间步，执行反向的噪声注入操作（inversion），回到一个近似的带噪状态

这种”之字形”（zigzag）轨迹使得模型能够：

在去噪过程中向目标分布移动
在反演过程中评估当前状态与条件的匹配程度
通过引导间隙捕获语义反馈信息¹

语义信息提取

引导间隙可以被解释为模型对”当前生成结果与期望条件的偏差”的隐式评估。通过在每个之字形步骤中累积这些间隙信息，模型能够逐步修正生成轨迹，更好地对齐提示要求。¹

Zigzag 采样算法

算法流程

Z-Sampling 的核心思想是沿采样路径逐步累积语义信息：

输入：噪声潜在变量 x_T，条件 c，采样步数 N
输出：生成图像

对于 t = T, T-1, ..., 1:
    1. 去噪步骤（Denosing）：
       计算引导预测 \tilde{\epsilon}_\theta(x_t | c, γ_1)
       更新：x_{t-1}^{denoise} = x_t + α_t · \tilde{\epsilon}
    
    2. 反演步骤（Inversion）：
       在 x_{t-1}^{denoise} 附近进行小步反演
       计算引导间隙 Δ_Φ(x_{t-1}^{denoise}, c)
       累积语义信息：Δ_{total} += λ · Δ_Φ
    
    3. 修正步骤：
       x_{t-1} = x_{t-1}^{denoise} + β · Δ_{total}

返回最终潜在变量，解码为图像

关键参数

参数	说明	默认值
$γ_{1}$	去噪过程的 CFG 引导强度	5.5
$γ_{2}$	反演过程的 CFG 引导强度	0
$λ$	语义信息累积系数	自适应
$T_{ma x}$	每个之字形步骤的迭代轮数	1

Plug-and-Play 特性

Z-Sampling 具有良好的即插即用特性：

无需训练：作为推理时方法，不涉及模型参数的更新
架构无关：可应用于 U-Net 和 DiT 等多种扩散架构
计算开销小：仅需少量代码集成
可与其他方法正交组合：如 Diffusion-DPO 等¹

实验验证

定量结果

论文在多个基准数据集和扩散模型上进行了广泛实验：

模型	评估指标	基准结果	Z-Sampling 结果	提升
DreamShaper	HPSv2 胜率	50%	94%	+44%
SDXL	CLIP Score	-	显著提升	-
DiT-XL	FID	-	显著改善	-

HPSv2（Human Preference Score v2）胜率 94% 意味着在人类评估中，Z-Sampling 生成的结果有 94% 的概率优于标准采样结果。¹

定性结果

Z-Sampling 在以下复杂场景中表现优异：

风格控制：精确遵循艺术风格描述
物体位置：准确放置多个对象
颜色控制：忠实还原指定色彩
数量准确：正确生成指定数量的物体
文本渲染：在图像中清晰渲染文字
对象共现：处理复杂的多对象组合场景¹

计算效率

尽管增加了之字形步骤，Z-Sampling 通过以下方式控制开销：

与标准采样相比，达到同等质量只需 36% 的额外计算时间
可与加速采样方法（如 DDIM、DPMSolver）结合使用¹

与其他方法的正交性

Z-Sampling 的一个重要优势是其与现有技术的正交性（orthogonality），这意味着它可以与其他方法无缝组合：

与 Diffusion-DPO 的结合

Diffusion-DPO 是一种基于人类偏好反馈的后训练方法。实验表明，Z-Sampling 能够进一步增强 Diffusion-DPO 优化后的模型，实现 叠加效果。¹

与加速采样的结合

Z-Sampling 可应用于加速采样的扩散模型（如 DDIM、DPMSolver），在不同架构（U-Net、DiT）和不同模态（图像、视频）中均展现出有效性。¹

后续工作

$Z^{2}$ -Sampling（Zero-Cost Zigzag Sampling）进一步优化了 Z-Sampling 的计算效率，通过隐式代数方法消除了显式之字形轨迹带来的额外评估开销，在保持语义探索能力的同时将计算成本恢复到 2-NFE 基线水平。²

总结

Z-Sampling 通过扩散自反思机制和引导间隙的创新性利用，为扩散模型提供了一种无需训练的推理时自我改进方法。其核心贡献包括：

理论贡献：首次揭示了去噪-反演引导间隙与语义信息捕获的关联
方法贡献：提出 Z-Sampling 算法，实现沿采样路径逐步累积语义信息
实践贡献：展示 94% HPSv2 胜率的显著提升，以及与现有方法的良好兼容性

作为 ICLR 2025 接收的论文，Z-Sampling 为扩散模型的推理优化开辟了新的研究方向，证明了”通往成功的道路是曲折的”这一朴素道理在生成模型中同样适用。¹

Bai, L., Shao, S., Zhou, Z., Qi, Z., Xu, Z., Xiong, H., & Xie, Z. (2025). Zigzag Diffusion Sampling: Diffusion Models Can Self-Improve via Self-Reflection. International Conference on Learning Representations (ICLR 2025). https://openreview.net/forum?id=MKvQH1ekeY ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³ ↩¹⁴ ↩¹⁵ ↩¹⁶
$Z^{2}$ -Sampling: Zero-Cost Zigzag Trajectories for Semantic Alignment in Diffusion Models. arXiv:2604.23536 ↩

Metaphor

探索

Z-Sampling 自反思扩散采样

引言

问题背景：引导生成的质量-对齐权衡

分类器自由引导（CFG）

质量-对齐困境

引导间隙（Guidance Gap）

概念定义

理论分析

扩散自反思机制

自反思原理

语义信息提取

Zigzag 采样算法

算法流程

关键参数

Plug-and-Play 特性

实验验证

定量结果

定性结果

计算效率

与其他方法的正交性

与 Diffusion-DPO 的结合

与加速采样的结合

后续工作

总结

关系图谱

目录

Metaphor

探索

Z-Sampling 自反思扩散采样

引言

问题背景：引导生成的质量-对齐权衡

分类器自由引导（CFG）

质量-对齐困境

引导间隙（Guidance Gap）

概念定义

理论分析

扩散自反思机制

自反思原理

语义信息提取

Zigzag 采样算法

算法流程

关键参数

Plug-and-Play 特性

实验验证

定量结果

定性结果

计算效率

与其他方法的正交性

与 Diffusion-DPO 的结合

与加速采样的结合

后续工作

总结

Footnotes

关系图谱

目录