PG-DLM：粒子Gibbs扩散语言模型采样

1. 背景：扩散语言模型

离散扩散语言模型（Discrete Diffusion Language Models, DLMs）作为自回归语言模型的有力替代方案，通过大规模训练已展现出可比的性能表现。¹ 与自回归模型逐token顺序生成不同，扩散语言模型从完全掩码的序列出发，通过迭代去噪过程并行重建所有token。这种并行生成范式天然适合推理时的可控性调节。

尽管扩散语言模型在生成质量上取得了显著进步，其可控生成领域仍相对未被充分探索。训练时扩展虽然有效，但计算成本高昂；因此，在推理时引导模型生成目标属性（无需修改底层模型）成为一种互补且高效的策略。²

2. 推理时控制问题

2.1 形式化定义

推理时控制的核心目标是从奖励加权的后验分布中采样：

p^{*} (x_{0} ∣ c) \propto p_{θ} (x_{0} ∣ c) exp (\frac{r ( c , x _{0} )}{β})

其中：

$p_{θ} (x_{0} ∣ c)$ 是给定条件 $c$ 下预训练扩散语言模型的生成分布
$r (c, x_{0})$ 是奖励函数，用于衡量生成文本与目标的匹配程度
$β$ 是温度参数，控制奖励信号的强度

2.2 现有方法的局限性

先前的工作通常关注单一去噪轨迹内的重采样或过滤，逐步优化奖励而缺乏轨迹级细粒度。这些方法包括：

奖励引导（Reward Guidance）：在每个去噪步骤使用奖励模型梯度更新，但离散token无法直接微分³
SMC基础方法：在单轨迹内进行重采样，资源分配不够灵活⁴
熵感知方法：通过动态调节梯度反馈，但仍有优化目标不一致的问题⁵

3. PG-DLM方法

3.1 核心思想

PG-DLM（Particle Gibbs Sampling for Diffusion Language Models）引入了一种新颖的推理时采样算法，能够进行轨迹级细化，在奖励优化下保持生成困惑度。¹²

3.2 马尔可夫链构建

PG-DLM在完整去噪轨迹空间上构建马尔可夫链。设 $τ = (x_{0}, x_{1}, \dots, x_{T})$ 表示从噪声到清晰文本的完整去噪轨迹，其中 $x_{T}$ 为纯噪声状态， $x_{0}$ 为目标文本。

目标分布定义为：

π (τ) \propto p (x_{T}) t = 1 \prod T p_{θ} (x_{t - 1} ∣ x_{t}) \cdot exp (\frac{r ( x _{0} )}{β})

通过在轨迹空间建立转移核，PG-DLM能够探索不同的生成路径，而非局限于单一轨迹。

3.3 条件SMC核

PG-DLM的核心是条件序贯蒙特卡洛（Conditional Sequential Monte Carlo, cSMC）核作为转移机制。该算法保留了参考轨迹的一个粒子，同时对其他粒子进行重采样和演化。

算法流程：

输入：参考轨迹 τ_ref = (x_0^ref, ..., x_T^ref)
      粒子数 N

1. 初始化：
   - ζ_0^1 = x_0^ref
   - 对 i = 2, ..., N，从提议分布采样 x_0^i

2. 递归步骤（对 t = 1, ..., T）：
   - 计算权重 w_t^i ∝ exp(r(x_0^i) / β)
   - 基于权重重采样粒子索引
   - 从转移核采样新状态

3. 输出：更新后的轨迹 τ' = (ζ_0^{k_0}, ..., ζ_T^{k_T})

cSMC核的关键性质是：当粒子数 $N \geq 2$ 时，构造的马尔可夫核是遍历的，不变分布正是目标后验分布。⁶

3.4 轨迹级优化

与逐步优化不同，PG-DLM的轨迹级优化具有以下优势：

全局视角：考虑整个生成序列的连贯性
多样性保持：通过多条轨迹的交互避免模式坍塌
迭代细化：每次迭代都从更好的起点开始搜索

4. 四个关键维度的权衡分析

在固定计算预算下，PG-DLM框架允许在四个维度上灵活分配资源：²

维度	描述	扩展效果
粒子Gibbs迭代次数	细化循环的轮数	最优的reward-perplexity权衡
样本数量	生成的独立样本数	收益递减较快
去噪步数	每条轨迹的中间状态数	边际效益有限
奖励估计成本	每次奖励函数调用	精度与速度的权衡

4.1 迭代次数 vs 样本数量

理论分析表明，增加迭代次数能够持续提升生成质量，而增加并行样本数在达到一定规模后收益递减。这与马尔可夫链的混合性质相关：更多的迭代允许链探索更多模式。

Efficiency (iterations) > Efficiency (samples)

4.2 自适应计算分配

PG-DLM支持自适应计算分配：只在需要时才执行额外迭代，实现按需计算，从而进一步提高效率。这种灵活性在计算资源受限的场景下尤为重要。

5. 实验结果

5.1 实验设置

实验在两种基础模型上进行：

MDLM：Masked Diffusion Language Model
LLaDA-8B：Large Language Model with Discrete Architectures (8B参数)

任务涵盖：

毒性控制（Toxicity Control）
情感控制（Sentiment Control）
语言可接受性（Linguistic Acceptability）

5.2 主要结果

PG-DLM在所有测试场景中一致优于先前方法：¹²

毒性控制：在保持低困惑度的同时显著降低毒性
情感分类：准确率提升10%-60%个百分点
语言可接受性：生成文本更符合语法规范

5.3 计算效率

方法	困惑度	奖励得分	计算成本
基础模型	$p_{0}$	$r_{0}$	$C_{0}$
Reward Guidance	$p_{0} + Δ p$	$r_{0} + Δ r_{1}$	$1.1 C_{0}$
FK Steering	$p_{0} + Δ p_{2}$	$r_{0} + Δ r_{2}$	$1.5 C_{0}$
PG-DLM	$p_{0} + ϵ$	$r_{0} + Δ r_{ma x}$	$2.0 C_{0}$

注： $ϵ \approx 0$ ，表示PG-DLM几乎不损失困惑度

6. 与先前方法的对比

6.1 方法对比表

特性	Reward Guidance	FK Steering	ILRR	PG-DLM
梯度需求	需要	可选	不需要	不需要
轨迹级细化	❌	❌	❌	✅
收敛保证	无	渐近	无	有
迭代扩展	❌	❌	❌	✅
自适应计算	❌	❌	❌	✅

6.2 核心创新

PG-DLM的独特贡献在于：

引入新的扩展轴：迭代次数这一维度在先前方法中不存在
理论保证：提供渐近一致性和方差界的理论分析
轨迹级视角：区别于所有先前方法的单轨迹优化

7. 总结与展望

PG-DLM为扩散语言模型的推理时控制提供了一种原则性方法，通过马尔可夫链蒙特卡洛（MCMC）与序贯蒙特卡洛（SMC）的结合，实现了高效的轨迹级细化。实验证明，在固定的计算预算下，增加迭代次数是提升reward-perplexity权衡的最有效方式。

未来研究方向包括：

与学习式twist函数的结合
在更长文本生成中的应用
与强化学习后训练的协同

Dang M, Han J, Xu M, et al. Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling[J]. arXiv preprint arXiv:2507.08390, 2025. ↩ ↩² ↩³
Dang M, Han J, Xu M, et al. Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling (Extended Version)[J]. arXiv preprint arXiv:2507.08390v3, 2025. ↩ ↩² ↩³ ↩⁴
Hertz A, Mokady R, Tenenbaum J, et al. Prompt-to-Prompt Image Editing with Cross Attention Control[C]. ICLR, 2023. ↩
Horvitz N, Shi J, Mandyam D, et al. A General Framework for Inference-time Scaling and Steering of Diffusion Models[J]. arXiv:2501.06848, 2025. ↩
Liu A, Huang P, Zhang J, et al. EntRGi: Entropy Aware Reward Guidance for Diffusion Language Models[J]. arXiv:2602.05000, 2025. ↩
Andrieu C, Doucet A, Holenstein R. Particle Markov Chain Monte Carlo Methods[J]. Journal of the Royal Statistical Society: Series B, 2010, 72(3): 269-342. ↩

Metaphor

探索

PG-DLM：粒子Gibbs扩散语言模型采样

1. 背景：扩散语言模型

2. 推理时控制问题

2.1 形式化定义

2.2 现有方法的局限性

3. PG-DLM方法

3.1 核心思想

3.2 马尔可夫链构建

3.3 条件SMC核

3.4 轨迹级优化

4. 四个关键维度的权衡分析

4.1 迭代次数 vs 样本数量

4.2 自适应计算分配

5. 实验结果

5.1 实验设置

5.2 主要结果

5.3 计算效率

6. 与先前方法的对比

6.1 方法对比表

6.2 核心创新

7. 总结与展望

关系图谱

目录

Metaphor

探索

PG-DLM：粒子Gibbs扩散语言模型采样

1. 背景：扩散语言模型

2. 推理时控制问题

2.1 形式化定义

2.2 现有方法的局限性

3. PG-DLM方法

3.1 核心思想

3.2 马尔可夫链构建

3.3 条件SMC核

3.4 轨迹级优化

4. 四个关键维度的权衡分析

4.1 迭代次数 vs 样本数量

4.2 自适应计算分配

5. 实验结果

5.1 实验设置

5.2 主要结果

5.3 计算效率

6. 与先前方法的对比

6.1 方法对比表

6.2 核心创新

7. 总结与展望

Footnotes

关系图谱

目录