1. 背景:扩散语言模型

离散扩散语言模型(Discrete Diffusion Language Models, DLMs)作为自回归语言模型的有力替代方案,通过大规模训练已展现出可比的性能表现。1 与自回归模型逐token顺序生成不同,扩散语言模型从完全掩码的序列出发,通过迭代去噪过程并行重建所有token。这种并行生成范式天然适合推理时的可控性调节。

尽管扩散语言模型在生成质量上取得了显著进步,其可控生成领域仍相对未被充分探索。训练时扩展虽然有效,但计算成本高昂;因此,在推理时引导模型生成目标属性(无需修改底层模型)成为一种互补且高效的策略。2

2. 推理时控制问题

2.1 形式化定义

推理时控制的核心目标是从奖励加权的后验分布中采样:

其中:

  • 是给定条件 下预训练扩散语言模型的生成分布
  • 是奖励函数,用于衡量生成文本与目标的匹配程度
  • 是温度参数,控制奖励信号的强度

2.2 现有方法的局限性

先前的工作通常关注单一去噪轨迹内的重采样或过滤,逐步优化奖励而缺乏轨迹级细粒度。这些方法包括:

  • 奖励引导(Reward Guidance):在每个去噪步骤使用奖励模型梯度更新,但离散token无法直接微分3
  • SMC基础方法:在单轨迹内进行重采样,资源分配不够灵活4
  • 熵感知方法:通过动态调节梯度反馈,但仍有优化目标不一致的问题5

3. PG-DLM方法

3.1 核心思想

PG-DLM(Particle Gibbs Sampling for Diffusion Language Models)引入了一种新颖的推理时采样算法,能够进行轨迹级细化,在奖励优化下保持生成困惑度。12

3.2 马尔可夫链构建

PG-DLM在完整去噪轨迹空间上构建马尔可夫链。设 表示从噪声到清晰文本的完整去噪轨迹,其中 为纯噪声状态, 为目标文本。

目标分布定义为:

通过在轨迹空间建立转移核,PG-DLM能够探索不同的生成路径,而非局限于单一轨迹。

3.3 条件SMC核

PG-DLM的核心是条件序贯蒙特卡洛(Conditional Sequential Monte Carlo, cSMC)核作为转移机制。该算法保留了参考轨迹的一个粒子,同时对其他粒子进行重采样和演化。

算法流程

输入:参考轨迹 τ_ref = (x_0^ref, ..., x_T^ref)
      粒子数 N

1. 初始化:
   - ζ_0^1 = x_0^ref
   - 对 i = 2, ..., N,从提议分布采样 x_0^i

2. 递归步骤(对 t = 1, ..., T):
   - 计算权重 w_t^i ∝ exp(r(x_0^i) / β)
   - 基于权重重采样粒子索引
   - 从转移核采样新状态

3. 输出:更新后的轨迹 τ' = (ζ_0^{k_0}, ..., ζ_T^{k_T})

cSMC核的关键性质是:当粒子数 时,构造的马尔可夫核是遍历的,不变分布正是目标后验分布6

3.4 轨迹级优化

与逐步优化不同,PG-DLM的轨迹级优化具有以下优势:

  1. 全局视角:考虑整个生成序列的连贯性
  2. 多样性保持:通过多条轨迹的交互避免模式坍塌
  3. 迭代细化:每次迭代都从更好的起点开始搜索

4. 四个关键维度的权衡分析

在固定计算预算下,PG-DLM框架允许在四个维度上灵活分配资源:2

维度描述扩展效果
粒子Gibbs迭代次数细化循环的轮数最优的reward-perplexity权衡
样本数量生成的独立样本数收益递减较快
去噪步数每条轨迹的中间状态数边际效益有限
奖励估计成本每次奖励函数调用精度与速度的权衡

4.1 迭代次数 vs 样本数量

理论分析表明,增加迭代次数能够持续提升生成质量,而增加并行样本数在达到一定规模后收益递减。这与马尔可夫链的混合性质相关:更多的迭代允许链探索更多模式。

4.2 自适应计算分配

PG-DLM支持自适应计算分配:只在需要时才执行额外迭代,实现按需计算,从而进一步提高效率。这种灵活性在计算资源受限的场景下尤为重要。

5. 实验结果

5.1 实验设置

实验在两种基础模型上进行:

  • MDLM:Masked Diffusion Language Model
  • LLaDA-8B:Large Language Model with Discrete Architectures (8B参数)

任务涵盖:

  • 毒性控制(Toxicity Control)
  • 情感控制(Sentiment Control)
  • 语言可接受性(Linguistic Acceptability)

5.2 主要结果

PG-DLM在所有测试场景中一致优于先前方法:12

  1. 毒性控制:在保持低困惑度的同时显著降低毒性
  2. 情感分类:准确率提升10%-60%个百分点
  3. 语言可接受性:生成文本更符合语法规范

5.3 计算效率

方法困惑度奖励得分计算成本
基础模型
Reward Guidance
FK Steering
PG-DLM

注:,表示PG-DLM几乎不损失困惑度

6. 与先前方法的对比

6.1 方法对比表

特性Reward GuidanceFK SteeringILRRPG-DLM
梯度需求需要可选不需要不需要
轨迹级细化
收敛保证渐近
迭代扩展
自适应计算

6.2 核心创新

PG-DLM的独特贡献在于:

  1. 引入新的扩展轴:迭代次数这一维度在先前方法中不存在
  2. 理论保证:提供渐近一致性和方差界的理论分析
  3. 轨迹级视角:区别于所有先前方法的单轨迹优化

7. 总结与展望

PG-DLM为扩散语言模型的推理时控制提供了一种原则性方法,通过马尔可夫链蒙特卡洛(MCMC)与序贯蒙特卡洛(SMC)的结合,实现了高效的轨迹级细化。实验证明,在固定的计算预算下,增加迭代次数是提升reward-perplexity权衡的最有效方式。

未来研究方向包括:

  • 与学习式twist函数的结合
  • 在更长文本生成中的应用
  • 与强化学习后训练的协同

Footnotes

  1. Dang M, Han J, Xu M, et al. Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling[J]. arXiv preprint arXiv:2507.08390, 2025. 2 3

  2. Dang M, Han J, Xu M, et al. Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling (Extended Version)[J]. arXiv preprint arXiv:2507.08390v3, 2025. 2 3 4

  3. Hertz A, Mokady R, Tenenbaum J, et al. Prompt-to-Prompt Image Editing with Cross Attention Control[C]. ICLR, 2023.

  4. Horvitz N, Shi J, Mandyam D, et al. A General Framework for Inference-time Scaling and Steering of Diffusion Models[J]. arXiv:2501.06848, 2025.

  5. Liu A, Huang P, Zhang J, et al. EntRGi: Entropy Aware Reward Guidance for Diffusion Language Models[J]. arXiv:2602.05000, 2025.

  6. Andrieu C, Doucet A, Holenstein R. Particle Markov Chain Monte Carlo Methods[J]. Journal of the Royal Statistical Society: Series B, 2010, 72(3): 269-342.