1. 背景:扩散语言模型
离散扩散语言模型(Discrete Diffusion Language Models, DLMs)作为自回归语言模型的有力替代方案,通过大规模训练已展现出可比的性能表现。1 与自回归模型逐token顺序生成不同,扩散语言模型从完全掩码的序列出发,通过迭代去噪过程并行重建所有token。这种并行生成范式天然适合推理时的可控性调节。
尽管扩散语言模型在生成质量上取得了显著进步,其可控生成领域仍相对未被充分探索。训练时扩展虽然有效,但计算成本高昂;因此,在推理时引导模型生成目标属性(无需修改底层模型)成为一种互补且高效的策略。2
2. 推理时控制问题
2.1 形式化定义
推理时控制的核心目标是从奖励加权的后验分布中采样:
其中:
- 是给定条件 下预训练扩散语言模型的生成分布
- 是奖励函数,用于衡量生成文本与目标的匹配程度
- 是温度参数,控制奖励信号的强度
2.2 现有方法的局限性
先前的工作通常关注单一去噪轨迹内的重采样或过滤,逐步优化奖励而缺乏轨迹级细粒度。这些方法包括:
- 奖励引导(Reward Guidance):在每个去噪步骤使用奖励模型梯度更新,但离散token无法直接微分3
- SMC基础方法:在单轨迹内进行重采样,资源分配不够灵活4
- 熵感知方法:通过动态调节梯度反馈,但仍有优化目标不一致的问题5
3. PG-DLM方法
3.1 核心思想
PG-DLM(Particle Gibbs Sampling for Diffusion Language Models)引入了一种新颖的推理时采样算法,能够进行轨迹级细化,在奖励优化下保持生成困惑度。12
3.2 马尔可夫链构建
PG-DLM在完整去噪轨迹空间上构建马尔可夫链。设 表示从噪声到清晰文本的完整去噪轨迹,其中 为纯噪声状态, 为目标文本。
目标分布定义为:
通过在轨迹空间建立转移核,PG-DLM能够探索不同的生成路径,而非局限于单一轨迹。
3.3 条件SMC核
PG-DLM的核心是条件序贯蒙特卡洛(Conditional Sequential Monte Carlo, cSMC)核作为转移机制。该算法保留了参考轨迹的一个粒子,同时对其他粒子进行重采样和演化。
算法流程:
输入:参考轨迹 τ_ref = (x_0^ref, ..., x_T^ref)
粒子数 N
1. 初始化:
- ζ_0^1 = x_0^ref
- 对 i = 2, ..., N,从提议分布采样 x_0^i
2. 递归步骤(对 t = 1, ..., T):
- 计算权重 w_t^i ∝ exp(r(x_0^i) / β)
- 基于权重重采样粒子索引
- 从转移核采样新状态
3. 输出:更新后的轨迹 τ' = (ζ_0^{k_0}, ..., ζ_T^{k_T})
cSMC核的关键性质是:当粒子数 时,构造的马尔可夫核是遍历的,不变分布正是目标后验分布。6
3.4 轨迹级优化
与逐步优化不同,PG-DLM的轨迹级优化具有以下优势:
- 全局视角:考虑整个生成序列的连贯性
- 多样性保持:通过多条轨迹的交互避免模式坍塌
- 迭代细化:每次迭代都从更好的起点开始搜索
4. 四个关键维度的权衡分析
在固定计算预算下,PG-DLM框架允许在四个维度上灵活分配资源:2
| 维度 | 描述 | 扩展效果 |
|---|---|---|
| 粒子Gibbs迭代次数 | 细化循环的轮数 | 最优的reward-perplexity权衡 |
| 样本数量 | 生成的独立样本数 | 收益递减较快 |
| 去噪步数 | 每条轨迹的中间状态数 | 边际效益有限 |
| 奖励估计成本 | 每次奖励函数调用 | 精度与速度的权衡 |
4.1 迭代次数 vs 样本数量
理论分析表明,增加迭代次数能够持续提升生成质量,而增加并行样本数在达到一定规模后收益递减。这与马尔可夫链的混合性质相关:更多的迭代允许链探索更多模式。
4.2 自适应计算分配
PG-DLM支持自适应计算分配:只在需要时才执行额外迭代,实现按需计算,从而进一步提高效率。这种灵活性在计算资源受限的场景下尤为重要。
5. 实验结果
5.1 实验设置
实验在两种基础模型上进行:
- MDLM:Masked Diffusion Language Model
- LLaDA-8B:Large Language Model with Discrete Architectures (8B参数)
任务涵盖:
- 毒性控制(Toxicity Control)
- 情感控制(Sentiment Control)
- 语言可接受性(Linguistic Acceptability)
5.2 主要结果
- 毒性控制:在保持低困惑度的同时显著降低毒性
- 情感分类:准确率提升10%-60%个百分点
- 语言可接受性:生成文本更符合语法规范
5.3 计算效率
| 方法 | 困惑度 | 奖励得分 | 计算成本 |
|---|---|---|---|
| 基础模型 | |||
| Reward Guidance | |||
| FK Steering | |||
| PG-DLM |
注:,表示PG-DLM几乎不损失困惑度
6. 与先前方法的对比
6.1 方法对比表
| 特性 | Reward Guidance | FK Steering | ILRR | PG-DLM |
|---|---|---|---|---|
| 梯度需求 | 需要 | 可选 | 不需要 | 不需要 |
| 轨迹级细化 | ❌ | ❌ | ❌ | ✅ |
| 收敛保证 | 无 | 渐近 | 无 | 有 |
| 迭代扩展 | ❌ | ❌ | ❌ | ✅ |
| 自适应计算 | ❌ | ❌ | ❌ | ✅ |
6.2 核心创新
PG-DLM的独特贡献在于:
- 引入新的扩展轴:迭代次数这一维度在先前方法中不存在
- 理论保证:提供渐近一致性和方差界的理论分析
- 轨迹级视角:区别于所有先前方法的单轨迹优化
7. 总结与展望
PG-DLM为扩散语言模型的推理时控制提供了一种原则性方法,通过马尔可夫链蒙特卡洛(MCMC)与序贯蒙特卡洛(SMC)的结合,实现了高效的轨迹级细化。实验证明,在固定的计算预算下,增加迭代次数是提升reward-perplexity权衡的最有效方式。
未来研究方向包括:
- 与学习式twist函数的结合
- 在更长文本生成中的应用
- 与强化学习后训练的协同
Footnotes
-
Dang M, Han J, Xu M, et al. Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling[J]. arXiv preprint arXiv:2507.08390, 2025. ↩ ↩2 ↩3
-
Dang M, Han J, Xu M, et al. Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling (Extended Version)[J]. arXiv preprint arXiv:2507.08390v3, 2025. ↩ ↩2 ↩3 ↩4
-
Hertz A, Mokady R, Tenenbaum J, et al. Prompt-to-Prompt Image Editing with Cross Attention Control[C]. ICLR, 2023. ↩
-
Horvitz N, Shi J, Mandyam D, et al. A General Framework for Inference-time Scaling and Steering of Diffusion Models[J]. arXiv:2501.06848, 2025. ↩
-
Liu A, Huang P, Zhang J, et al. EntRGi: Entropy Aware Reward Guidance for Diffusion Language Models[J]. arXiv:2602.05000, 2025. ↩
-
Andrieu C, Doucet A, Holenstein R. Particle Markov Chain Monte Carlo Methods[J]. Journal of the Royal Statistical Society: Series B, 2010, 72(3): 269-342. ↩