扩散模型的PDE视角

概述

扩散模型(Diffusion Models)作为一类强大的生成模型,在图像、文本、音频等多种数据模态上取得了state-of-the-art的性能。尽管取得了显著的经验成功,其数学理论基础——特别是控制扩散动态的随机微分方程(SDE)和偏微分方程(PDE)的适定性、稳定性和一致性——仍未得到充分理解。

本文从**偏微分方程(PDE)**的视角建立扩散模型的严格数学框架,主要基于Liu & Zuazua (2025)的工作1。这一框架不仅深化了对扩散模型的理论理解,还为模型设计提供了实用的指导原则。

1. 前向扩散过程

1.1 热方程形式化

设时间范围 ,考虑空间中的前向热传导方程:

初始条件为 ,其中 表示 上的概率测度集合。

热方程的解可以通过**热核(heat kernel)**卷积给出:

其中 是标准高斯热核。

1.2 Score函数的定义

由于 是概率测度(因此非负),且热方程保持正性,对于任意 ,解 处处成立。这允许我们定义与热流相关的Score函数

Score函数是光滑且良定义的,它在扩散模型的理论和实践中都扮演着核心角色。

1.3 Li-Yau不等式

Li-Yau不等式是几何分析中的经典结果,对于热方程的正解给出精确的逐点微分估计2。在扩散模型的语境下,这一不等式表述为:

用Score函数表示,即为:

这一不等式在后面的反向动力学稳定性分析中起关键作用。

2. 反向生成过程

2.1 从热方程到Fokker-Planck方程

给定Score函数 ,热方程可以等价地重写为:

其中 是超参数。当 时,这对应于Fokker-Planck(FP)方程;当 时,这退化为双曲输运方程。

在扩散模型的语境下, 对应于DDPM中常用的方差保持(variance preserving)方案。

2.2 反向SDE形式

在Score函数的引导下,反向生成过程由以下**随机微分方程(SDE)**描述:

其中:

  • 是标准布朗运动
  • 是给定的终端概率测度(通常为高斯分布)
  • 生成的样本来自 时刻的轨迹

2.3 反向FP方程

SDE (2.2) 的概率密度 满足反向Fokker-Planck方程

3. 稳定性分析

3.1 L^p 稳定性估计

基于Li-Yau不等式,可以推导出反向FP方程的L^p 稳定性估计1

定理 3.1(能量估计):设 是反向FP方程的解,则对于任意

关键观察

  • 时,解的 范数以 的速率爆炸(blow-up)
  • 这个爆炸速率与Li-Yau不等式中的下界密切相关
  • 爆炸估计在Dirac初始分布等设置下是最优的

3.2 后向well-posedness

经典后向热方程是一个不适定问题:解在高频模式下表现出极快的增长。然而,通过Li-Yau估计,Score-based FP方程在任意严格正的时间 是适定的。

具体来说,解在 意义下连续依赖于终端条件,仅在 时发生爆炸。这与扩散模型的经验行为一致:采样开始于较大的 (噪声较大),逐渐演化到 (接近数据流形)。

4. 数据流形集中理论

4.1 熵稳定性分析

为了分析扩散模型的模仿能力(imitation capacity),我们考虑反向解是否收敛到数据流形

设两个概率测度 ,它们之间的KL散度定义为:

(当 绝对连续时)

引理 4.1(KL收缩性):设 分别是反向FP方程和正向热方程的解,则:

这一性质比经典的 收缩更强(通过Pinsker不等式联系)。

4.2 集中性定理

定理 4.2(支撑集中):假设:

  1. 初始数据分布 有紧支撑
  2. 终端分布 绝对连续于Lebesgue测度,且满足一定正则性

则:

  • 对任意序列 的弱-*拓扑下是预紧的
  • 任意弱-*极限点 满足
  • 对任意开集

物理解释:由于Score函数 是纯梯度场,相应的粒子动力学自然驱动轨迹(逆时间方向)集中在势函数 的局部极大值处——即 的支撑上。

4.3 经验情形下的收敛速率

对于经验分布 是有限个Dirac测度的混合)和确定性ODE情形),可以给出精确的** 收敛速率**1

定理 4.3(经验情形):假设 ,则对于几乎处处的初始点

其中 是某个数据点, 是仅依赖于 和时间范围 的常数。

5. 模仿能力与生成能力的权衡

5.1 理论基础

前述理论揭示了扩散模型的一个内在张力

  • Score函数在 时爆炸
  • 这种爆炸驱动轨迹收敛到数据流形 → 强模仿能力
  • 但同时限制了轨迹探索新区域 → 弱生成能力

5.2 实践策略

基于理论分析,可以采取以下策略来平衡模仿与生成

策略1:早停(Early Stopping)

处停止反向过程,而非

此时Score的散度有界 ,允许生成样本更远离训练数据。

策略2:损失函数正则化

在Score匹配损失中加入散度惩罚项:

其中 控制正则化强度。

策略3:神经网络隐式正则化

神经网络的参数化引入了隐式正则化效应

  • ReLU激活的多层感知机是全局Lipschitz连续的
  • 权重衰减隐式约束Lipschitz常数
  • 这自然地缓解了Score在 处的奇异性

5.3 经验Score vs 精确Score

是经验分布时,精确(经验)Score有显式公式

这驱动反向SDE轨迹收敛到有限点集 ,对应纯模仿而无真正生成。

关键洞察:学习到的Score函数(通过神经网络近似)避免了这种崩塌,支持更有意义的生成行为。

6. 与神经ODE的联系

6.1 概率流ODE

(无扩散项)时,反向SDE简化为确定性ODE

这与神经ODE(Neural ODE)框架密切相关,其中残差网络被解释为ODE的欧拉离散化。

6.2 统一视角

组件扩散模型神经ODE
前向过程SDE/热方程ODE积分
反向过程Score引导SDE梯度场ODE
离散化各种SDE求解器Euler/RK方法
训练目标Score matching标准损失

7. 实践启示

7.1 训练建议

基于PDE理论的分析:

  1. Score函数构造:应优先关注 范围,其中 是最小时间步
  2. 时间范围选择 不必趋向无穷,因为爆炸速率保证在任意有限 下集中性
  3. 停止时间选择:较大的 增强生成多样性但降低模仿保真度

7.2 损失函数设计

经典的Score匹配目标可从PDE分析中得到理论支持:

这等价于最小化反向FP方程与期望动态之间的KL散度。

8. 总结

从PDE角度重新审视扩散模型,我们获得了:

理论结果实践意义
Li-Yau不等式 → L^p 稳定性理解反向过程的well-posedness
熵稳定性 → 数据流形集中解释模仿能力的来源
收敛速率指导早停策略
模仿-生成权衡分析启发正则化技术

这一框架桥接了经典分析(PDE理论)与现代生成AI,为理解和改进扩散模型提供了坚实的数学基础。

参考文献

Footnotes

  1. Liu, K., & Zuazua, E. (2025). A PDE Perspective on Generative Diffusion Models. arXiv:2511.05940. https://arxiv.org/abs/2511.05940 2 3

  2. Li, P., & Yau, S. T. (1986). On the Schrödinger equation and the eigenvalue problem. Communications in Mathematical Physics, 88(3), 309-318.