扩散模型的PDE视角

概述

扩散模型（Diffusion Models）作为一类强大的生成模型，在图像、文本、音频等多种数据模态上取得了state-of-the-art的性能。尽管取得了显著的经验成功，其数学理论基础——特别是控制扩散动态的随机微分方程（SDE）和偏微分方程（PDE）的适定性、稳定性和一致性——仍未得到充分理解。

本文从**偏微分方程（PDE）**的视角建立扩散模型的严格数学框架，主要基于Liu & Zuazua (2025)的工作¹。这一框架不仅深化了对扩散模型的理论理解，还为模型设计提供了实用的指导原则。

1. 前向扩散过程

1.1 热方程形式化

设时间范围 $0 < T < \infty$ ，考虑 $R^{d}$ 空间中的前向热传导方程：

\partial_{t} u (x, t) - Δ u (x, t) = 0, (x, t) \in R^{d} \times (0, T]

初始条件为 $u (\cdot, 0) = u_{0} \in P (R^{d})$ ，其中 $P (R^{d})$ 表示 $R^{d}$ 上的概率测度集合。

热方程的解可以通过**热核（heat kernel）**卷积给出：

u (x, t) = (G_{t} * u_{0}) (x), G_{t} (x) = (4 π t)^{- d /2} exp (- \frac{∥ x ∥ ^{2}}{4 t})

其中 $G_{t}$ 是标准高斯热核。

1.2 Score函数的定义

由于 $u_{0}$ 是概率测度（因此非负），且热方程保持正性，对于任意 $t > 0$ ，解 $u (x, t) > 0$ 处处成立。这允许我们定义与热流相关的Score函数：

s (x, t) = \nabla lo g u (x, t) = \frac{\nabla u ( x , t )}{u ( x , t )}, (x, t) \in R^{d} \times (0, T]

Score函数是光滑且良定义的，它在扩散模型的理论和实践中都扮演着核心角色。

1.3 Li-Yau不等式

Li-Yau不等式是几何分析中的经典结果，对于热方程的正解给出精确的逐点微分估计²。在扩散模型的语境下，这一不等式表述为：

Δ lo g (u (x, t)) \geq - \frac{d}{2 t}, (x, t) \in R^{d} \times (0, T]

用Score函数表示，即为：

div s (x, t) \geq - \frac{d}{2 t}, (x, t) \in R^{d} \times (0, T]

这一不等式在后面的反向动力学稳定性分析中起关键作用。

2. 反向生成过程

2.1 从热方程到Fokker-Planck方程

给定Score函数 $s (x, t)$ ，热方程可以等价地重写为：

\partial_{t} u + ϵ Δ u - (1 + ϵ) div (s u) = 0

其中 $ϵ \geq 0$ 是超参数。当 $ϵ > 0$ 时，这对应于Fokker-Planck（FP）方程；当 $ϵ = 0$ 时，这退化为双曲输运方程。

在扩散模型的语境下， $ϵ = 1$ 对应于DDPM中常用的方差保持（variance preserving）方案。

2.2 反向SDE形式

在Score函数的引导下，反向生成过程由以下**随机微分方程（SDE）**描述：

{d X_{t} = - (1 + ϵ) s (X_{t}, t) d t + 2 ϵ d W_{t}, X_{T} \sim v_{T} t \in (0, T]

其中：

$(W_{t})_{t \geq 0}$ 是标准布朗运动
$v_{T}$ 是给定的终端概率测度（通常为高斯分布）
生成的样本来自 $t = 0$ 时刻的轨迹 $X_{0}$

2.3 反向FP方程

SDE (2.2) 的概率密度 $v (x, t)$ 满足反向Fokker-Planck方程：

{\partial_{t} v + ϵ Δ v - (1 + ϵ) div (s \cdot v) = 0, v (\cdot, T) = v_{T} (x, t) \in R^{d} \times (0, T)

3. 稳定性分析

3.1 L^p 稳定性估计

基于Li-Yau不等式，可以推导出反向FP方程的L^p 稳定性估计¹：

定理 3.1（能量估计）：设 $v$ 是反向FP方程的解，则对于任意 $t \in (0, T]$ 和 $p \in [1, \infty)$ ：

∥ v (t) ∥_{L^{p}} \leq (\frac{T}{t})^{\frac{d ( 1 + ϵ ) ( p - 1 )}{2 p}} ∥ v_{T} ∥_{L^{p}}

关键观察：

当 $t \to 0^{+}$ 时，解的 $L^{p}$ 范数以 $t^{- \frac{d ( 1 + ϵ ) ( p - 1 )}{2 p}}$ 的速率爆炸（blow-up）
这个爆炸速率与Li-Yau不等式中的下界密切相关
爆炸估计在Dirac初始分布等设置下是最优的

3.2 后向well-posedness

经典后向热方程是一个不适定问题：解在高频模式下表现出极快的增长。然而，通过Li-Yau估计，Score-based FP方程在任意严格正的时间 $t > 0$ 是适定的。

具体来说，解在 $L^{p}$ 意义下连续依赖于终端条件，仅在 $t \to 0$ 时发生爆炸。这与扩散模型的经验行为一致：采样开始于较大的 $t$ （噪声较大），逐渐演化到 $t \to 0$ （接近数据流形）。

4. 数据流形集中理论

4.1 熵稳定性分析

为了分析扩散模型的模仿能力（imitation capacity），我们考虑反向解是否收敛到数据流形 $supp (u_{0})$ 。

设两个概率测度 $m_{1}, m_{2} \in P (R^{d})$ ，它们之间的KL散度定义为：

KL (m_{1} ∥ m_{2}) = \int_{R^{d}} lo g (\frac{m _{1} ( x )}{m _{2} ( x )}) d m_{1} (x)

（当 $m_{1}$ 对 $m_{2}$ 绝对连续时）

引理 4.1（KL收缩性）：设 $v (t)$ 和 $u (t)$ 分别是反向FP方程和正向热方程的解，则：

KL (v (t_{1}) ∥ u (t_{1})) \leq KL (v (t_{2}) ∥ u (t_{2})), \forall 0 < t_{1} \leq t_{2} \leq T

这一性质比经典的 $L^{1}$ 收缩更强（通过Pinsker不等式联系）。

4.2 集中性定理

定理 4.2（支撑集中）：假设：

初始数据分布 $u_{0}$ 有紧支撑
终端分布 $v_{T}$ 绝对连续于Lebesgue测度，且满足一定正则性

则：

对任意序列 $t_{n} \to 0^{+}$ ， ${v (t_{n})}_{n \geq 1}$ 在 $P (R^{d})$ 的弱-*拓扑下是预紧的
任意弱-*极限点 $v^{*}$ 满足 $supp (v^{*}) \subset supp (u_{0})$
对任意开集 $U \supset supp (u_{0})$ ：

t \to 0^{+} lim v (t) (U) = 1, t \to 0^{+} lim P (X_{t} \in U) = 1

物理解释：由于Score函数 $s = \nabla lo g u$ 是纯梯度场，相应的粒子动力学自然驱动轨迹（逆时间方向）集中在势函数 $lo g u$ 的局部极大值处——即 $u_{0}$ 的支撑上。

4.3 经验情形下的收敛速率

对于经验分布（ $u_{0}$ 是有限个Dirac测度的混合）和确定性ODE情形（ $ϵ = 0$ ），可以给出精确的** $t$ 收敛速率**¹：

定理 4.3（经验情形）：假设 $u_{0} = \sum_{k = 1}^{N} w_{k} δ_{y_{k}}$ ，则对于几乎处处的初始点 $x_{T}$ ：

∥ X_{t} - y_{i} ∥ \leq C t, \forall t \in (0, T]

其中 $y_{i}$ 是某个数据点， $C$ 是仅依赖于 $x_{T}$ 和时间范围 $T$ 的常数。

5. 模仿能力与生成能力的权衡

5.1 理论基础

前述理论揭示了扩散模型的一个内在张力：

Score函数在 $t \to 0$ 时爆炸： $div s \geq - d / (2 t)$
这种爆炸驱动轨迹收敛到数据流形 → 强模仿能力
但同时限制了轨迹探索新区域 → 弱生成能力

5.2 实践策略

基于理论分析，可以采取以下策略来平衡模仿与生成：

策略1：早停（Early Stopping）

在 $t_{m i n} > 0$ 处停止反向过程，而非 $t = 0$ ：

v (t) 在 t \in [t_{m i n}, T] 内

此时Score的散度有界 $- \frac{d}{2 t _{m i n}}$ ，允许生成样本更远离训练数据。

策略2：损失函数正则化

在Score匹配损失中加入散度惩罚项：

θ min \frac{1}{N} k = 1 \sum N \int_{0}^{T} \int_{R^{d}} s_{θ} (x, t) - \frac{y _{k} - x}{2 t}^{2} + λ (div_{x} s_{θ} (x, t))^{2} G_{t} (x - y_{k}) d x d t

其中 $λ \geq 0$ 控制正则化强度。

策略3：神经网络隐式正则化

神经网络的参数化引入了隐式正则化效应：

ReLU激活的多层感知机是全局Lipschitz连续的
权重衰减隐式约束Lipschitz常数
这自然地缓解了Score在 $t \to 0$ 处的奇异性

5.3 经验Score vs 精确Score

当 $u_{0}$ 是经验分布时，精确（经验）Score有显式公式：

s (x, t) = \frac{1}{2 t} (\frac{\sum _{k = 1}^{N} e ^{- ∥ x - y_{k} ∥^{2} /4 t} y _{k}}{\sum _{k = 1}^{N} e ^{- ∥ x - y_{k} ∥^{2} /4 t}} - x)

这驱动反向SDE轨迹收敛到有限点集 ${y_{1}, \dots, y_{N}}$ ，对应纯模仿而无真正生成。

关键洞察：学习到的Score函数（通过神经网络近似）避免了这种崩塌，支持更有意义的生成行为。

6. 与神经ODE的联系

6.1 概率流ODE

当 $ϵ = 0$ （无扩散项）时，反向SDE简化为确定性ODE：

\frac{d X _{t}}{d t} = - s (X_{t}, t), X_{T} = x_{T}

这与神经ODE（Neural ODE）框架密切相关，其中残差网络被解释为ODE的欧拉离散化。

6.2 统一视角

组件	扩散模型	神经ODE
前向过程	SDE/热方程	ODE积分
反向过程	Score引导SDE	梯度场ODE
离散化	各种SDE求解器	Euler/RK方法
训练目标	Score matching	标准损失

7. 实践启示

7.1 训练建议

基于PDE理论的分析：

Score函数构造：应优先关注 $t \in [τ, T]$ 范围，其中 $τ$ 是最小时间步
时间范围选择： $T$ 不必趋向无穷，因为爆炸速率保证在任意有限 $T > 0$ 下集中性
停止时间选择：较大的 $t_{m i n}$ 增强生成多样性但降低模仿保真度

7.2 损失函数设计

经典的Score匹配目标可从PDE分析中得到理论支持：

θ min E_{t, x, y} [∥ s_{θ} (x, t) - \frac{y - x}{2 t} ∥^{2}]

这等价于最小化反向FP方程与期望动态之间的KL散度。

8. 总结

从PDE角度重新审视扩散模型，我们获得了：

理论结果	实践意义
Li-Yau不等式 → L^p 稳定性	理解反向过程的well-posedness
熵稳定性 → 数据流形集中	解释模仿能力的来源
$t$ 收敛速率	指导早停策略
模仿-生成权衡分析	启发正则化技术

这一框架桥接了经典分析（PDE理论）与现代生成AI，为理解和改进扩散模型提供了坚实的数学基础。

参考文献

Liu, K., & Zuazua, E. (2025). A PDE Perspective on Generative Diffusion Models. arXiv:2511.05940. https://arxiv.org/abs/2511.05940 ↩ ↩² ↩³
Li, P., & Yau, S. T. (1986). On the Schrödinger equation and the eigenvalue problem. Communications in Mathematical Physics, 88(3), 309-318. ↩

Metaphor

探索

扩散模型的PDE视角

扩散模型的PDE视角

概述

1. 前向扩散过程

1.1 热方程形式化

1.2 Score函数的定义

1.3 Li-Yau不等式

2. 反向生成过程

2.1 从热方程到Fokker-Planck方程

2.2 反向SDE形式

2.3 反向FP方程

3. 稳定性分析

3.1 L^p 稳定性估计

3.2 后向well-posedness

4. 数据流形集中理论

4.1 熵稳定性分析

4.2 集中性定理

4.3 经验情形下的收敛速率

5. 模仿能力与生成能力的权衡

5.1 理论基础

5.2 实践策略

策略1：早停（Early Stopping）

策略2：损失函数正则化

策略3：神经网络隐式正则化

5.3 经验Score vs 精确Score

6. 与神经ODE的联系

6.1 概率流ODE

6.2 统一视角

7. 实践启示

7.1 训练建议

7.2 损失函数设计

8. 总结

参考文献

关系图谱

目录

Metaphor

探索

扩散模型的PDE视角

扩散模型的PDE视角

概述

1. 前向扩散过程

1.1 热方程形式化

1.2 Score函数的定义

1.3 Li-Yau不等式

2. 反向生成过程

2.1 从热方程到Fokker-Planck方程

2.2 反向SDE形式

2.3 反向FP方程

3. 稳定性分析

3.1 L^p 稳定性估计

3.2 后向well-posedness

4. 数据流形集中理论

4.1 熵稳定性分析

4.2 集中性定理

4.3 经验情形下的收敛速率

5. 模仿能力与生成能力的权衡

5.1 理论基础

5.2 实践策略

策略1：早停（Early Stopping）

策略2：损失函数正则化

策略3：神经网络隐式正则化

5.3 经验Score vs 精确Score

6. 与神经ODE的联系

6.1 概率流ODE

6.2 统一视角

7. 实践启示

7.1 训练建议

7.2 损失函数设计

8. 总结

参考文献

Footnotes

关系图谱

目录