扩散模型变分推断理论

扩散模型（Diffusion Models）是当前生成式AI的核心技术之一。从变分推断的视角理解扩散模型，可以建立它与VAE、Score Matching的深层联系，形成统一的理论框架。

1. 从ELBO到扩散模型

1.1 变分推断基础回顾

给定观测数据 $x$ 和潜在变量 $z$ ，目标是最大化对数似然 $lo g p (x)$ 。直接计算困难：

p (x) = \int p (x, z) d z

引入近似后验 $q_{ϕ} (z ∣ x)$ ，可以推导出证据下界（ELBO）¹：

lo g p (x) \geq E_{q_{ϕ} (z ∣ x)} [lo g \frac{p ( x , z )}{q _{ϕ} ( z ∣ x )}]

展开为：

L = 重构项 E_{q_{ϕ} (z ∣ x)} [lo g p (x ∣ z)] - 正则化项 D_{KL} (q_{ϕ} (z ∣ x) ∥ p (z))

1.2 分层VAE视角

扩散模型可以视为无限深的分层VAE¹：

传统VAE:                    扩散模型（无限深VAE）:
┌────────┐                 ┌────────┐
│  x_0   │                 │  x_0   │ ← 真实数据
└───┬────┘                 └───┬────┘
    │ q(z|x)                  │ q(x_1|x_0)
┌───▼────┐                 ┌───▼────┐
│  z     │                 │  x_1   │ ← 轻微噪声
└───┬────┘                 └───┬────┘
    │ p(x|z)                  │ q(x_2|x_1)
┌───▼────┐                 ┌───▼────┐
│  x     │                 │  x_2   │ ← 更多噪声
└────────┘                 └───┬────┘
                               │     ...
                            ┌──▼────┐
                            │  x_T  │ ← 完全噪声 (标准高斯)
                            └────────┘

1.3 扩散模型的三条核心假设

变分扩散模型（VDM）有三个关键限制¹²：

维度相等：潜在变量维度等于数据维度
$x_{t} \in R^{d} \forall t$
编码器结构固定：每个层级是线性高斯模型
$q (x_{t} ∣ x_{t - 1}) = N (x_{t}; α_{t} x_{t - 1}, (1 - α_{t}) I)$
最终分布为标准高斯：
$q (x_{T}) \approx N (0, I)$

2. VDM的ELBO推导

2.1 马尔可夫HVAE的ELBO

设扩散步数为 $T$ ，定义：

联合分布（生成过程）：
$p (x_{0 : T}) = p (x_{T}) \prod_{t = 1}^{T} p_{θ} (x_{t - 1} ∣ x_{t})$
变分后验（前向过程）：
$q (x_{1 : T} ∣ x_{0}) = \prod_{t = 1}^{T} q (x_{t} ∣ x_{t - 1})$

2.2 ELBO的分解

使用Jensen不等式：

lo g p (x_{0}) \geq E_{q} [lo g \frac{p ( x _{0 : T} )}{q ( x _{1 : T} ∣ x _{0} )}]

展开后得到三项分解：

L = 重构项 E_{q} [lo g p (x_{0} ∣ x_{1})] - 终端 KL D_{KL} (q (x_{T} ∣ x_{0}) ∥ p (x_{T})) - 去噪匹配项 t = 2 \sum T D_{KL} (q (x_{t - 1} ∣ x_{t}, x_{0}) ∥ p_{θ} (x_{t - 1} ∣ x_{t}))

2.3 去噪匹配项的物理意义

关键观察：第 $t$ 个去噪匹配项是真实后验 $q (x_{t - 1} ∣ x_{t}, x_{0})$ 与学习到的去噪先验 $p_{θ} (x_{t - 1} ∣ x_{t})$ 之间的KL散度。

根据贝叶斯定理：

q (x_{t - 1} ∣ x_{t}, x_{0}) = \frac{q ( x _{t} ∣ x _{t - 1} ) q ( x _{t - 1} ∣ x _{0} )}{q ( x _{t} ∣ x _{0} )}

这意味着：

给定 $x_{0}$ 和 $x_{t}$ ，可以计算真实后验
训练目标是让 $p_{θ} (x_{t - 1} ∣ x_{t})$ 逼近这个后验

3. 与Score Matching的联系

3.1 分数函数的定义

定义：数据分布 $p (x)$ 的**分数函数（Score Function）**定义为：

\nabla_{x} lo g p (x)

它指向概率密度增长最快的方向。

3.2 去噪得分匹配

训练去噪扩散模型等价于去噪得分匹配（Denoising Score Matching）²：

目标函数：

L_{DSM} = E_{t, x_{0}, ϵ} [ϵ - \frac{1}{1 - α ˉ _{t}} \cdot s_{θ} (x_{t}, t)^{2}]

其中：

$ϵ \sim N (0, I)$ ：添加的噪声
$s_{θ} (x_{t}, t)$ ：网络预测的分数函数
$\overset{α}{ˉ}_{t}$ ：噪声调度参数

3.3 Tweedie公式

Tweedie公式建立了条件均值与分数函数的联系：

E [x_{0} ∣ x_{t}] = \frac{1}{α ˉ _{t}} (x_{t} + (1 - \overset{α}{ˉ}_{t}) \nabla_{x_{t}} lo g q (x_{t}))

这表明：给定加噪观测 $x_{t}$ ，可以估计原始数据 $x_{0}$ 。

3.4 三种等价形式

Song等人证明以下三种目标函数是等价的²³：

形式	描述
原始ELBO	$E_{q} [lo g p_{θ} (x_{0 : T}) - lo g q (x_{1 : T} ∥ x_{0})]$
去噪ELBO	各噪声水平的加权ELBO之和
Score Matching	$E_{t, x_{0}, ϵ} [∥∥ s_{θ} (x_{t}, t) - \nabla_{x_{t}} lo g q (x_{t} ∥ x_{0}) ∥ ∥^{2}]$

4. 方差调度策略

4.1 线性vs余弦调度

线性调度（DDPM原始）：

β_{t} = β_{m i n} + t / T \cdot (β_{m a x} - β_{m i n})

余弦调度（改进版）：

\overset{α}{ˉ}_{t} = \frac{1}{2} (1 + cos (\frac{t / T \cdot π}{1 + s}))

余弦调度在实践中表现更好，特别是在高分辨率图像生成中。

4.2 学习vs固定调度

类型	优点	缺点
固定调度	简单稳定	可能非最优
学习调度	更灵活	训练复杂

5. 统一视角：扩散作为变分自编码器

5.1 核心等价性

扩散模型可以完全从变分推断的角度理解¹：

┌─────────────────────────────────────────────────────────┐
│                                                         │
│   ┌─────────┐      VAE        ┌─────────────┐          │
│   │  x_0    │ ◄───────────► │ VAE Encoder │          │
│   │ (数据)   │                │ q(z|x)      │          │
│   └────┬────┘                └──────┬──────┘          │
│        │                              │                │
│        │ 扩散模型 = 无限深的马尔可夫HVAE               │
│        ▼                              ▼                │
│   ┌─────────┐                ┌─────────────┐          │
│   │ x_T     │                │  x_1 (潜在) │          │
│   │ (噪声)   │                │             │          │
│   └─────────┘                └─────────────┘          │
│                                                         │
│   VAE优化：ELBO                                        │
│   扩散优化：去噪得分匹配（ELBO的等价形式）              │
│                                                         │
└─────────────────────────────────────────────────────────┘

5.2 训练目标简化

实践中简化的训练目标：

L_{simple} = E_{t, x_{0}, ϵ} [∥∥ ϵ - ϵ_{θ} (x_{t}, t) ∥ ∥^{2}]

这直接预测添加的噪声，与ELBO理论预测的分数函数等价。

5.3 生成过程的变分视角

反向过程 $p_{θ} (x_{t - 1} ∣ x_{t})$ 本身就是变分后验：

p_{θ} (x_{t - 1} ∣ x_{t}) \approx q (x_{t - 1} ∣ x_{t}, x_{0}^{*})

其中 $x_{0}^{*}$ 是网络估计的原始数据。

6. 进阶理论：连续时间扩散

6.1 SDE视角

当 $T \to \infty$ ，扩散过程可以表示为随机微分方程（SDE）³：

d x = f (x, t) d t + g (t) d w

其中 $f$ 是漂移函数， $g$ 是扩散系数， $w$ 是维纳过程。

6.2 ODE形式（概率流）

对应的概率流ODE：

d x = [f (x, t) - \frac{1}{2} g (t)^{2} \nabla_{x} lo g p_{t} (x)] d t

这使得确定性采样成为可能（如DDIM）。

6.3 连续时间ELBO

连续时间ELBO变为：

L_{cont} = - \int_{0}^{T} \frac{1}{2} g (t)^{2} \cdot E [s_{θ} (x_{t}, t) - \nabla_{x_{t}} lo g p_{0∣ t} (x_{t} ∣ x_{0})^{2}] d t

7. 与能量模型的联系

7.1 能量基模型视角

扩散模型的本质是学习能量函数：

E_{θ} (x, t) = \frac{1}{2} ∥ s_{θ} (x, t) ∥^{2}

分数函数是能量函数的梯度：

s_{θ} (x, t) = \nabla_{x} lo g p_{θ} (x, t) = - \nabla_{x} E_{θ} (x, t)

7.2 朗之万动力学采样

给定学习的分数函数，可以用朗之万动力学生成样本：

x_{i + 1} = x_{i} + η \nabla_{x} lo g p (x_{i}) + 2 η ϵ

其中 $η$ 是步长， $ϵ \sim N (0, I)$ 。

8. 实践注意事项

8.1 训练稳定性

噪声水平控制：确保 $1 - \overset{α}{ˉ}_{t}$ 在合理范围
网络架构：U-Net + time embedding 是标准选择
EMA：指数移动平均提高生成质量

8.2 采样步数选择

步数	质量	速度
1000	最优	慢
100	接近最优	中等
20-50	可接受	快
1-10	差（需特殊方法）	很快

8.3 条件生成

通过以下方式实现条件控制：

Classifier Guidance：额外训练分类器 $p (y ∣ x_{t})$
Classifier-Free Guidance：联合训练条件/无条件模型

参考资料

Luo C. Understanding Diffusion Models: A Unified Perspective. calvinyluo.com, 2022. ↩ ↩² ↩³ ↩⁴
Kingma D P, et al. Variational Diffusion Models. NeurIPS 2021. ↩ ↩² ↩³
Song Y, et al. A Variational Perspective on Diffusion-Based Generative Models and Score Matching. NeurIPS 2021. ↩ ↩²

Metaphor

探索

扩散模型变分推断理论

扩散模型变分推断理论

1. 从ELBO到扩散模型

1.1 变分推断基础回顾

1.2 分层VAE视角

1.3 扩散模型的三条核心假设

2. VDM的ELBO推导

2.1 马尔可夫HVAE的ELBO

2.2 ELBO的分解

2.3 去噪匹配项的物理意义

3. 与Score Matching的联系

3.1 分数函数的定义

3.2 去噪得分匹配

3.3 Tweedie公式

3.4 三种等价形式

4. 方差调度策略

4.1 线性vs余弦调度

4.2 学习vs固定调度

5. 统一视角：扩散作为变分自编码器

5.1 核心等价性

5.2 训练目标简化

5.3 生成过程的变分视角

6. 进阶理论：连续时间扩散

6.1 SDE视角

6.2 ODE形式（概率流）

6.3 连续时间ELBO

7. 与能量模型的联系

7.1 能量基模型视角

7.2 朗之万动力学采样

8. 实践注意事项

8.1 训练稳定性

8.2 采样步数选择

8.3 条件生成

参考资料

关系图谱

目录

Metaphor

探索

扩散模型变分推断理论

扩散模型变分推断理论

1. 从ELBO到扩散模型

1.1 变分推断基础回顾

1.2 分层VAE视角

1.3 扩散模型的三条核心假设

2. VDM的ELBO推导

2.1 马尔可夫HVAE的ELBO

2.2 ELBO的分解

2.3 去噪匹配项的物理意义

3. 与Score Matching的联系

3.1 分数函数的定义

3.2 去噪得分匹配

3.3 Tweedie公式

3.4 三种等价形式

4. 方差调度策略

4.1 线性vs余弦调度

4.2 学习vs固定调度

5. 统一视角：扩散作为变分自编码器

5.1 核心等价性

5.2 训练目标简化

5.3 生成过程的变分视角

6. 进阶理论：连续时间扩散

6.1 SDE视角

6.2 ODE形式（概率流）

6.3 连续时间ELBO

7. 与能量模型的联系

7.1 能量基模型视角

7.2 朗之万动力学采样

8. 实践注意事项

8.1 训练稳定性

8.2 采样步数选择

8.3 条件生成

参考资料

Footnotes

关系图谱

目录