Wasserstein梯度流基础

1. 引言

Wasserstein梯度流是研究概率分布演化的强大数学工具¹。与传统的 $L^{2}$ 梯度流不同，Wasserstein梯度流利用**最优传输（Optimal Transport）**的几何结构，为分布动力学提供了深刻的理解。

在深度学习中，Wasserstein梯度流框架已被用于：

Mean-Field注意力动力学分析²
神经网络训练动态³
扩散模型理论⁴
变分推断⁵

本文档系统介绍Wasserstein梯度流的理论基础及其在深度学习中的应用。

2. 最优传输基础

2.1 Monge问题

Monge最优传输问题（1781年）提出：

给定两个概率测度 $μ, ν \in P (R^{d})$ 和代价函数 $c (x, y)$ ，寻找传输映射 $T : R^{d} \to R^{d}$ 使得：

T_{#} μ = ν 且 \int c (x, T (x)) d μ (x) 最小化

其中 $T_{#} μ$ 表示pushforward测度，定义为对于任意Borel集 $A$ ：

(T_{#} μ) (A) = μ (T^{- 1} (A))

2.2 Kantorovich松弛

Monge问题在一般情况下可能无解（无最优映射）。Kantorovich（1942年）提出了松弛形式：

π \in Γ (μ, ν) in f \int c (x, y) d π (x, y)

其中 $Γ (μ, ν)$ 是所有以 $μ, ν$ 为边缘分布的耦合测度集合。

2.3 Wasserstein距离

对于 $p \geq 1$ ，Wasserstein- $p$ 距离定义为：

W_{p} (μ, ν) = (π \in Γ (μ, ν) in f \int ∥ x - y ∥^{p} d π (x, y))^{1/ p}

Wasserstein-2距离（最常用）：

W_{2} (μ, ν) = (π \in Γ (μ, ν) in f \int ∥ x - y ∥^{2} d π (x, y))^{1/2}

2.4 Brenier定理

当 $μ$ 绝对连续且 $c (x, y) = \frac{1}{2} ∥ x - y ∥^{2}$ 时，Kantorovich问题的解由Brenier映射给出：

T (x) = \nabla ϕ (x)

其中 $ϕ : R^{d} \to R$ 是凸函数。这建立了最优传输与Monge-Ampère方程的联系。

3. Wasserstein空间的几何结构

3.1 测地线

Wasserstein空间 $(P_{2} (R^{d}), W_{2})$ 是一个CAT(0)空间，具有以下性质：

对于 $μ_{0}, μ_{1} \in P_{2} (R^{d})$ ，它们之间的测地线为：

μ_{t} = ((1 - t) Id + tT)_{#} μ_{0}, t \in [0, 1]

其中 $T$ 是从 $μ_{0}$ 到 $μ_{1}$ 的Brenier映射。

3.2 切空间

在点 $μ$ 处，Wasserstein空间的切空间 $T_{μ} P_{2}$ 等同于：

T_{μ} P_{2} = \overline{{\nabla ϕ : ϕ \in C_{c}^{\infty}}}^{L^{2} (μ)}

即 $L^{2} (μ)$ 中梯度场的闭包。直观上，切向量对应于速度场，驱动分布沿测地线移动。

3.3 内积

切空间上的内积定义为：

⟨ v, w ⟩_{T_{μ} P_{2}} = \int ⟨ v (x), w (x)⟩ d μ (x)

这一定义使得 $P_{2}$ 成为希尔伯特流形。

4. 梯度流理论

4.1 传统梯度流

在欧几里得空间 $R^{n}$ 中，函数 $E$ 的梯度流由下式定义：

\overset{x}{˙} (t) = - \nabla E (x (t))

4.2 Wasserstein梯度流

在Wasserstein空间中， $E : P_{2} \to R \cup {+ \infty}$ 的Wasserstein梯度流定义为曲线 $μ (t)$ 满足：

\partial_{t} μ_{t} + \nabla \cdot (μ_{t} v_{t}) = 0

v_{t} = - \nabla_{W} E (μ_{t})

其中 $\nabla_{W}$ 表示Wasserstein空间中的梯度。

4.3 能量-耗散等式

Wasserstein梯度流具有优雅的能量-耗散等式：

\frac{d}{d t} E (μ_{t}) = - \int ∥ v_{t} ∥^{2} d μ_{t} = - 2 D (μ_{t})

其中 $D (μ_{t}) = \int ∥ \nabla_{W} E (μ_{t}) ∥^{2} d μ_{t}$ 是耗散泛函。

这表明能量沿轨迹单调递减。

5. McKean-Vlasov方程

5.1 方程定义

McKean-Vlasov方程描述了相互作用粒子的Mean-Field极限行为：

\partial_{t} μ_{t} + \nabla \cdot (μ_{t} v [μ_{t}]) = 0

其中速度场依赖于当前分布：

v [μ_{t}] (x) = \int F (x, y) d μ_{t} (y)

5.2 与Wasserstein梯度流的联系

当 $F (x, y) = - \nabla \frac{δ E}{δ μ} (x)$ 时，McKean-Vlasov方程恰好是能量泛函

E (μ) = \frac{1}{2} \iint K (x, y) d μ (x) d μ (y)

的Wasserstein梯度流。

5.3 Mean-Field注意力动力学

对于USA注意力动力学²，连续性方程为：

\partial_{t} μ_{t} + \nabla \cdot (μ_{t} v_{t} [μ_{t}]) = 0

v_{t} (x) = \int e^{β ⟨ x, y ⟩} y d μ_{t} (y)

这正是McKean-Vlasov方程的形式，其对应的能量泛函为：

E_{β} (μ) = \frac{1}{2} \iint e^{β ⟨ x, y ⟩} d μ (x) d μ (y)

6. JKO格式

6.1 变分离散化

Jordan-Kinderlehrer-Owock（JKO）格式提供了Wasserstein梯度流的变分刻画：

μ_{k + 1} \in ar g μ \in P_{2} min {\frac{1}{2 h} W_{2}^{2} (μ, μ_{k}) + E (μ)}

其中 $h > 0$ 是时间步长。

6.2 收敛性

当 $h \to 0$ 时，JKO序列 $μ_{h} (t) = μ_{⌊ t / h ⌋}$ 收敛到Wasserstein梯度流 $μ_{t}$ 。

6.3 应用

JKO格式被广泛用于：

Fokker-Planck方程：加入噪声项
反应-扩散方程：多物种相互作用
扩散生成模型：Score-Based模型的理论基础

7. 在深度学习中的应用

7.1 神经网络训练的Mean-Field分析

考虑两层神经网络的参数分布 $μ_{t}$ 随时间的演化。经验风险

E (μ) = E_{(x, y) \sim ρ} [ℓ (f (x; θ), y)]

的Wasserstein梯度流提供了神经网络训练的连续时间模型³。

7.2 扩散模型的概率流 ODE

扩散模型的概率流ODE是Wasserstein梯度流的一种形式：

d X_{t} = \nabla lo g p_{t} (X_{t}) d t

这与最优传输理论有深层联系⁴。

7.3 不变度量梯度下降

**Invariant Metric Gradient Descent (IMGD)**使用Wasserstein几何来设计优化算法：

θ_{t + 1} = exp_{θ_{t}} (- η \nabla E (θ_{t}))

其中 $exp_{θ}$ 是Wasserstein空间中的指数映射。

8. 数学附录

8.1 核心不等式

Wasserstein不等式：

W_{2} (μ, ν) \geq C \cdot TV (μ, ν)^{1/ d}

HWI不等式（Hamming-Wasserstein-Information）：

H (μ ∣ ν) \geq \frac{1}{2} W_{2}^{2} (μ, ν) / σ^{2}

8.2 梯度与散度的定义

在Wasserstein空间中，对于泛函 $E$ ：

⟨ \nabla_{W} E (μ), v ⟩ = \frac{d}{d t} E (μ_{t})_{t = 0}

其中 $μ_{t}$ 由 $\partial_{t} μ_{t} + \nabla \cdot (μ_{t} v) = 0$ 定义。

参考文献

本文档为Transformer Mean-Field动力学理论提供最优传输与梯度流的数学基础。

Ambrosio, L., Gigli, N., Savaré, G. “Gradient Flows in Metric Spaces and in the Space of Probability Measures.” Birkhäuser (2005). ↩
Geshkovski, B., et al. “The Mean-Field Dynamics of Transformers.” arXiv:2512.01868v1 (2025). ↩ ↩²
Chizat, L., Bach, F. “On the Global Convergence of Gradient Descent for Over-parameterized Models using Optimal Transport.” NeurIPS (2018). ↩ ↩²
Song, Y., et al. “Score-Based Generative Modeling through Stochastic Differential Equations.” ICLR (2021). ↩ ↩²
Liutkus, A., et al. “Sliced-Wasserstein Flow: A Particle-Based Analog of the Wasserstein Gradient Flow.” ICML (2021). ↩

Metaphor

探索

Wasserstein梯度流基础

1. 引言

2. 最优传输基础

2.1 Monge问题

2.2 Kantorovich松弛

2.3 Wasserstein距离

2.4 Brenier定理

3. Wasserstein空间的几何结构

3.1 测地线

3.2 切空间

3.3 内积

4. 梯度流理论

4.1 传统梯度流

4.2 Wasserstein梯度流

4.3 能量-耗散等式

5. McKean-Vlasov方程

5.1 方程定义

5.2 与Wasserstein梯度流的联系

5.3 Mean-Field注意力动力学

6. JKO格式

6.1 变分离散化

6.2 收敛性

6.3 应用

7. 在深度学习中的应用

7.1 神经网络训练的Mean-Field分析

7.2 扩散模型的概率流 ODE

7.3 不变度量梯度下降

8. 数学附录

8.1 核心不等式

8.2 梯度与散度的定义

参考文献

关系图谱

目录

Metaphor

探索

Wasserstein梯度流基础

1. 引言

2. 最优传输基础

2.1 Monge问题

2.2 Kantorovich松弛

2.3 Wasserstein距离

2.4 Brenier定理

3. Wasserstein空间的几何结构

3.1 测地线

3.2 切空间

3.3 内积

4. 梯度流理论

4.1 传统梯度流

4.2 Wasserstein梯度流

4.3 能量-耗散等式

5. McKean-Vlasov方程

5.1 方程定义

5.2 与Wasserstein梯度流的联系

5.3 Mean-Field注意力动力学

6. JKO格式

6.1 变分离散化

6.2 收敛性

6.3 应用

7. 在深度学习中的应用

7.1 神经网络训练的Mean-Field分析

7.2 扩散模型的概率流 ODE

7.3 不变度量梯度下降

8. 数学附录

8.1 核心不等式

8.2 梯度与散度的定义

参考文献

Footnotes

关系图谱

目录