1. 引言

Wasserstein梯度流是研究概率分布演化的强大数学工具1。与传统的 梯度流不同,Wasserstein梯度流利用**最优传输(Optimal Transport)**的几何结构,为分布动力学提供了深刻的理解。

在深度学习中,Wasserstein梯度流框架已被用于:

  • Mean-Field注意力动力学分析2
  • 神经网络训练动态3
  • 扩散模型理论4
  • 变分推断5

本文档系统介绍Wasserstein梯度流的理论基础及其在深度学习中的应用。


2. 最优传输基础

2.1 Monge问题

Monge最优传输问题(1781年)提出:

给定两个概率测度 和代价函数 ,寻找传输映射 使得:

其中 表示pushforward测度,定义为对于任意Borel集

2.2 Kantorovich松弛

Monge问题在一般情况下可能无解(无最优映射)。Kantorovich(1942年)提出了松弛形式

其中 是所有以 为边缘分布的耦合测度集合。

2.3 Wasserstein距离

对于 Wasserstein-距离定义为:

Wasserstein-2距离(最常用):

2.4 Brenier定理

绝对连续且 时,Kantorovich问题的解由Brenier映射给出:

其中 是凸函数。这建立了最优传输与Monge-Ampère方程的联系。


3. Wasserstein空间的几何结构

3.1 测地线

Wasserstein空间 是一个CAT(0)空间,具有以下性质:

对于 ,它们之间的测地线为:

其中 是从 的Brenier映射。

3.2 切空间

在点 处,Wasserstein空间的切空间 等同于:

中梯度场的闭包。直观上,切向量对应于速度场,驱动分布沿测地线移动。

3.3 内积

切空间上的内积定义为:

这一定义使得 成为希尔伯特流形


4. 梯度流理论

4.1 传统梯度流

在欧几里得空间 中,函数 梯度流由下式定义:

4.2 Wasserstein梯度流

在Wasserstein空间中,Wasserstein梯度流定义为曲线 满足:

其中 表示Wasserstein空间中的梯度。

4.3 能量-耗散等式

Wasserstein梯度流具有优雅的能量-耗散等式

其中 是耗散泛函。

这表明能量沿轨迹单调递减


5. McKean-Vlasov方程

5.1 方程定义

McKean-Vlasov方程描述了相互作用粒子的Mean-Field极限行为:

其中速度场依赖于当前分布

5.2 与Wasserstein梯度流的联系

时,McKean-Vlasov方程恰好是能量泛函

的Wasserstein梯度流。

5.3 Mean-Field注意力动力学

对于USA注意力动力学2,连续性方程为:

这正是McKean-Vlasov方程的形式,其对应的能量泛函为:


6. JKO格式

6.1 变分离散化

Jordan-Kinderlehrer-Owock(JKO)格式提供了Wasserstein梯度流的变分刻画:

其中 是时间步长。

6.2 收敛性

时,JKO序列 收敛到Wasserstein梯度流

6.3 应用

JKO格式被广泛用于:

  • Fokker-Planck方程:加入噪声项
  • 反应-扩散方程:多物种相互作用
  • 扩散生成模型:Score-Based模型的理论基础

7. 在深度学习中的应用

7.1 神经网络训练的Mean-Field分析

考虑两层神经网络的参数分布 随时间的演化。经验风险

的Wasserstein梯度流提供了神经网络训练的连续时间模型3

7.2 扩散模型的概率流 ODE

扩散模型的概率流ODE是Wasserstein梯度流的一种形式:

这与最优传输理论有深层联系4

7.3 不变度量梯度下降

**Invariant Metric Gradient Descent (IMGD)**使用Wasserstein几何来设计优化算法:

其中 是Wasserstein空间中的指数映射。


8. 数学附录

8.1 核心不等式

Wasserstein不等式

HWI不等式(Hamming-Wasserstein-Information):

8.2 梯度与散度的定义

在Wasserstein空间中,对于泛函

其中 定义。


参考文献


本文档为Transformer Mean-Field动力学理论提供最优传输与梯度流的数学基础。

Footnotes

  1. Ambrosio, L., Gigli, N., Savaré, G. “Gradient Flows in Metric Spaces and in the Space of Probability Measures.” Birkhäuser (2005).

  2. Geshkovski, B., et al. “The Mean-Field Dynamics of Transformers.” arXiv:2512.01868v1 (2025). 2

  3. Chizat, L., Bach, F. “On the Global Convergence of Gradient Descent for Over-parameterized Models using Optimal Transport.” NeurIPS (2018). 2

  4. Song, Y., et al. “Score-Based Generative Modeling through Stochastic Differential Equations.” ICLR (2021). 2

  5. Liutkus, A., et al. “Sliced-Wasserstein Flow: A Particle-Based Analog of the Wasserstein Gradient Flow.” ICML (2021).