1. 引言
Wasserstein梯度流是研究概率分布演化的强大数学工具1。与传统的 梯度流不同,Wasserstein梯度流利用**最优传输(Optimal Transport)**的几何结构,为分布动力学提供了深刻的理解。
在深度学习中,Wasserstein梯度流框架已被用于:
本文档系统介绍Wasserstein梯度流的理论基础及其在深度学习中的应用。
2. 最优传输基础
2.1 Monge问题
Monge最优传输问题(1781年)提出:
给定两个概率测度 和代价函数 ,寻找传输映射 使得:
其中 表示pushforward测度,定义为对于任意Borel集 :
2.2 Kantorovich松弛
Monge问题在一般情况下可能无解(无最优映射)。Kantorovich(1942年)提出了松弛形式:
其中 是所有以 为边缘分布的耦合测度集合。
2.3 Wasserstein距离
对于 ,Wasserstein-距离定义为:
Wasserstein-2距离(最常用):
2.4 Brenier定理
当 绝对连续且 时,Kantorovich问题的解由Brenier映射给出:
其中 是凸函数。这建立了最优传输与Monge-Ampère方程的联系。
3. Wasserstein空间的几何结构
3.1 测地线
Wasserstein空间 是一个CAT(0)空间,具有以下性质:
对于 ,它们之间的测地线为:
其中 是从 到 的Brenier映射。
3.2 切空间
在点 处,Wasserstein空间的切空间 等同于:
即 中梯度场的闭包。直观上,切向量对应于速度场,驱动分布沿测地线移动。
3.3 内积
切空间上的内积定义为:
这一定义使得 成为希尔伯特流形。
4. 梯度流理论
4.1 传统梯度流
在欧几里得空间 中,函数 的梯度流由下式定义:
4.2 Wasserstein梯度流
在Wasserstein空间中, 的Wasserstein梯度流定义为曲线 满足:
其中 表示Wasserstein空间中的梯度。
4.3 能量-耗散等式
Wasserstein梯度流具有优雅的能量-耗散等式:
其中 是耗散泛函。
这表明能量沿轨迹单调递减。
5. McKean-Vlasov方程
5.1 方程定义
McKean-Vlasov方程描述了相互作用粒子的Mean-Field极限行为:
其中速度场依赖于当前分布:
5.2 与Wasserstein梯度流的联系
当 时,McKean-Vlasov方程恰好是能量泛函
的Wasserstein梯度流。
5.3 Mean-Field注意力动力学
对于USA注意力动力学2,连续性方程为:
这正是McKean-Vlasov方程的形式,其对应的能量泛函为:
6. JKO格式
6.1 变分离散化
Jordan-Kinderlehrer-Owock(JKO)格式提供了Wasserstein梯度流的变分刻画:
其中 是时间步长。
6.2 收敛性
当 时,JKO序列 收敛到Wasserstein梯度流 。
6.3 应用
JKO格式被广泛用于:
- Fokker-Planck方程:加入噪声项
- 反应-扩散方程:多物种相互作用
- 扩散生成模型:Score-Based模型的理论基础
7. 在深度学习中的应用
7.1 神经网络训练的Mean-Field分析
考虑两层神经网络的参数分布 随时间的演化。经验风险
的Wasserstein梯度流提供了神经网络训练的连续时间模型3。
7.2 扩散模型的概率流 ODE
扩散模型的概率流ODE是Wasserstein梯度流的一种形式:
这与最优传输理论有深层联系4。
7.3 不变度量梯度下降
**Invariant Metric Gradient Descent (IMGD)**使用Wasserstein几何来设计优化算法:
其中 是Wasserstein空间中的指数映射。
8. 数学附录
8.1 核心不等式
Wasserstein不等式:
HWI不等式(Hamming-Wasserstein-Information):
8.2 梯度与散度的定义
在Wasserstein空间中,对于泛函 :
其中 由 定义。
参考文献
本文档为Transformer Mean-Field动力学理论提供最优传输与梯度流的数学基础。
Footnotes
-
Ambrosio, L., Gigli, N., Savaré, G. “Gradient Flows in Metric Spaces and in the Space of Probability Measures.” Birkhäuser (2005). ↩
-
Geshkovski, B., et al. “The Mean-Field Dynamics of Transformers.” arXiv:2512.01868v1 (2025). ↩ ↩2
-
Chizat, L., Bach, F. “On the Global Convergence of Gradient Descent for Over-parameterized Models using Optimal Transport.” NeurIPS (2018). ↩ ↩2
-
Song, Y., et al. “Score-Based Generative Modeling through Stochastic Differential Equations.” ICLR (2021). ↩ ↩2
-
Liutkus, A., et al. “Sliced-Wasserstein Flow: A Particle-Based Analog of the Wasserstein Gradient Flow.” ICML (2021). ↩