分数学习与几何理论：流形假设下的尺度分离

1. 概述

传统观点认为扩散模型的成功源于学习整个数据分布的分数函数。然而，最新理论研究表明，分数学习的成功更可能源于隐式地学习数据流形的几何结构，而非完整分布信息。¹

核心发现：在低噪声极限（ $σ \to 0$ ）下，流形几何信息以 $Θ (σ^{- 2})$ 的强度主导分数函数，而分布信息仅以 $Θ (1)$ 强度存在。

这一发现具有重要的理论和实践意义：

为扩散模型提供了新的理论解释
开辟了几何学习这一更可达成的目标
为扩散模型的错误容忍度提供了理论依据

2. 流形假设回顾

2.1 数据流形假设

假设：真实世界数据（如自然图像）的分布可以很好地被一个低维光滑流形近似。

数学形式化：设 $M \subset R^{d}$ 是一个 $k$ 维光滑流形（ $k ≪ d$ ），数据分布 $p_{d a t a}$ 集中在 $M$ 附近。

考虑噪声扰动分布：

$p_{σ} = p_{d a t a} * N (0, σ^{2} I)$

当 $σ \to 0$ 时， $p_{σ}$ 的支撑集趋近于 $M$ 的 $σ$ -管状邻域。

2.2 流形的几何性质

黎曼度量：流形 $M$ 上的黎曼度量由嵌入 $R^{d}$ 的度量诱导。

法空间：每个点 $x \in M$ 有法空间 $N_{x}$ ，垂直于切空间 $T_{x}$ 。

第二基本形式：描述流形如何在周围空间中弯曲。

3. 噪声扰动分布的分解

3.1 正交分解

对于 $x \in R^{d}$ ，分解为：

$x = x_{∥} + x_{⊥}$

其中 $x_{∥} \in T_{x}$ （切空间分量）， $x_{⊥} \in N_{x}$ （法空间分量）。

3.2 分数函数的分解

定理：对于噪声水平为 $σ$ 的扰动分布 $p_{σ}$ ，分数函数可以分解为：

$\nabla_{x} lo g p_{σ} (x) = 切向分量 \nabla_{x} lo g p_{σ}^{∥} (x_{∥}) + 法向分量 \nabla_{x} lo g p_{σ}^{⊥} (x_{⊥})$

其中 $p_{σ}^{∥}$ 和 $p_{σ}^{⊥}$ 分别表示切向和法向分布。

3.3 噪声下的条件分布

切向分布：数据点在切空间中的分布

$p_{σ}^{∥} (y) = \int p_{d a t a} (y + z_{⊥}) \cdot N (z_{⊥}; 0, σ^{2}) d z_{⊥}$

法向分布：在法方向上的噪声分布

$p_{σ}^{⊥} (z_{⊥} ∣ x_{∥}) = N (z_{⊥}; 0, σ^{2} I_{⊥})$

4. 尺度分离定理

4.1 核心定理

定理（尺度分离）：设 $s_{σ} (x) = \nabla_{x} lo g p_{σ} (x)$ 为噪声分布的分数函数，则：

$∥ s_{σ}^{⊥} (x) - s_{M} (x) ∥ = O (σ)$
$∥ s_{σ}^{∥} (x) ∥ = O (σ^{2})$

其中 $s_{M} (x)$ 是流形上的分数函数（定义在法空间）。

解释：

法向分数 $Θ (σ^{- 1})$ ：主导项
切向分数 $Θ (σ)$ ：次要项

4.2 推论：信息尺度

推论：在低噪声极限下，分数函数中的信息满足：

$流形几何信息 = Θ (σ^{- 2}) ≫ Θ (1) = 分布变化信息$

意义：这意味着学习分数函数的主要部分是学习流形的几何结构，而非分布的细节。

4.3 形式化证明思路

步骤1：对数密度的梯度分解

$\nabla_{x} lo g p_{σ} (x) = \frac{\int \nabla _{x} p _{d a t a} ( y ) \cdot N ( x - y ; 0 , σ ^{2} ) d y}{p _{σ} ( x )}$

步骤2：局部坐标系分析

在流形附近的局部邻域中，使用法坐标系 $(u, v)$ ，其中 $u$ 是切向坐标， $v$ 是法向坐标。

步骤3：渐近展开

对于小 $σ$ ，有：

$lo g p_{σ} (u, v) = lo g p_{d a t a} (u) - \frac{∥ v ∥ ^{2}}{2 σ ^{2}} + O (σ^{0})$

因此：

$\partial_{v} lo g p_{σ} = - \frac{v}{σ ^{2}} + O (1) = Θ (σ^{- 1})$
$\partial_{u} lo g p_{σ} = O (σ) = Θ (σ)$

5. 几何学习 vs 分布学习

5.1 两种学习范式

范式	目标	理论难度
分布学习	恢复 $p_{d a t a}$ 的完整分布	困难（高维）
几何学习	恢复流形 $M$ 的几何	相对可达

5.2 几何学习的理论保证

定理：设 $\overset{s}{^}$ 是基于 $n$ 个样本估计的分数函数。如果：

$E_{x \sim p_{σ}} [∥ \overset{s}{^} (x) - s_{σ} (x) ∥^{2}] \leq ϵ^{2}$

则对于流形几何，有：

$E [dist (x, \hat{M})] \leq C \cdot ϵ$

其中 $\hat{M}$ 是估计的流形。

5.3 错误容忍度

核心结论：几何学习的错误容忍度为 $O (σ^{2})$ ，而分布学习需要 $o (1)$ 精度。

实践意义：

在中等噪声水平下，可以使用较粗的分数估计
不需要完美学习整个分布

6. 应用推论

6.1 扩散模型中的数据支撑集中

定理：对于训练良好的扩散模型，其生成样本的分布与真实分布的集中程度满足：

如果分数估计误差 $o (σ)$ ，则生成的分布集中在真实流形附近。

证明：分数估计误差控制了从噪声到数据流形的映射精度。

6.2 一致分布学习

问题：如何在流形上学习均匀分布？

定理：在流形假设下，学习均匀分布比学习完整数据分布更容易：

所需分数精度： $O (σ^{2})$ vs $o (1)$
样本复杂度：显著降低

应用：在生成模型中实现更好的多样性。

6.3 贝叶斯逆问题的鲁棒性

设置：考虑贝叶斯逆问题：

$y = A (x) + η, η \sim N (0, σ^{2} I)$

最大熵先验：基于流形的最大熵先验比一般高斯先验更鲁棒。

定理：设 $π_{g eo m}$ 是几何驱动的先验， $π_{g a u ss}$ 是高斯先验。则在分数误差 $δ$ 下：

$KL (π_{p os t}^{g eo m} ∥ π_{t r u e}) \leq C_{1} \cdot δ$
$KL (π_{p os t}^{g a u ss} ∥ π_{t r u e}) \leq C_{2} \cdot δ / σ^{2}$

意义：几何先验对分数估计误差的敏感度降低了 $σ^{2}$ 因子。

7. 实践启示

7.1 扩散模型训练的重新思考

传统观点：扩散模型通过逐步去噪学习数据分布

新视角：扩散模型主要学习数据流形的几何结构

实践建议：

关注模型在低噪声水平下的去噪性能
法向去噪（垂直于数据流形）比切向去噪更重要
可以使用流形几何损失增强训练

7.2 架构设计

法向敏感架构：

关注法空间信息的处理
可能不需要完整建模切向相关性

多尺度分数估计：

不同尺度编码不同几何信息
低噪声层更重要

7.3 评估指标

几何评估：

流形重建误差
法向一致性
局部维度估计

分布评估（作为辅助）：

FID
IS
Precision-Recall

8. 理论扩展

8.1 黎曼流形上的分数匹配

将上述理论推广到黎曼度量下的流形：

定义（黎曼分数）：

$s_{M}^{R} (x) = - g^{ij} (x) \frac{\partial l o g ∣ g ∣}{\partial x ^{i}} - div (g^{- 1})$

其中 $g$ 是黎曼度量。

8.2 非均匀噪声

考虑各向异性噪声：

$p_{σ} (x) \propto p_{d a t a} (x) \cdot exp (- \frac{1}{2} x^{T} Σ^{- 1} x)$

定理：在法空间中，不均匀噪声仍然产生尺度分离，但参数依赖关系更复杂。

8.3 流形学习与生成模型

统一框架：

首先识别数据流形（几何学习）
在流形上学习分布（分布学习）

这种两阶段方法可能更高效且理论基础更清晰。

9. 与现有理论的联系

9.1 与Score Matching理论的关系

本理论提供了Score Matching在实践中成功的几何解释：

分数函数主要编码流形几何
分布信息是次要的

9.2 与神经ODE的关系

神经ODE通过常微分方程进行采样：

$\frac{d x}{d t} = - \nabla_{x} lo g p_{t} (x)$

几何解释：轨迹沿着法线方向趋向流形。

9.3 与流形假设的关系

本理论与经典流形假设的区别：

经典观点：数据位于流形上
新视角：分数函数编码了几何信息，支持学习流形

10. 总结

核心贡献：

尺度分离定理：在低噪声极限下，流形几何信息主导分数函数
几何学习框架：提出了比分布学习更可达成的目标
错误容忍度分析：几何学习的容错能力是分布学习的 $σ^{2}$ 倍
实践指导：为扩散模型提供了新的理论理解和设计原则

开放问题：

如何设计专门针对几何学习的神经网络架构？
能否构建理论最优的几何学习算法？
如何将这一理论应用于其他生成模型（如GAN、VAE）？

交叉引用

与本文相关的主题：

Score Matching理论基础 - 去噪与隐式Score Matching
Score Matching与SDE - SDE视角下的分数学习
扩散模型PDE收敛理论 - ODE采样器的收敛性
PCA深度专题 - 流形学习与降维技术
降维技术全面对比 - 不同降维方法的比较

参考文献

OpenReview (2026). When Scores Learn Geometry: Rate Separations Under the Manifold Hypothesis. ICLR 2026. ↩

Metaphor

探索

分数学习与几何理论：流形假设下的尺度分离

分数学习与几何理论：流形假设下的尺度分离

1. 概述

2. 流形假设回顾

2.1 数据流形假设

2.2 流形的几何性质

3. 噪声扰动分布的分解

3.1 正交分解

3.2 分数函数的分解

3.3 噪声下的条件分布

4. 尺度分离定理

4.1 核心定理

4.2 推论：信息尺度

4.3 形式化证明思路

5. 几何学习 vs 分布学习

5.1 两种学习范式

5.2 几何学习的理论保证

5.3 错误容忍度

6. 应用推论

6.1 扩散模型中的数据支撑集中

6.2 一致分布学习

6.3 贝叶斯逆问题的鲁棒性

7. 实践启示

7.1 扩散模型训练的重新思考

7.2 架构设计

7.3 评估指标

8. 理论扩展

8.1 黎曼流形上的分数匹配

8.2 非均匀噪声

8.3 流形学习与生成模型

9. 与现有理论的联系

9.1 与Score Matching理论的关系

9.2 与神经ODE的关系

9.3 与流形假设的关系

10. 总结

交叉引用

参考文献

Footnotes

关系图谱

目录

反向链接