扩散模型几何理论：流形假设

1. 引言

扩散模型在生成建模中取得了巨大成功，但对其成功的理论理解仍不完善。流形假设（Manifold Hypothesis）提供了一个优雅的几何视角：自然数据（如图像、音频）分布集中在嵌入高维空间中的低维流形上。理解扩散模型如何与这个几何结构交互，是深化理论认识的关键。

本文档为 Diffusion Model Theory 的进阶内容，建议先阅读扩散模型基础理论。

2. 流形假设基础

2.1 流形假设定义

流形假设：自然数据的分布集中在嵌入空间 $R^{D}$ 的一个 $d$ 维光滑流形 $M$ 上，其中 $d ≪ D$ 。

数学表述：

p_{data} (x) \approx {\frac{1}{Z} \tilde{p} (x) 0 if x \in M otherwise

其中 $\tilde{p}$ 是流形上的概率密度， $Z$ 是归一化常数。

2.2 几何动机

高维空间视角	流形视角
均匀分布于 $R^{D}$	集中在 $d$ 维子空间
维度灾难	本征维度 $d ≪ D$
稀疏数据	流形局部连通性

2.3 实证支持

图像：MNIST ( $D = 784$ ) 可用 $d \approx 10 - 20$ 描述
人脸：可用 $d \approx 50 - 100$ 的流形描述
自然图像：谱分析显示低秩结构

3. Score Matching与流形假设

3.1 标准Score Matching

Score matching目标学习对数密度的梯度（score function）：

\nabla_{x} lo g p (x) \approx s_{θ} (x)

损失函数：

L (θ) = E_{p_{data}} [\frac{1}{2} ∥ \nabla_{x} lo g p_{θ} (x) - s_{θ} (x) ∥^{2}]

3.2 流形上的Score Matching

在流形假设下，score matching面临独特挑战¹：

问题：流形外区域的score未定义
解决：使用加噪策略在流形周围创建”护城河”

加噪分布：

p_{σ} (x) = \int p_{data} (y) N (x ∣ y, σ^{2} I) d y

3.3 黎曼几何视角

数据流形上的概率密度产生自然的黎曼度量：

g_{ij} (x) = E_{p_{σ}} [\nabla lo g p_{σ} (x) \nabla lo g p_{σ} (x)^{T}]_{ij}

这对应于费舍尔信息矩阵，具有统计意义。

4. 流形假设下的线性收敛性

4.1 核心定理

Potaptchik等人（2024）证明了扩散模型的线性收敛性质²：

定理1（线性收敛）：在流形假设下，扩散模型在KL散度下的收敛步数与本征维度 $d$ 成线性关系（至多对数项）：

N^{*} = Θ (d \cdot lo g (1/ ε))

4.2 关键洞察

该结果表明：

好消息：收敛速率由本征维度 $d$ 决定，而非嵌入维度 $D$
坏消息：对于高本征维度的复杂数据，仍需要较多采样步

4.3 证明概要

使用后向SDE的新积分方案
利用流形的局部欧几里得结构
建立步数与流形曲率的依赖关系

5. Score学习几何

5.1 ICLR 2026新发现

Li等人（2026）提出了革命性的观点：Score模型实际上在学习几何而非分布³：

核心命题：Score模型的成功源于隐式学习数据流形，而非完整数据分布。

5.2 尺度分离定理

定理2（尺度分离）：在小噪声极限 $σ \to 0$ 下，存在锐利的尺度分离：

∥\nabla lo g p_{σ} (x) ∥ \sim Θ (σ^{- 1}) [分布信息]

∥ \nabla_{M} lo g p_{σ} (x) ∥ \sim Θ (σ^{- 2}) [几何信息]

意义：流形几何信息比分布信息强 $σ^{- 1}$ 个数量级。

5.3 范式转换

从分布学习到几何学习的范式转换：

传统观点	新观点
学习完整分布 $p (x)$	学习流形结构 $M$
需要精确的score估计	只需 $σ^{- 2}$ 精度
复杂的高维估计	关注低维几何

6. 对生成模型的意义

6.1 精度要求放松

推论1：为实现数据支持上的收敛，仅需 score 误差为 $o (σ^{- 2})$ 。

推论2：即使学习流形上的均匀分布 $U (M)$ ，也比学习完整分布容易 $O (σ^{- 2})$ 倍。

6.2 实际指导

目标	所需score精度
数据支持收敛	$o (σ^{- 2})$
均匀分布学习	$O (σ^{- 2})$
精确分布恢复	$o (1)$ （最严格）

6.3 大规模验证

在Stable Diffusion上的实验验证：

低噪声区域：几何特征主导
高噪声区域：分布特征主导
插值行为符合理论预测

7. 对数域平滑与几何自适应

7.1 Log-Domain Smoothing

Farghly等人（2025）提出对数域平滑的核心洞察⁴：

发现：对数域平滑天然具有几何自适应性。

对数域score：

s_{σ}^{l o g} (x) = \nabla lo g p_{σ}^{l o g} (x) = \nabla lo g \int e^{l o g p (y) - \frac{1}{2 σ ^{2}} ∥ x - y ∥^{2}} d y

7.2 几何自适应机制

# 几何自适应的直观理解
def geometric_adaptive_score(x, data, sigma):
    # 局部密度估计
    local_density = estimate_density(x, data, sigma)
    
    # 流形方向vs垂直方向
    tangent_score, normal_score = decompose_score(x, sigma)
    
    # 几何自适应组合
    return tangent_score + f(local_density) * normal_score

7.3 遗忘与泛化

定理3（遗忘-泛化权衡）：

低噪声（ $σ \to 0$ ）：记忆具体样本，易过拟合
高噪声（ $σ \to \infty$ ）：学习几何结构，易泛化
最优中间点：几何感知的平衡

8. 黎曼度量发现

8.1 问题定义

Saito等人（2025）提出如何发现适合扩散模型的黎曼度量⁵：

目标：学习一个数据依赖的度量 $g_{θ} (x)$ ，使得：

d s^{2} = g_{ij}^{θ} (x) d x^{i} d x^{j}

8.2 Score-Based度量

利用score函数构建黎曼度量：

g_{ij}^{θ} (x) = E_{p_{σ}} [\partial_{i} s_{θ} \cdot \partial_{j} s_{θ}]

8.3 流形切向学习

定理4（切向一致性）：

学习的度量在流形切空间上保持一致：

g_{θ} (x) v = 0, \forall v \in T_{x} M

即度量自动将质量集中在切向方向。

9. 信息几何视角

9.1 时空几何

Karczewski等人（2025）提出扩散模型的信息几何视角⁶：

核心思想：将扩散过程视为在时空流形上的演化。

时间维度作为额外的坐标：

S = M \times [0, T]

9.2 费舍尔-黎曼几何

时空上的费舍尔信息度量：

G (x, t) = (G_{M} (x) 0 0 g_{t} (t))

9.3 信息几何动力学

物理量	信息几何对应
动能	空间费舍尔度量
势能	时间方向信息
路径积分	KL散度变分

10. 流形吸引扩散

10.1 MAD框架

Elbrächter等人（2025）提出Manifold Attracted Diffusion (MAD)⁷：

核心思想：在扩散过程中引入对流形的吸引项。

修正的后向SDE：

d \overset{x}{^}_{t} = [f (\overset{x}{^}_{t}, t) - g (t)^{2} \nabla lo g p_{σ} (\overset{x}{^}_{t}) + α \cdot proj_{T M} (\overset{x}{^}_{t})] d t

10.2 几何保持

吸引项确保：

样本在生成过程中靠近流形
减少对流形外区域的探索
提高采样效率

10.3 理论保证

定理5：对于足够大的吸引强度 $α$ ，后向过程以高概率停留在流形 $ε$ -邻域内。

11. 欧几里得扩散的流形改进

11.1 问题背景

标准欧几里得扩散在生成流形数据时面临挑战⁸：

Score函数在流形附近可能奇异
垂直于流形方向的运动浪费计算

11.2 奇异性缓解

核心方法：修改损失函数以缓解score奇异：

L_{adapted} = E_{x_{0}, ϵ, t} [w (t) \cdot \frac{∥ s _{θ} ( x _{t} , t ) - s ^{*} ( x _{t} , t ) ∥ ^{2}}{∥ P _{T_{x} M} s ^{*} ( x _{t} , t ) ∥ ^{2} + η}]

其中 $P_{T_{x} M}$ 是到切空间的投影， $η$ 是防止奇异的常数。

11.3 几何感知优化

方法	几何处理
标准方法	忽略几何
自适应权重	按几何重要性加权
投影方法	分解切向/法向

12. 实践应用

12.1 几何感知训练

def geometric_aware_score_matching(model, data, sigma):
    """几何感知的score matching损失"""
    x = data
    
    # 前向扩散
    noise = torch.randn_like(x)
    t = torch.rand(len(x)) * (T - epsilon) + epsilon
    xt = (1 - t.view(-1,1,1,1)) * x + t.view(-1,1,1,1).sqrt() * noise
    
    # 预测score
    s_pred = model(xt, t)
    s_target = - noise / t.view(-1,1,1,1).sqrt()
    
    # 估计局部切向方向（简化版）
    tangent_est = estimate_tangent(xt, data)
    
    # 几何感知损失
    tangent_loss = ((s_pred - s_target) * tangent_est).sum(dim=-1, keepdim=True)
    normal_loss = s_pred - tangent_loss
    
    return tangent_loss.pow(2).mean() + lambda_param * normal_loss.pow(2).mean()

12.2 评估指标

几何感知的评估指标：

def geometric_fid(generated, real, manifold_dim_est):
    """考虑流形结构的FID变体"""
    # 估计真实数据流形维度
    d_m = manifold_dim_est(real)
    
    # 在流形上进行PCA对齐
    real_pca = PCA(n_components=d_m).fit(real)
    gen_pca = PCA(n_components=d_m).fit(generated)
    
    # 映射到公共空间
    real_proj = real_pca.transform(real)
    gen_proj = gen_pca.transform(generated)
    
    # 计算几何FID
    return frechet_distance(real_proj, gen_proj)

13. 与wiki现有内容的联系

本文档与以下文档形成完整的扩散模型理论体系：

Diffusion Model Theory - 扩散模型基础
Score Matching Foundations - Score matching理论
Neural ODEs - 连续深度网络
Information Geometry - 信息几何基础

14. 未来研究方向

14.1 理论深化

更精确的流形维度估计
非光滑流形的理论处理
曲率效应的量化

14.2 方法创新

自适应几何感知架构
跨模态流形对齐
动态流形学习

参考文献

De Bortoli et al. (2022). “Riemannian Score-Based Generative Modeling.” NeurIPS 2022. ↩
Potaptchik et al. (2024). “Linear Convergence of Diffusion Models Under the Manifold Hypothesis.” arXiv:2410.09046. ↩
Li et al. (2026). “When Scores Learn Geometry: Rate Separations under the Manifold Hypothesis.” ICLR 2026. arXiv:2509.24912 ↩
Farghly et al. (2025). “Diffusion Models and the Manifold Hypothesis: Log-Domain Smoothing is Geometry Adaptive.” NeurIPS 2025. arXiv:2510.02305 ↩
Saito & Matsubara (2025). “Be Tangential to Manifold: Discovering Riemannian Metric for Diffusion Models.” arXiv:2510.05509. ↩
Karczewski et al. (2025). “The Spacetime of Diffusion Models: An Information Geometry Perspective.” arXiv:2505.17517. ↩
Elbrächter et al. (2025). “MAD: Manifold Attracted Diffusion.” arXiv:2509.24710. ↩
Liu et al. (2025). “Improving the Euclidean Diffusion Generation of Manifold Data by Mitigating Score Function Singularity.” OpenReview. ↩

Metaphor

探索

Diffusion Models Geometry - Manifold Hypothesis Theory