Flow Map 家族生成模型对比

1. 引言

2025-2026 年见证了生成建模理论的重要统一：以 Flow Map（两时间算子） 为视角，Diffusion、Flow Matching、Consistency Model、MeanFlow 这四大主流方法被纳入同一框架。

本文档系统对比四者的核心数学对象、训练范式、采样过程与适用场景。

2. 核心数学对象对比

2.1 四种方法的核心对象

方法	核心数学对象	时间参数	类别
Diffusion (Score-based)	Score 函数 $\nabla_{x} lo g p_{t} (x)$	连续 $t \in [0, 1]$	轨迹
Flow Matching	瞬时速度场 $v_{θ} (x_{t}, t)$	连续 $t \in [0, 1]$	轨迹
Consistency Model	映射 $f_{θ} (x_{t}, t) \to x_{0}$	连续 $t \in [0, 1]$	算子
MeanFlow	平均速度 $u_{θ} (x_{t}, r, t)$	二元 $(r, t)$	算子

关键观察：前两者学习轨迹（沿时间的瞬时变化率），后两者学习算子（两点间的转移）。

2.2 数学定义

Diffusion（Score-based, SDE 视角）：

\frac{d x _{t}}{d t} = f (x_{t}, t) - g^{2} (t) \nabla_{x} lo g p_{t} (x_{t}), t : 1 \to 0

学习量： $\nabla_{x} lo g p_{t} (x_{t})$ 。

Flow Matching：

\frac{d x _{t}}{d t} = v_{θ} (x_{t}, t), x_{1} \sim N (0, I), x_{0} \sim p_{data}

学习量： $v_{θ} (x_{t}, t)$ 。

Consistency Model：

f_{θ} (x_{t}, t) = x_{0}, \forall t

约束： $f_{θ} (x_{t}, t) \equiv f_{θ} (x_{t^{'}}, t^{'})$ 沿轨迹。一步生成： $x_{0} = f_{θ} (x_{1}, 1)$ 。

MeanFlow：

u_{θ} (x_{t}, r, t) = \frac{1}{t - r} \int_{r}^{t} v (x_{τ}, τ) d τ

一步生成： $x_{0} = x_{1} - u_{θ} (x_{1}, 0, 1)$ 。

3. Flow Map 统一视角

3.1 两时间算子定义

Flow Map $F (s, t)$ ：将时间 $s$ 的状态映射到时间 $t$ 的状态：

F (s, t) : x_{s} \mapsto x_{t}

这一定义可以统一所有方法：

方法	$F (s, t)$ 的实现	训练方式
Diffusion	模拟 SDE/ODE	score matching
Flow Matching	数值积分 ODE	flow matching
Consistency Model	$f_{θ} (x_{t}, t)$ 直接是 $F (t, 0)$	consistency loss
MeanFlow	$x_{t} - (t - s) u_{θ} (x_{t}, s, t)$ 是 $F (t, s)$	identity loss

3.2 Flow Map 的代数性质

半群性质：

F (s, u) \circ F (u, t) = F (s, t), s \leq u \leq t

即从 $s$ 到 $t$ 可以分解为从 $s$ 到 $u$ 、再从 $u$ 到 $t$ 。

恒等映射：

F (t, t) = Id

与速度场的关系：

F (s, t) = x_{s} + \int_{s}^{t} v (x_{τ}, τ) d τ

3.3 从算子视角看采样

Diffusion / Flow Matching：

x_{0} = F (1, 0) = x_{1} + \int_{1}^{0} v (x_{τ}, τ) d τ (需要数值积分)

Consistency Model：

x_{0} = F (1, 0) = f_{θ} (x_{1}, 1) (一步)

MeanFlow：

x_{0} = F (1, 0) = x_{1} - u_{θ} (x_{1}, 0, 1) (一步)

后两者直接查询算子，无需积分。

4. 训练目标对比

4.1 Score Matching (Diffusion)

L_{SM} = E_{t, x_{0}, ϵ} [λ (t) ∥ s_{θ} (x_{t}, t) - \nabla_{x_{t}} lo g p (x_{t} ∣ x_{0}) ∥^{2}]

目标：预测 score 函数。

数据依赖：需要样本 $x_{0}$ 和随机 $t, ϵ$ 。

4.2 Flow Matching

L_{FM} = E_{t, x_{0}, ϵ} [∥ v_{θ} (x_{t}, t) - (ϵ - x_{0}) ∥^{2}]

目标：预测从 $x_{0}$ 到 $ϵ$ 的速度 $(ϵ - x_{0})$ 。

最优性：在条件速度意义下，FM 损失是无条件回归目标的最优形式（无需加权重）。

4.3 Consistency Model

L_{CM} = E_{t, x_{0}, ϵ} [λ (t) ∥ f_{θ} (x_{t}, t) - f_{θ^{-}} (x_{t + Δ t}, t + Δ t) ∥^{2}]

目标：相邻时间点输出一致。

依赖：从 FM 教师蒸馏或自洽训练（CT）。

4.4 MeanFlow

L_{MF} = E_{t, r, x_{0}, ϵ} [u_{θ} (x_{t}, r, t) - sg [v_{θ^{-}} (x_{t}, t) - (t - r) \frac{d u _{θ^{-}}}{d r}]^{2}]

目标：满足平均速度恒等式。

依赖：无教师，仅需 JVP 计算 $d u / d r$ 。

4.5 训练目标统一性

四个目标都形如：

L = E [λ \cdot ∥ 预测 - 目标 ∥^{2}]

方法	预测	目标	目标构造方式
Diffusion	$s_{θ} (x_{t}, t)$	$\nabla_x \log p(x_t	x_0)$
FM	$v_{θ} (x_{t}, t)$	$ϵ - x_{0}$	解析
CM	$f_{θ} (x_{t}, t)$	$f_{θ^{-}} (x_{t + Δ t}, t + Δ t)$	教师
MF	$u_{θ} (x_{t}, r, t)$	恒等式右端	自洽

5. 采样过程对比

5.1 采样器对比

Diffusion (DDPM/DDIM)：

# 需要 ~100 步
for t in timesteps:
    x = step(x, model(x, t), t)
return x

Flow Matching (Euler)：

# 需要 ~50 步
dt = (t_end - t_start) / n_steps
x = x_start
for _ in range(n_steps):
    v = model(x, t)
    x = x + dt * v
    t = t + dt
return x

Consistency Model：

# 1 步
x0 = model(x1, t=1.0)
return x0

MeanFlow：

# 1 步
x0 = x1 - model(x1, r=0.0, t=1.0)
return x0

5.2 推理复杂度

方法	1 步 FID	4 步 FID	32 步 FID	100 步 FID
Diffusion (EDM2)	> 50	~10	2.1	1.81
Flow Matching	> 30	~6	1.8	1.31
Consistency Model	3.5	2.5	-	-
MeanFlow	1.93	-	-	-

关键观察：在 1 步生成上，MeanFlow 显著优于 CM（1.93 vs 3.5 FID）。

6. 训练稳定性对比

6.1 训练挑战

方法	主要挑战	解决方案
Diffusion	Score 函数奇异	噪声条件化
Flow Matching	边界行为	边界损失项
Consistency Model	自洽训练不稳定	时间窗口、CT 技巧
MeanFlow	JVP 计算成本	functorch 高效实现

6.2 收敛速度

训练 FID 收敛曲线（ImageNet 256×256）：

迭代步数 (K)     | Diffusion | FM | CM | MeanFlow
100K            | 50        | 30 | 8  | 5
200K            | 20        | 10 | 4  | 2.5
400K            | 5         | 3  | -  | 1.93

MeanFlow 收敛最快：因为目标函数更接近 L2 回归而非一致性约束。

7. 理论联系

7.1 MeanFlow 是 Consistency Model 的泛化

证明：

Consistency Model 学 $f_{θ} (x_{t}, t) \to x_{0}$ ，等价于平均速度 $u_{θ} (x_{t}, 0, t)$ ：

u_{θ} (x_{t}, 0, t) = \frac{1}{t - 0} \int_{0}^{t} v (x_{τ}, τ) d τ = \frac{x _{0} - x _{t}}{t}

因此：

x_{0} = x_{t} - t \cdot u_{θ} (x_{t}, 0, t)

这正是 MeanFlow 在 $r = 0$ 的特例。

MeanFlow 推广 CM 到任意 $(r, t)$ 对，提供了更大的灵活性。

7.2 FM + CM = MeanFlow

Claim：MeanFlow 是 FM 与 CM 的”插值”。

FM：学瞬时速度（轨迹）
CM：学 $t \to 0$ 的算子
MeanFlow：学 $t \to r$ 的算子（ $r$ 可任意）

从 MeanFlow 出发：

取 $r \to t$ ：退化为 FM（局部瞬时速度）
取 $r = 0$ ：退化为 CM

7.3 算子谱系

将四个方法按”算子记忆”排序：

                    记忆 = 0       记忆 = 1       记忆 = ∞
                    ↓               ↓               ↓
                    瞬时速度       短程记忆       全局记忆
                    FM             MeanFlow        CM (极限)
                                    ↑
                                    │
                              任意 r ∈ [0, t]

8. 实践选型指南

8.1 按场景选型

场景	推荐方法	原因
追求极致质量	Diffusion (EDM2)	多步质量最优
追求速度+质量平衡	Flow Matching (50 步)	经典平衡点
追求极致速度	MeanFlow	一步生成 + 高质量
训练资源受限	Flow Matching	训练稳定
需要任意步数控制	Flow Matching / MeanFlow	都可任意步数
需要 CFG	FM 或 Diffusion	成熟支持
无教师训练	FM 或 MeanFlow	都自包含

8.2 部署考虑

方法	模型大小	推理延迟	显存
Diffusion	675M (DiT-XL)	~10s (100 步)	8GB
FM	675M	~5s (50 步)	4GB
CM	675M	~0.1s (1 步)	2GB
MeanFlow	675M	~0.1s (1 步)	2GB

MeanFlow 是边缘部署的最佳选择。

8.3 多步退化能力

MeanFlow 不仅支持 1 步，也支持多步（用 $u_{θ}$ 多次查询）：

def meanflow_multistep(model, x_start, n_steps):
    """MeanFlow 多步采样"""
    t_schedule = torch.linspace(1.0, 0.0, n_steps + 1)
    x = x_start
    for i in range(n_steps):
        t_high = t_schedule[i]
        t_low = t_schedule[i+1]
        u = model(x, t_low, t_high)
        x = x - (t_high - t_low) * u
    return x

多步可进一步提升质量，但单步已是 SOTA。

9. 最新研究前沿

9.1 2025-2026 新进展

论文	来源	核心贡献
MeanFlow	NeurIPS 2025 Oral	平均速度恒等式，一步 SOTA
How to build a consistency model	Boffi et al. 2025	Flow Map 自蒸馏框架
Consistency Flow Matching	ICLR 2025	velocity consistency + FM
FACM	Peng et al. 2025	Flow Anchored CM，连续时间
Shortcut Models	ICML 2024	CM 的多步扩展

9.2 共同的理论趋势

从轨迹到算子：CM、MeanFlow、Shortcut 都是算子视角
从瞬时到平均：MeanFlow 用平均速度替代瞬时速度
从多步到少步：NFE 持续下降
从蒸馏到自洽：MeanFlow 无需教师

10. 与现有 Wiki 文档的连接

11. 参考文献

引用论文

Lipman, Y., Chen, R. T. Q., Ben-Hamu, H., Nickel, M., & Le, M. (2023). Flow Matching for Generative Modeling. ICLR 2023.
Song, Y., Dhariwal, P., Chen, M., & Sutskever, I. (2023). Consistency Models. ICML 2023.
Karras, T., Aittala, M., Aila, T., & Laine, S. (2022). Elucidating the Design Space of Diffusion-Based Generative Models (EDM). NeurIPS 2022.
Peebles, W., & Xie, S. (2023). Scalable Diffusion Models with Transformers (DiT). ICCV 2023.

Last updated: 2026-06-21

Metaphor

探索

Flow Map家族生成模型对比

Flow Map 家族生成模型对比

1. 引言

2. 核心数学对象对比

2.1 四种方法的核心对象

2.2 数学定义

3. Flow Map 统一视角

3.1 两时间算子定义

3.2 Flow Map 的代数性质

3.3 从算子视角看采样

4. 训练目标对比

4.1 Score Matching (Diffusion)

4.2 Flow Matching

4.3 Consistency Model

4.4 MeanFlow

4.5 训练目标统一性

5. 采样过程对比

5.1 采样器对比

5.2 推理复杂度

6. 训练稳定性对比

6.1 训练挑战

6.2 收敛速度

7. 理论联系

7.1 MeanFlow 是 Consistency Model 的泛化

7.2 FM + CM = MeanFlow

7.3 算子谱系

8. 实践选型指南

8.1 按场景选型

8.2 部署考虑

8.3 多步退化能力

9. 最新研究前沿

9.1 2025-2026 新进展

9.2 共同的理论趋势

10. 与现有 Wiki 文档的连接

11. 参考文献

引用论文

关系图谱

目录

反向链接