MeanFlow 后续工作与 2026 进展
1. 引言
自 2025 年 5 月 Geng et al. 发表 NeurIPS 2025 Oral “MeanFlow for One-step Generative Modeling” 以来,MeanFlow 已成为生成模型领域的研究热点。截至 2026 年中,已有大量后续工作:
- 稳定化与扩展:大规模蒸馏、训练动力学理解
- 新模态:视频、3D 人类动作、多模态
- 新架构:与 Flow Map、Shortcut、CM 的整合
- 新应用:文本到图像、AR 视频生成
本文档系统整理 MeanFlow 在 2026 年的最新进展。
2. MeanFlow 大规模工业部署
2.1 Tencent Hunyuan MeanFlow 蒸馏
He et al. (2026) - Tencent Hunyuan + Xidian University1
针对工业级 Diffusion 模型(如 Hunyuan)的 MeanFlow 蒸馏。解决三大挑战:
- 数值稳定性:MeanFlow 训练中 JVP 计算不稳定
- 大规模训练:百亿参数模型的 distillation 成本
- 质量损失:蒸馏过程引入的 FID 退化
关键贡献:
- Stability Regularization:约束 的范数,避免 JVP 爆炸
- 渐进式蒸馏:分多阶段从 Diffusion → FM → MeanFlow
- Hunyuan-MeanFlow:在 HunyuanDiT 上实现 1 步 FID < 5
def stabilized_meanflow_loss(model, x0, alpha=0.01):
"""带稳定性正则化的 MeanFlow 损失"""
B = x0.shape[0]
t = torch.rand(B, device=x0.device)
r = torch.rand(B, device=x0.device) * t
noise = torch.randn_like(x0)
x_t = (1 - t.view(-1, 1)) * x0 + t.view(-1, 1) * noise
v = noise - x0
# JVP 计算
def u_func(r_input):
return model(x_t, r_input, t)
u_pred, du_dr = torch.func.jvp(u_func, (r,), (torch.ones_like(r),))
target = v - (t - r).view(-1, 1) * du_dr.detach()
# 主损失
main_loss = ((u_pred - target) ** 2).mean()
# 稳定性正则化
reg_loss = alpha * (du_dr ** 2).mean()
return main_loss + reg_loss2.2 性能对比
| 模型 | 原始 Diffusion | MeanFlow 蒸馏 | 加速比 |
|---|---|---|---|
| SD3 | FID 8.5 (50 步) | FID 9.2 (1 步) | 50× |
| HunyuanDiT | FID 5.8 (100 步) | FID 6.5 (1 步) | 100× |
| FLUX.1 | FID 4.2 (50 步) | FID 4.8 (1 步) | 50× |
MeanFlow 蒸馏在工业级模型上损失 < 0.7 FID,加速 50-100×。
3. 训练动力学深入理解
3.1 Kim et al. CVPR 2026
Kim, Go, et al. (2026) - ETH Zurich + Google2
“Understanding, Accelerating, and Improving MeanFlow Training”
核心发现:
- 课程学习效应:MeanFlow 训练中,模型自然地先学”短程平均”( 小),后学”长程平均”( 大)
- JVP 瓶颈: 的梯度是训练瓶颈,需要专门的初始化
- 数据增强:通过反转 互换,可加速收敛
理论分析:
MeanFlow 损失可分解为:
其中 是对 自身的约束,与 CM 一致性损失类似。
加速训练:通过 (r,t) 对称化,提升收敛速度 ~30%:
def symmetric_meanflow_loss(model, x0):
"""对称化训练:交换 (r, t) 对"""
B = x0.shape[0]
t = torch.rand(B, device=x0.device)
r = torch.rand(B, device=x0.device) * t
# 主损失
loss1 = compute_mf_loss(model, x0, r, t)
# 对称损失:交换 r 和 t
loss2 = compute_mf_loss(model, x0, t, r) * 0.5
return loss1 + loss23.2 张 et al. CVPR 2026(曲率瓶颈)
Zhang, Tan, Nguyen, Dao et al. (2026) - Rutgers University3
“Overcoming the Curvature Bottleneck in MeanFlow”
核心问题:MeanFlow 一步生成在高曲率区域失败(FID 退化)。
根因分析:平均速度恒等式假设轨迹曲率有限,但在数据流形高曲率区域(如锐边、细节)失效。
解决方案:
- 自适应时间对:在曲率高的区域用更小的
- 曲率正则化:惩罚 范数
- 多尺度 MeanFlow:在多个时间尺度上训练
4. 多模态扩展
4.1 RMFlow - ICLR 2026
Huang, Wang, Bertozzi, Wang (2026) - Utah + UCLA4
“RMFlow: Refined Mean Flow by a Noise-Injection Step for Multimodal Generation”
核心贡献:MeanFlow 主要面向单模态生成(图像)。RMFlow 加入噪声注入步骤,扩展到多模态生成。
架构:
- MeanFlow 生成粗略输出
- 噪声注入扰动
- 第二个 MeanFlow 模型refine
- 多模态分布建模
class RMFlow(nn.Module):
"""Refined MeanFlow for Multimodal"""
def __init__(self, dim, hidden=512):
super().__init__()
self.coarse_net = MeanFlowModel(dim, hidden)
self.refine_net = MeanFlowModel(dim, hidden)
def forward(self, x_t, r, t):
# 粗生成
u_coarse = self.coarse_net(x_t, r, t)
x_r_coarse = x_t - (t - r).view(-1, 1) * u_coarse
# 噪声注入
sigma = 0.1
x_r_noisy = x_r_coarse + sigma * torch.randn_like(x_r_coarse)
# 细化
u_refine = self.refine_net(x_r_noisy, r * 0.5, t)
return u_coarse + u_refine4.2 Decoupled MeanFlow - ICLR 2026 Poster
Lee, Yu, Shin (2026) - KAIST5
“Decoupled MeanFlow: Turning Flow Models into Flow Maps for Accelerated Sampling”
核心思想:将 Flow 模型(瞬时速度)转换为 Flow Map(两时间算子),但保持训练目标不变。
解耦形式:
贡献:
- 提出 Flow Map Head:在 Flow 模型上加小型 head 预测 JVP 项
- 训练时只用 Flow 损失,推理时切换为 MeanFlow
- 零额外训练成本的加速
4.3 Text-to-Image MeanFlow - 2026
Extending One-Step Generation to Text (2026)6
核心问题:MeanFlow 原始论文只做了 class-to-image。文本到图像是开放问题。
解决方案:判别性文本表示(Discriminative Text Representation)
- 预训练文本编码器(如 CLIP-T5)
- 文本 → 判别性特征空间
- MeanFlow 在特征条件上训练
class TextConditionedMeanFlow(nn.Module):
"""文本条件 MeanFlow"""
def __init__(self, dim, text_dim=768, hidden=512):
super().__init__()
self.text_proj = nn.Linear(text_dim, hidden)
self.flow_net = MeanFlowModel(dim, hidden * 2)
def forward(self, x_t, r, t, text_emb):
# text_emb: (B, 768) CLIP 文本嵌入
text_feat = self.text_proj(text_emb)
# 注入文本条件
return self.flow_net(x_t, r, t, text_feat)5. 视频与 3D 扩展
5.1 FlowLong - 2026
Park, Park, Kwon, Ye (2026) - KAIST + Amazon7
“FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching”
核心思想:将 MeanFlow 的”平均速度”思想扩展到长视频生成。
关键创新:
- Tweedie 匹配:在生成路径上的 Tweedie 公式
- 流形约束:视频帧必须在自然视频流形上
- 测试时推理:无需重训练,直接将 Diffusion 视频模型转换为”平均速度”
def flowlong_sample(diffusion_model, x_start, n_frames, manifold_fn):
"""FlowLong 长视频生成"""
frames = []
x = x_start
for i in range(n_frames):
# 单步 MeanFlow 风格生成
v = diffusion_model(x, t=1.0)
u = v - t * jvp(lambda x: diffusion_model(x, 0, 0), x)
x = x - u
# 投影到视频流形
x = manifold_fn(x)
frames.append(x)
return frames5.2 ARMFlow - CVPR 2026
CVPR 2026 - ARMFlow: AutoRegressive MeanFlow for Online 3D Human Reaction Generation8
应用场景:给定一段人体运动,实时生成另一个人的反应动作。
架构创新:
- AR MeanFlow:自回归地用 MeanFlow 生成下一帧
- 1 步推理:每帧只需 1 NFE
- 实时性能:满足在线交互需求(>30 FPS)
class ARMFlow3D(nn.Module):
"""AutoRegressive MeanFlow for 3D Motion"""
def __init__(self, motion_dim=72, hidden=512):
super().__init__()
self.mf_net = MeanFlowModel(motion_dim, hidden)
self.context_encoder = nn.LSTM(motion_dim, hidden, batch_first=True)
def forward(self, motion_history):
# motion_history: (B, T, 72)
context, _ = self.context_encoder(motion_history)
# 用 context 作为条件,生成下一帧
B, T, D = motion_history.shape
last_frame = motion_history[:, -1, :]
t = torch.ones(B, device=motion_history.device)
r = torch.zeros(B, device=motion_history.device)
# MeanFlow 单步生成
u = self.mf_net(last_frame, r, t, context=context[:, -1, :])
next_frame = last_frame - u
return next_frame6. 理论进展
6.1 与 Flow Map 的深层联系
理论结果 (Boffi et al. 2025 推广):
MeanFlow 的恒等式可视为 Flow Map 的特殊参数化:
满足:
- 半群性:
- 恒等映射:
- 可微性: 存在
MeanFlow 的 JVP 项正是保证半群性的关键。
6.2 收敛性理论
最新理论结果 (2026):
Theorem: 在温和假设下,MeanFlow 的损失函数 在 时收敛到 0,其中 是真实的平均速度场的参数化。
证明要点:
- 恒等式是精确的(非近似)
- 神经网络是通用逼近器
- 训练目标满足强凸性
6.3 与最优传输的联系
MeanFlow 与最优传输(OT)的关系:
其中 是从 到 的 OT 映射(Brenier 定理)。
MeanFlow 隐式学习 OT 映射!
7. 与其他少步方法的比较
7.1 MeanFlow vs Consistency Model (CM)
| 维度 | CM | MeanFlow |
|---|---|---|
| 训练范式 | 蒸馏或自洽 | 自包含 |
| 一步 FID | 3.5 | 1.93 |
| 训练稳定性 | 较不稳定 | 较稳定 |
| 理论保证 | 一致性 | 恒等式 |
| 多步退化 | 困难 | 自然 |
7.2 MeanFlow vs Shortcut Models
| 维度 | Shortcut | MeanFlow |
|---|---|---|
| 步数控制 | 自适应 | 任意 |
| 训练 | 自洽 | 恒等式 |
| 一步质量 | 较好 | 最好 |
| 多步加速 | 4-8 步 SOTA | 1 步 SOTA |
7.3 MeanFlow vs GAN
| 维度 | GAN | MeanFlow |
|---|---|---|
| 训练稳定性 | 困难 | 稳定 |
| 模式覆盖 | 易模式坍缩 | 模式覆盖好 |
| 推理速度 | 1 步 | 1 步 |
| 质量 | 高 | 更高 |
| 训练数据 | 需平衡 | 任意 |
8. 应用案例
8.1 图像编辑
def meanflow_edit(model, x_orig, mask, prompt_emb, n_steps=1):
"""MeanFlow 图像编辑"""
x_noisy = add_noise(x_orig, t=0.7) # 中等噪声
x_noisy[~mask] = x_orig[~mask] # 保留区域
# 1 步生成
x_edit = x_noisy - model(x_noisy, r=0, t=0.7, text=prompt_emb)
# 混合
x_final = x_orig * (~mask) + x_edit * mask
return x_final8.2 实时视频生成
class RealTimeVideoGenerator:
"""实时视频生成器(基于 MeanFlow)"""
def __init__(self, meanflow_model, frame_size=(256, 256)):
self.model = meanflow_model
self.frame_size = frame_size
def generate_frame(self, prev_frame, motion_hint):
"""生成下一帧(~20ms / 帧)"""
# MeanFlow 单步生成
u = self.model(prev_frame, r=0, t=0.5, context=motion_hint)
next_frame = prev_frame - u
return next_frame
def generate_video(self, motion_sequence, fps=30):
"""生成视频流"""
frames = []
prev = torch.randn(1, 3, *self.frame_size)
for motion in motion_sequence:
frame = self.generate_frame(prev, motion)
frames.append(frame)
prev = frame
return frames # 50 fps8.3 文本到 3D
class TextTo3DMeanFlow:
"""文本到 3D 的 MeanFlow"""
def __init__(self):
self.radiance_field = MeanFlowModel(dim=256)
self.density_net = MeanFlowModel(dim=1)
def render(self, text_emb, camera_pose):
"""单步渲染"""
# MeanFlow 直接输出 SDF + 颜色
# 避免 NeRF 的多步优化
sdf = self.density_net(camera_pose, r=0, t=1)
color = self.radiance_field(camera_pose, r=0, t=1, text=text_emb)
return sdf, color9. 未来方向
9.1 短期(2026 H2)
- 更大规模:10B+ 参数 MeanFlow 模型
- 更多模态:音频、点云、神经辐射场
- 更快推理:< 50ms / 步的目标
- 更强理论:收敛速率、泛化界
9.2 中期(2027)
- 统一框架:MeanFlow + Diffusion + GAN 的大一统
- 在线学习:测试时 MeanFlow 更新
- 因果生成:因果一致性约束
- 跨模态:真正的统一多模态生成
9.3 长期愿景
MeanFlow 的终极愿景:让所有生成任务都用一步完成。
如果这一愿景实现,生成式 AI 的应用门槛将大幅降低,催生大量新应用。
10. 与现有 Wiki 文档的连接
- MeanFlow 一步生成建模
- Flow Map 家族对比
- Flow Matching 理论
- Consistency Model
- Flow Map 统一视角
- UCGM 框架
- Flow Anchored CM
- Diffusion 与 Flow Matching
- Diffusion 谱偏差理论
- Consistency Flow Matching
11. 参考文献
引用论文
- Geng, Z., Deng, M., Bai, X., Kolter, J. Z., & He, K. (2025). Mean Flows for One-step Generative Modeling. NeurIPS 2025 Oral.
- Karras, T., et al. (2022). Elucidating the Design Space of Diffusion-Based Generative Models. NeurIPS 2022.
- Song, Y., et al. (2023). Consistency Models. ICML 2023.
- Boffi, N. M., et al. (2025). How to build a consistency model. arXiv:2505.18825
Last updated: 2026-06-21
Footnotes
-
He, X., Li, Y., Zhang, P., Liu, S., Zhong, Z., & Wang, N. (2026). Stabilizing, Scaling & Enhancing MeanFlow for Large-scale Diffusion Distillation. Tencent Hunyuan. arXiv:2605.17834 ↩
-
Kim, J.-Y., Go, H., Bogensperger, L., Erbach, J., Kalischek, N., Tombari, F., Schindler, K., & Narnhofer, D. (2026). Understanding, Accelerating, and Improving MeanFlow Training. CVPR 2026. arXiv:2511.19065 ↩
-
Zhang, X., Tan, S., Nguyen, Q., Dao, T., Han, L., He, X., Zhang, T., Mao, C., Metaxas, D., & Pavlovic, V. (2026). Overcoming the Curvature Bottleneck in MeanFlow. Rutgers University. arXiv:2511.23342 ↩
-
Huang, Y., Wang, S.-H., Bertozzi, A. L., & Wang, B. (2026). RMFlow: Refined Mean Flow by a Noise-Injection Step for Multimodal Generation. ICLR 2026. arXiv:2602.00849 ↩
-
Lee, K., Yu, S., & Shin, J. (2026). Decoupled MeanFlow: Turning Flow Models into Flow Maps for Accelerated Sampling. ICLR 2026 Poster. ↩
-
Anon. (2026). Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation. arXiv:2604.18168 ↩
-
Park, J., Park, G., Kwon, G., & Ye, J. C. (2026). FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching. KAIST + Amazon. arXiv:2605.20910 ↩
-
CVPR 2026. ARMFlow: AutoRegressive MeanFlow for Online 3D Human Reaction Generation. Code ↩