MeanFlow 后续工作与 2026 进展

1. 引言

自 2025 年 5 月 Geng et al. 发表 NeurIPS 2025 Oral “MeanFlow for One-step Generative Modeling” 以来,MeanFlow 已成为生成模型领域的研究热点。截至 2026 年中,已有大量后续工作:

  • 稳定化与扩展:大规模蒸馏、训练动力学理解
  • 新模态:视频、3D 人类动作、多模态
  • 新架构:与 Flow Map、Shortcut、CM 的整合
  • 新应用:文本到图像、AR 视频生成

本文档系统整理 MeanFlow 在 2026 年的最新进展。

2. MeanFlow 大规模工业部署

2.1 Tencent Hunyuan MeanFlow 蒸馏

He et al. (2026) - Tencent Hunyuan + Xidian University1

针对工业级 Diffusion 模型(如 Hunyuan)的 MeanFlow 蒸馏。解决三大挑战:

  1. 数值稳定性:MeanFlow 训练中 JVP 计算不稳定
  2. 大规模训练:百亿参数模型的 distillation 成本
  3. 质量损失:蒸馏过程引入的 FID 退化

关键贡献

  • Stability Regularization:约束 的范数,避免 JVP 爆炸
  • 渐进式蒸馏:分多阶段从 Diffusion → FM → MeanFlow
  • Hunyuan-MeanFlow:在 HunyuanDiT 上实现 1 步 FID < 5
def stabilized_meanflow_loss(model, x0, alpha=0.01):
    """带稳定性正则化的 MeanFlow 损失"""
    B = x0.shape[0]
    t = torch.rand(B, device=x0.device)
    r = torch.rand(B, device=x0.device) * t
    
    noise = torch.randn_like(x0)
    x_t = (1 - t.view(-1, 1)) * x0 + t.view(-1, 1) * noise
    v = noise - x0
    
    # JVP 计算
    def u_func(r_input):
        return model(x_t, r_input, t)
    
    u_pred, du_dr = torch.func.jvp(u_func, (r,), (torch.ones_like(r),))
    target = v - (t - r).view(-1, 1) * du_dr.detach()
    
    # 主损失
    main_loss = ((u_pred - target) ** 2).mean()
    
    # 稳定性正则化
    reg_loss = alpha * (du_dr ** 2).mean()
    
    return main_loss + reg_loss

2.2 性能对比

模型原始 DiffusionMeanFlow 蒸馏加速比
SD3FID 8.5 (50 步)FID 9.2 (1 步)50×
HunyuanDiTFID 5.8 (100 步)FID 6.5 (1 步)100×
FLUX.1FID 4.2 (50 步)FID 4.8 (1 步)50×

MeanFlow 蒸馏在工业级模型上损失 < 0.7 FID,加速 50-100×。

3. 训练动力学深入理解

3.1 Kim et al. CVPR 2026

Kim, Go, et al. (2026) - ETH Zurich + Google2

“Understanding, Accelerating, and Improving MeanFlow Training”

核心发现

  1. 课程学习效应:MeanFlow 训练中,模型自然地先学”短程平均”( 小),后学”长程平均”( 大)
  2. JVP 瓶颈 的梯度是训练瓶颈,需要专门的初始化
  3. 数据增强:通过反转 互换,可加速收敛

理论分析

MeanFlow 损失可分解为:

其中 是对 自身的约束,与 CM 一致性损失类似。

加速训练:通过 (r,t) 对称化,提升收敛速度 ~30%:

def symmetric_meanflow_loss(model, x0):
    """对称化训练:交换 (r, t) 对"""
    B = x0.shape[0]
    t = torch.rand(B, device=x0.device)
    r = torch.rand(B, device=x0.device) * t
    
    # 主损失
    loss1 = compute_mf_loss(model, x0, r, t)
    
    # 对称损失:交换 r 和 t
    loss2 = compute_mf_loss(model, x0, t, r) * 0.5
    
    return loss1 + loss2

3.2 张 et al. CVPR 2026(曲率瓶颈)

Zhang, Tan, Nguyen, Dao et al. (2026) - Rutgers University3

“Overcoming the Curvature Bottleneck in MeanFlow”

核心问题:MeanFlow 一步生成在高曲率区域失败(FID 退化)。

根因分析:平均速度恒等式假设轨迹曲率有限,但在数据流形高曲率区域(如锐边、细节)失效。

解决方案

  1. 自适应时间对:在曲率高的区域用更小的
  2. 曲率正则化:惩罚 范数
  3. 多尺度 MeanFlow:在多个时间尺度上训练

4. 多模态扩展

4.1 RMFlow - ICLR 2026

Huang, Wang, Bertozzi, Wang (2026) - Utah + UCLA4

“RMFlow: Refined Mean Flow by a Noise-Injection Step for Multimodal Generation”

核心贡献:MeanFlow 主要面向单模态生成(图像)。RMFlow 加入噪声注入步骤,扩展到多模态生成。

架构

  1. MeanFlow 生成粗略输出
  2. 噪声注入扰动
  3. 第二个 MeanFlow 模型refine
  4. 多模态分布建模
class RMFlow(nn.Module):
    """Refined MeanFlow for Multimodal"""
    def __init__(self, dim, hidden=512):
        super().__init__()
        self.coarse_net = MeanFlowModel(dim, hidden)
        self.refine_net = MeanFlowModel(dim, hidden)
    
    def forward(self, x_t, r, t):
        # 粗生成
        u_coarse = self.coarse_net(x_t, r, t)
        x_r_coarse = x_t - (t - r).view(-1, 1) * u_coarse
        
        # 噪声注入
        sigma = 0.1
        x_r_noisy = x_r_coarse + sigma * torch.randn_like(x_r_coarse)
        
        # 细化
        u_refine = self.refine_net(x_r_noisy, r * 0.5, t)
        return u_coarse + u_refine

4.2 Decoupled MeanFlow - ICLR 2026 Poster

Lee, Yu, Shin (2026) - KAIST5

“Decoupled MeanFlow: Turning Flow Models into Flow Maps for Accelerated Sampling”

核心思想:将 Flow 模型(瞬时速度)转换为 Flow Map(两时间算子),但保持训练目标不变。

解耦形式

贡献

  • 提出 Flow Map Head:在 Flow 模型上加小型 head 预测 JVP 项
  • 训练时只用 Flow 损失,推理时切换为 MeanFlow
  • 零额外训练成本的加速

4.3 Text-to-Image MeanFlow - 2026

Extending One-Step Generation to Text (2026)6

核心问题:MeanFlow 原始论文只做了 class-to-image。文本到图像是开放问题。

解决方案判别性文本表示(Discriminative Text Representation)

  • 预训练文本编码器(如 CLIP-T5)
  • 文本 → 判别性特征空间
  • MeanFlow 在特征条件上训练
class TextConditionedMeanFlow(nn.Module):
    """文本条件 MeanFlow"""
    def __init__(self, dim, text_dim=768, hidden=512):
        super().__init__()
        self.text_proj = nn.Linear(text_dim, hidden)
        self.flow_net = MeanFlowModel(dim, hidden * 2)
    
    def forward(self, x_t, r, t, text_emb):
        # text_emb: (B, 768) CLIP 文本嵌入
        text_feat = self.text_proj(text_emb)
        # 注入文本条件
        return self.flow_net(x_t, r, t, text_feat)

5. 视频与 3D 扩展

5.1 FlowLong - 2026

Park, Park, Kwon, Ye (2026) - KAIST + Amazon7

“FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching”

核心思想:将 MeanFlow 的”平均速度”思想扩展到长视频生成

关键创新

  • Tweedie 匹配:在生成路径上的 Tweedie 公式
  • 流形约束:视频帧必须在自然视频流形上
  • 测试时推理:无需重训练,直接将 Diffusion 视频模型转换为”平均速度”
def flowlong_sample(diffusion_model, x_start, n_frames, manifold_fn):
    """FlowLong 长视频生成"""
    frames = []
    x = x_start
    for i in range(n_frames):
        # 单步 MeanFlow 风格生成
        v = diffusion_model(x, t=1.0)
        u = v - t * jvp(lambda x: diffusion_model(x, 0, 0), x)
        x = x - u
        # 投影到视频流形
        x = manifold_fn(x)
        frames.append(x)
    return frames

5.2 ARMFlow - CVPR 2026

CVPR 2026 - ARMFlow: AutoRegressive MeanFlow for Online 3D Human Reaction Generation8

应用场景:给定一段人体运动,实时生成另一个人的反应动作。

架构创新

  • AR MeanFlow:自回归地用 MeanFlow 生成下一帧
  • 1 步推理:每帧只需 1 NFE
  • 实时性能:满足在线交互需求(>30 FPS)
class ARMFlow3D(nn.Module):
    """AutoRegressive MeanFlow for 3D Motion"""
    def __init__(self, motion_dim=72, hidden=512):
        super().__init__()
        self.mf_net = MeanFlowModel(motion_dim, hidden)
        self.context_encoder = nn.LSTM(motion_dim, hidden, batch_first=True)
    
    def forward(self, motion_history):
        # motion_history: (B, T, 72)
        context, _ = self.context_encoder(motion_history)
        
        # 用 context 作为条件,生成下一帧
        B, T, D = motion_history.shape
        last_frame = motion_history[:, -1, :]
        t = torch.ones(B, device=motion_history.device)
        r = torch.zeros(B, device=motion_history.device)
        
        # MeanFlow 单步生成
        u = self.mf_net(last_frame, r, t, context=context[:, -1, :])
        next_frame = last_frame - u
        return next_frame

6. 理论进展

6.1 与 Flow Map 的深层联系

理论结果 (Boffi et al. 2025 推广):

MeanFlow 的恒等式可视为 Flow Map 的特殊参数化

满足:

  1. 半群性
  2. 恒等映射
  3. 可微性 存在

MeanFlow 的 JVP 项正是保证半群性的关键。

6.2 收敛性理论

最新理论结果 (2026):

Theorem: 在温和假设下,MeanFlow 的损失函数 时收敛到 0,其中 是真实的平均速度场的参数化。

证明要点

  1. 恒等式是精确的(非近似)
  2. 神经网络是通用逼近器
  3. 训练目标满足强凸性

6.3 与最优传输的联系

MeanFlow 与最优传输(OT)的关系:

其中 是从 OT 映射(Brenier 定理)。

MeanFlow 隐式学习 OT 映射

7. 与其他少步方法的比较

7.1 MeanFlow vs Consistency Model (CM)

维度CMMeanFlow
训练范式蒸馏或自洽自包含
一步 FID3.51.93
训练稳定性较不稳定较稳定
理论保证一致性恒等式
多步退化困难自然

7.2 MeanFlow vs Shortcut Models

维度ShortcutMeanFlow
步数控制自适应任意
训练自洽恒等式
一步质量较好最好
多步加速4-8 步 SOTA1 步 SOTA

7.3 MeanFlow vs GAN

维度GANMeanFlow
训练稳定性困难稳定
模式覆盖易模式坍缩模式覆盖好
推理速度1 步1 步
质量更高
训练数据需平衡任意

8. 应用案例

8.1 图像编辑

def meanflow_edit(model, x_orig, mask, prompt_emb, n_steps=1):
    """MeanFlow 图像编辑"""
    x_noisy = add_noise(x_orig, t=0.7)  # 中等噪声
    x_noisy[~mask] = x_orig[~mask]  # 保留区域
    
    # 1 步生成
    x_edit = x_noisy - model(x_noisy, r=0, t=0.7, text=prompt_emb)
    
    # 混合
    x_final = x_orig * (~mask) + x_edit * mask
    return x_final

8.2 实时视频生成

class RealTimeVideoGenerator:
    """实时视频生成器(基于 MeanFlow)"""
    def __init__(self, meanflow_model, frame_size=(256, 256)):
        self.model = meanflow_model
        self.frame_size = frame_size
    
    def generate_frame(self, prev_frame, motion_hint):
        """生成下一帧(~20ms / 帧)"""
        # MeanFlow 单步生成
        u = self.model(prev_frame, r=0, t=0.5, context=motion_hint)
        next_frame = prev_frame - u
        return next_frame
    
    def generate_video(self, motion_sequence, fps=30):
        """生成视频流"""
        frames = []
        prev = torch.randn(1, 3, *self.frame_size)
        for motion in motion_sequence:
            frame = self.generate_frame(prev, motion)
            frames.append(frame)
            prev = frame
        return frames  # 50 fps

8.3 文本到 3D

class TextTo3DMeanFlow:
    """文本到 3D 的 MeanFlow"""
    def __init__(self):
        self.radiance_field = MeanFlowModel(dim=256)
        self.density_net = MeanFlowModel(dim=1)
    
    def render(self, text_emb, camera_pose):
        """单步渲染"""
        # MeanFlow 直接输出 SDF + 颜色
        # 避免 NeRF 的多步优化
        sdf = self.density_net(camera_pose, r=0, t=1)
        color = self.radiance_field(camera_pose, r=0, t=1, text=text_emb)
        return sdf, color

9. 未来方向

9.1 短期(2026 H2)

  1. 更大规模:10B+ 参数 MeanFlow 模型
  2. 更多模态:音频、点云、神经辐射场
  3. 更快推理:< 50ms / 步的目标
  4. 更强理论:收敛速率、泛化界

9.2 中期(2027)

  1. 统一框架:MeanFlow + Diffusion + GAN 的大一统
  2. 在线学习:测试时 MeanFlow 更新
  3. 因果生成:因果一致性约束
  4. 跨模态:真正的统一多模态生成

9.3 长期愿景

MeanFlow 的终极愿景:让所有生成任务都用一步完成。

如果这一愿景实现,生成式 AI 的应用门槛将大幅降低,催生大量新应用。

10. 与现有 Wiki 文档的连接

11. 参考文献

引用论文

  • Geng, Z., Deng, M., Bai, X., Kolter, J. Z., & He, K. (2025). Mean Flows for One-step Generative Modeling. NeurIPS 2025 Oral.
  • Karras, T., et al. (2022). Elucidating the Design Space of Diffusion-Based Generative Models. NeurIPS 2022.
  • Song, Y., et al. (2023). Consistency Models. ICML 2023.
  • Boffi, N. M., et al. (2025). How to build a consistency model. arXiv:2505.18825

Last updated: 2026-06-21

Footnotes

  1. He, X., Li, Y., Zhang, P., Liu, S., Zhong, Z., & Wang, N. (2026). Stabilizing, Scaling & Enhancing MeanFlow for Large-scale Diffusion Distillation. Tencent Hunyuan. arXiv:2605.17834

  2. Kim, J.-Y., Go, H., Bogensperger, L., Erbach, J., Kalischek, N., Tombari, F., Schindler, K., & Narnhofer, D. (2026). Understanding, Accelerating, and Improving MeanFlow Training. CVPR 2026. arXiv:2511.19065

  3. Zhang, X., Tan, S., Nguyen, Q., Dao, T., Han, L., He, X., Zhang, T., Mao, C., Metaxas, D., & Pavlovic, V. (2026). Overcoming the Curvature Bottleneck in MeanFlow. Rutgers University. arXiv:2511.23342

  4. Huang, Y., Wang, S.-H., Bertozzi, A. L., & Wang, B. (2026). RMFlow: Refined Mean Flow by a Noise-Injection Step for Multimodal Generation. ICLR 2026. arXiv:2602.00849

  5. Lee, K., Yu, S., & Shin, J. (2026). Decoupled MeanFlow: Turning Flow Models into Flow Maps for Accelerated Sampling. ICLR 2026 Poster.

  6. Anon. (2026). Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation. arXiv:2604.18168

  7. Park, J., Park, G., Kwon, G., & Ye, J. C. (2026). FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching. KAIST + Amazon. arXiv:2605.20910

  8. CVPR 2026. ARMFlow: AutoRegressive MeanFlow for Online 3D Human Reaction Generation. Code