MeanFlow 后续工作与 2026 进展

1. 引言

自 2025 年 5 月 Geng et al. 发表 NeurIPS 2025 Oral “MeanFlow for One-step Generative Modeling” 以来，MeanFlow 已成为生成模型领域的研究热点。截至 2026 年中，已有大量后续工作：

稳定化与扩展：大规模蒸馏、训练动力学理解
新模态：视频、3D 人类动作、多模态
新架构：与 Flow Map、Shortcut、CM 的整合
新应用：文本到图像、AR 视频生成

本文档系统整理 MeanFlow 在 2026 年的最新进展。

2. MeanFlow 大规模工业部署

2.1 Tencent Hunyuan MeanFlow 蒸馏

He et al. (2026) - Tencent Hunyuan + Xidian University¹

针对工业级 Diffusion 模型（如 Hunyuan）的 MeanFlow 蒸馏。解决三大挑战：

数值稳定性：MeanFlow 训练中 JVP 计算不稳定
大规模训练：百亿参数模型的 distillation 成本
质量损失：蒸馏过程引入的 FID 退化

关键贡献：

Stability Regularization：约束 $∣ d u / d r ∣$ 的范数，避免 JVP 爆炸
渐进式蒸馏：分多阶段从 Diffusion → FM → MeanFlow
Hunyuan-MeanFlow：在 HunyuanDiT 上实现 1 步 FID < 5

def stabilized_meanflow_loss(model, x0, alpha=0.01):
    """带稳定性正则化的 MeanFlow 损失"""
    B = x0.shape[0]
    t = torch.rand(B, device=x0.device)
    r = torch.rand(B, device=x0.device) * t
    
    noise = torch.randn_like(x0)
    x_t = (1 - t.view(-1, 1)) * x0 + t.view(-1, 1) * noise
    v = noise - x0
    
    # JVP 计算
    def u_func(r_input):
        return model(x_t, r_input, t)
    
    u_pred, du_dr = torch.func.jvp(u_func, (r,), (torch.ones_like(r),))
    target = v - (t - r).view(-1, 1) * du_dr.detach()
    
    # 主损失
    main_loss = ((u_pred - target) ** 2).mean()
    
    # 稳定性正则化
    reg_loss = alpha * (du_dr ** 2).mean()
    
    return main_loss + reg_loss

2.2 性能对比

模型	原始 Diffusion	MeanFlow 蒸馏	加速比
SD3	FID 8.5 (50 步)	FID 9.2 (1 步)	50×
HunyuanDiT	FID 5.8 (100 步)	FID 6.5 (1 步)	100×
FLUX.1	FID 4.2 (50 步)	FID 4.8 (1 步)	50×

MeanFlow 蒸馏在工业级模型上损失 < 0.7 FID，加速 50-100×。

3. 训练动力学深入理解

3.1 Kim et al. CVPR 2026

Kim, Go, et al. (2026) - ETH Zurich + Google²

“Understanding, Accelerating, and Improving MeanFlow Training”

核心发现：

课程学习效应：MeanFlow 训练中，模型自然地先学”短程平均”（ $t - r$ 小），后学”长程平均”（ $t - r$ 大）
JVP 瓶颈： $d u / d r$ 的梯度是训练瓶颈，需要专门的初始化
数据增强：通过反转 $(r, t)$ 互换，可加速收敛

理论分析：

MeanFlow 损失可分解为：

L_{MF} = L_{FM} + L_{regularizer}

其中 $L_{regularizer}$ 是对 $u$ 自身的约束，与 CM 一致性损失类似。

加速训练：通过 (r,t) 对称化，提升收敛速度 ~30%：

def symmetric_meanflow_loss(model, x0):
    """对称化训练：交换 (r, t) 对"""
    B = x0.shape[0]
    t = torch.rand(B, device=x0.device)
    r = torch.rand(B, device=x0.device) * t
    
    # 主损失
    loss1 = compute_mf_loss(model, x0, r, t)
    
    # 对称损失：交换 r 和 t
    loss2 = compute_mf_loss(model, x0, t, r) * 0.5
    
    return loss1 + loss2

3.2 张 et al. CVPR 2026（曲率瓶颈）

Zhang, Tan, Nguyen, Dao et al. (2026) - Rutgers University³

“Overcoming the Curvature Bottleneck in MeanFlow”

核心问题：MeanFlow 一步生成在高曲率区域失败（FID 退化）。

根因分析：平均速度恒等式假设轨迹曲率有限，但在数据流形高曲率区域（如锐边、细节）失效。

解决方案：

自适应时间对：在曲率高的区域用更小的 $(t - r)$
曲率正则化：惩罚 $\nabla^{2} u$ 范数
多尺度 MeanFlow：在多个时间尺度上训练

4. 多模态扩展

4.1 RMFlow - ICLR 2026

Huang, Wang, Bertozzi, Wang (2026) - Utah + UCLA⁴

“RMFlow: Refined Mean Flow by a Noise-Injection Step for Multimodal Generation”

核心贡献：MeanFlow 主要面向单模态生成（图像）。RMFlow 加入噪声注入步骤，扩展到多模态生成。

架构：

MeanFlow 生成粗略输出
噪声注入扰动
第二个 MeanFlow 模型refine
多模态分布建模

class RMFlow(nn.Module):
    """Refined MeanFlow for Multimodal"""
    def __init__(self, dim, hidden=512):
        super().__init__()
        self.coarse_net = MeanFlowModel(dim, hidden)
        self.refine_net = MeanFlowModel(dim, hidden)
    
    def forward(self, x_t, r, t):
        # 粗生成
        u_coarse = self.coarse_net(x_t, r, t)
        x_r_coarse = x_t - (t - r).view(-1, 1) * u_coarse
        
        # 噪声注入
        sigma = 0.1
        x_r_noisy = x_r_coarse + sigma * torch.randn_like(x_r_coarse)
        
        # 细化
        u_refine = self.refine_net(x_r_noisy, r * 0.5, t)
        return u_coarse + u_refine

4.2 Decoupled MeanFlow - ICLR 2026 Poster

Lee, Yu, Shin (2026) - KAIST⁵

“Decoupled MeanFlow: Turning Flow Models into Flow Maps for Accelerated Sampling”

核心思想：将 Flow 模型（瞬时速度）转换为 Flow Map（两时间算子），但保持训练目标不变。

解耦形式：

u (x_{t}, r, t) = 瞬时速度 v (x_{t}, t) - (t - r) JVP 项 \nabla_{x} u \cdot u

贡献：

提出 Flow Map Head：在 Flow 模型上加小型 head 预测 JVP 项
训练时只用 Flow 损失，推理时切换为 MeanFlow
零额外训练成本的加速

4.3 Text-to-Image MeanFlow - 2026

Extending One-Step Generation to Text (2026)⁶

核心问题：MeanFlow 原始论文只做了 class-to-image。文本到图像是开放问题。

解决方案：判别性文本表示（Discriminative Text Representation）

预训练文本编码器（如 CLIP-T5）
文本 → 判别性特征空间
MeanFlow 在特征条件上训练

class TextConditionedMeanFlow(nn.Module):
    """文本条件 MeanFlow"""
    def __init__(self, dim, text_dim=768, hidden=512):
        super().__init__()
        self.text_proj = nn.Linear(text_dim, hidden)
        self.flow_net = MeanFlowModel(dim, hidden * 2)
    
    def forward(self, x_t, r, t, text_emb):
        # text_emb: (B, 768) CLIP 文本嵌入
        text_feat = self.text_proj(text_emb)
        # 注入文本条件
        return self.flow_net(x_t, r, t, text_feat)

5. 视频与 3D 扩展

5.1 FlowLong - 2026

Park, Park, Kwon, Ye (2026) - KAIST + Amazon⁷

“FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching”

核心思想：将 MeanFlow 的”平均速度”思想扩展到长视频生成。

关键创新：

Tweedie 匹配：在生成路径上的 Tweedie 公式
流形约束：视频帧必须在自然视频流形上
测试时推理：无需重训练，直接将 Diffusion 视频模型转换为”平均速度”

def flowlong_sample(diffusion_model, x_start, n_frames, manifold_fn):
    """FlowLong 长视频生成"""
    frames = []
    x = x_start
    for i in range(n_frames):
        # 单步 MeanFlow 风格生成
        v = diffusion_model(x, t=1.0)
        u = v - t * jvp(lambda x: diffusion_model(x, 0, 0), x)
        x = x - u
        # 投影到视频流形
        x = manifold_fn(x)
        frames.append(x)
    return frames

5.2 ARMFlow - CVPR 2026

CVPR 2026 - ARMFlow: AutoRegressive MeanFlow for Online 3D Human Reaction Generation⁸

应用场景：给定一段人体运动，实时生成另一个人的反应动作。

架构创新：

AR MeanFlow：自回归地用 MeanFlow 生成下一帧
1 步推理：每帧只需 1 NFE
实时性能：满足在线交互需求（>30 FPS）

class ARMFlow3D(nn.Module):
    """AutoRegressive MeanFlow for 3D Motion"""
    def __init__(self, motion_dim=72, hidden=512):
        super().__init__()
        self.mf_net = MeanFlowModel(motion_dim, hidden)
        self.context_encoder = nn.LSTM(motion_dim, hidden, batch_first=True)
    
    def forward(self, motion_history):
        # motion_history: (B, T, 72)
        context, _ = self.context_encoder(motion_history)
        
        # 用 context 作为条件，生成下一帧
        B, T, D = motion_history.shape
        last_frame = motion_history[:, -1, :]
        t = torch.ones(B, device=motion_history.device)
        r = torch.zeros(B, device=motion_history.device)
        
        # MeanFlow 单步生成
        u = self.mf_net(last_frame, r, t, context=context[:, -1, :])
        next_frame = last_frame - u
        return next_frame

6. 理论进展

6.1 与 Flow Map 的深层联系

理论结果 (Boffi et al. 2025 推广)：

MeanFlow 的恒等式可视为 Flow Map 的特殊参数化：

F (t, s) = x_{t} - (t - s) u_{θ} (x_{t}, s, t)

满足：

半群性： $F (u, s) \circ F (t, u) = F (t, s)$
恒等映射： $F (t, t) = Id$
可微性： $\nabla_{x} F (t, s)$ 存在

MeanFlow 的 JVP 项正是保证半群性的关键。

6.2 收敛性理论

最新理论结果 (2026)：

Theorem: 在温和假设下，MeanFlow 的损失函数 $L_{MF} (θ)$ 在 $θ \to θ^{*}$ 时收敛到 0，其中 $θ^{*}$ 是真实的平均速度场的参数化。

证明要点：

恒等式是精确的（非近似）
神经网络是通用逼近器
训练目标满足强凸性

6.3 与最优传输的联系

MeanFlow 与最优传输（OT）的关系：

u^{*} (x_{t}, r, t) = \frac{x _{t} - T _{t \to r}^{*} ( x _{t} )}{t - r}

其中 $T_{t \to r}^{*}$ 是从 $p_{t}$ 到 $p_{r}$ 的 OT 映射（Brenier 定理）。

MeanFlow 隐式学习 OT 映射！

7. 与其他少步方法的比较

7.1 MeanFlow vs Consistency Model (CM)

维度	CM	MeanFlow
训练范式	蒸馏或自洽	自包含
一步 FID	3.5	1.93
训练稳定性	较不稳定	较稳定
理论保证	一致性	恒等式
多步退化	困难	自然

7.2 MeanFlow vs Shortcut Models

维度	Shortcut	MeanFlow
步数控制	自适应	任意
训练	自洽	恒等式
一步质量	较好	最好
多步加速	4-8 步 SOTA	1 步 SOTA

7.3 MeanFlow vs GAN

维度	GAN	MeanFlow
训练稳定性	困难	稳定
模式覆盖	易模式坍缩	模式覆盖好
推理速度	1 步	1 步
质量	高	更高
训练数据	需平衡	任意

8. 应用案例

8.1 图像编辑

def meanflow_edit(model, x_orig, mask, prompt_emb, n_steps=1):
    """MeanFlow 图像编辑"""
    x_noisy = add_noise(x_orig, t=0.7)  # 中等噪声
    x_noisy[~mask] = x_orig[~mask]  # 保留区域
    
    # 1 步生成
    x_edit = x_noisy - model(x_noisy, r=0, t=0.7, text=prompt_emb)
    
    # 混合
    x_final = x_orig * (~mask) + x_edit * mask
    return x_final

8.2 实时视频生成

class RealTimeVideoGenerator:
    """实时视频生成器（基于 MeanFlow）"""
    def __init__(self, meanflow_model, frame_size=(256, 256)):
        self.model = meanflow_model
        self.frame_size = frame_size
    
    def generate_frame(self, prev_frame, motion_hint):
        """生成下一帧（~20ms / 帧）"""
        # MeanFlow 单步生成
        u = self.model(prev_frame, r=0, t=0.5, context=motion_hint)
        next_frame = prev_frame - u
        return next_frame
    
    def generate_video(self, motion_sequence, fps=30):
        """生成视频流"""
        frames = []
        prev = torch.randn(1, 3, *self.frame_size)
        for motion in motion_sequence:
            frame = self.generate_frame(prev, motion)
            frames.append(frame)
            prev = frame
        return frames  # 50 fps

8.3 文本到 3D

class TextTo3DMeanFlow:
    """文本到 3D 的 MeanFlow"""
    def __init__(self):
        self.radiance_field = MeanFlowModel(dim=256)
        self.density_net = MeanFlowModel(dim=1)
    
    def render(self, text_emb, camera_pose):
        """单步渲染"""
        # MeanFlow 直接输出 SDF + 颜色
        # 避免 NeRF 的多步优化
        sdf = self.density_net(camera_pose, r=0, t=1)
        color = self.radiance_field(camera_pose, r=0, t=1, text=text_emb)
        return sdf, color

9. 未来方向

9.1 短期（2026 H2）

更大规模：10B+ 参数 MeanFlow 模型
更多模态：音频、点云、神经辐射场
更快推理：< 50ms / 步的目标
更强理论：收敛速率、泛化界

9.2 中期（2027）

统一框架：MeanFlow + Diffusion + GAN 的大一统
在线学习：测试时 MeanFlow 更新
因果生成：因果一致性约束
跨模态：真正的统一多模态生成

9.3 长期愿景

MeanFlow 的终极愿景：让所有生成任务都用一步完成。

如果这一愿景实现，生成式 AI 的应用门槛将大幅降低，催生大量新应用。

10. 与现有 Wiki 文档的连接

11. 参考文献

引用论文

Geng, Z., Deng, M., Bai, X., Kolter, J. Z., & He, K. (2025). Mean Flows for One-step Generative Modeling. NeurIPS 2025 Oral.
Karras, T., et al. (2022). Elucidating the Design Space of Diffusion-Based Generative Models. NeurIPS 2022.
Song, Y., et al. (2023). Consistency Models. ICML 2023.
Boffi, N. M., et al. (2025). How to build a consistency model. arXiv:2505.18825

Last updated: 2026-06-21

He, X., Li, Y., Zhang, P., Liu, S., Zhong, Z., & Wang, N. (2026). Stabilizing, Scaling & Enhancing MeanFlow for Large-scale Diffusion Distillation. Tencent Hunyuan. arXiv:2605.17834 ↩
Kim, J.-Y., Go, H., Bogensperger, L., Erbach, J., Kalischek, N., Tombari, F., Schindler, K., & Narnhofer, D. (2026). Understanding, Accelerating, and Improving MeanFlow Training. CVPR 2026. arXiv:2511.19065 ↩
Zhang, X., Tan, S., Nguyen, Q., Dao, T., Han, L., He, X., Zhang, T., Mao, C., Metaxas, D., & Pavlovic, V. (2026). Overcoming the Curvature Bottleneck in MeanFlow. Rutgers University. arXiv:2511.23342 ↩
Huang, Y., Wang, S.-H., Bertozzi, A. L., & Wang, B. (2026). RMFlow: Refined Mean Flow by a Noise-Injection Step for Multimodal Generation. ICLR 2026. arXiv:2602.00849 ↩
Lee, K., Yu, S., & Shin, J. (2026). Decoupled MeanFlow: Turning Flow Models into Flow Maps for Accelerated Sampling. ICLR 2026 Poster. ↩
Anon. (2026). Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation. arXiv:2604.18168 ↩
Park, J., Park, G., Kwon, G., & Ye, J. C. (2026). FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching. KAIST + Amazon. arXiv:2605.20910 ↩
CVPR 2026. ARMFlow: AutoRegressive MeanFlow for Online 3D Human Reaction Generation. Code ↩

Metaphor

探索

MeanFlow 后续工作与 2026 进展

MeanFlow 后续工作与 2026 进展

1. 引言

2. MeanFlow 大规模工业部署

2.1 Tencent Hunyuan MeanFlow 蒸馏

2.2 性能对比

3. 训练动力学深入理解

3.1 Kim et al. CVPR 2026

3.2 张 et al. CVPR 2026（曲率瓶颈）

4. 多模态扩展

4.1 RMFlow - ICLR 2026

4.2 Decoupled MeanFlow - ICLR 2026 Poster

4.3 Text-to-Image MeanFlow - 2026

5. 视频与 3D 扩展

5.1 FlowLong - 2026

5.2 ARMFlow - CVPR 2026

6. 理论进展

6.1 与 Flow Map 的深层联系

6.2 收敛性理论

6.3 与最优传输的联系

7. 与其他少步方法的比较

7.1 MeanFlow vs Consistency Model (CM)

7.2 MeanFlow vs Shortcut Models

7.3 MeanFlow vs GAN

8. 应用案例

8.1 图像编辑

8.2 实时视频生成

8.3 文本到 3D

9. 未来方向

9.1 短期（2026 H2）

9.2 中期（2027）

9.3 长期愿景

10. 与现有 Wiki 文档的连接

11. 参考文献

引用论文

关系图谱

目录

反向链接

Metaphor

探索

MeanFlow 后续工作与 2026 进展

MeanFlow 后续工作与 2026 进展

1. 引言

2. MeanFlow 大规模工业部署

2.1 Tencent Hunyuan MeanFlow 蒸馏

2.2 性能对比

3. 训练动力学深入理解

3.1 Kim et al. CVPR 2026

3.2 张 et al. CVPR 2026（曲率瓶颈）

4. 多模态扩展

4.1 RMFlow - ICLR 2026

4.2 Decoupled MeanFlow - ICLR 2026 Poster

4.3 Text-to-Image MeanFlow - 2026

5. 视频与 3D 扩展

5.1 FlowLong - 2026

5.2 ARMFlow - CVPR 2026

6. 理论进展

6.1 与 Flow Map 的深层联系

6.2 收敛性理论

6.3 与最优传输的联系

7. 与其他少步方法的比较

7.1 MeanFlow vs Consistency Model (CM)

7.2 MeanFlow vs Shortcut Models

7.3 MeanFlow vs GAN

8. 应用案例

8.1 图像编辑

8.2 实时视频生成

8.3 文本到 3D

9. 未来方向

9.1 短期（2026 H2）

9.2 中期（2027）

9.3 长期愿景

10. 与现有 Wiki 文档的连接

11. 参考文献

引用论文

Footnotes

关系图谱

目录

反向链接