ELIT:弹性潜在接口Transformer

概述

ELIT(Elastic Latent Interface Transformer,全称”One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers”)是由 Moayed Haji-Ali 等人于 2026 年 3 月提出的新型即插即用机制,旨在将扩散Transformer(DiT)的输入图像大小与计算量解耦。1

扩散Transformer(如 DiT)在图像生成任务中取得了优异的生成质量,但其计算量(FLOPs)与输入图像分辨率紧密绑定。这种刚性约束限制了模型在不同计算预算下进行质量-延迟权衡的能力,也导致了计算资源的低效利用——模型对输入空间的所有token均匀分配计算资源,而忽视了不同区域的重要性差异。

ELIT 通过引入可学习的长度可变的潜在序列作为接口,实现了计算量与输入分辨率的灵活解耦,使单一模型能够适应多种计算预算。


1. 问题背景

1.1 扩散Transformer的计算瓶颈

扩散Transformer的核心机制是对输入图像的latent表示进行处理。以 DiT 为例,其计算流程如下:

  1. 图像通过 VAE 编码器压缩到潜在空间,得到空间token序列
  2. 标准Transformer块对所有空间token进行处理
  3. 每层的计算复杂度为 ,其中 是token数量

对于分辨率为 的图像,token数量 (假设VAE下采样8倍)。这意味着:

图像分辨率Token数量 Self-Attention 计算量

1.2 现有方法的局限

现有加速扩散模型采样的方法(如 DDIM、一致性模型)主要关注采样步数的减少,但未能解决token数量随分辨率线性增长的问题。这导致了两个核心局限:

  1. FLOPs与分辨率的刚性绑定:无法在保持模型能力的同时降低高分辨率下的计算开销
  2. 均匀计算分配:对所有输入区域一视同仁,忽视了语义重要性差异

2. ELIT方法详解

2.1 核心思想

ELIT 的核心创新是引入弹性潜在接口(Elastic Latent Interface),通过一个长度可变的潜在token序列作为中间表示:

┌─────────────────────────────────────────────────────────────────┐
│                    ELIT 架构流程                                  │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   输入图像 (H×W×3)                                               │
│       │                                                         │
│       ▼                                                         │
│   ┌─────────┐                                                   │
│   │   VAE   │  空间token: (H/8)×(W/8)                          │
│   └────┬────┘                                                   │
│        │                                                        │
│        ▼                                                        │
│   ┌────────────────┐  Read Cross-Attention                      │
│   │   可学习Latent │ ◀──────────────── 聚合空间信息              │
│   │   Token序列    │                                            │
│   │   (长度可变)   │                                            │
│   └───────┬────────┘                                            │
│           │                                                     │
│           ▼                                                     │
│   ┌────────────────┐                                            │
│   │  标准Transformer│  在latent上执行self-attention             │
│   │    Blocks      │                                            │
│   └───────┬────────┘                                            │
│           │                                                     │
│           ▼                                                     │
│   ┌────────────────┐  Write Cross-Attention                     │
│   │   空间Token     │ ◀─────────── 分布回空间信息                │
│   │   (H/8)×(W/8)  │                                            │
│   └────┬───────────┘                                            │
│        │                                                        │
│        ▼                                                        │
│   ┌─────────┐                                                   │
│   │   VAE   │  重建图像                                         │
│   └─────────┘                                                   │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

2.2 关键组件

2.2.1 潜在接口(Latent Interface)

ELIT 在空间token和标准Transformer块之间插入一组可学习的长度可变的latent token ,其中 是潜在token的数量。

核心特性

  • 可以在推理时动态调整
  • 早期latent token捕获全局结构信息
  • 后期latent token专注于细节细化

2.2.2 Read/Write Cross-Attention层

层类型功能描述
Read Cross-Attention聚合信息从空间token 读取信息,聚合到latent token
Write Cross-Attention分布信息将latent token 中的信息写回空间token

形式化地,Read操作定义为:

Write操作定义为:

2.3 与标准DiT的对比

特性标准DiTELIT
输入形式固定长度的空间token可变长度的latent token
计算量 为空间token数) 为latent数,
FLOPs固定,与分辨率绑定灵活,可随 调整
区域重要性均匀分配通过latent优先级实现自适应

3. 训练策略

3.1 Random Latent Dropping

ELIT 的核心训练策略是随机丢弃尾部latent(Random Latent Dropping):

  1. 完整latent序列:训练初期使用完整的 个latent token
  2. 随机丢弃:每次训练迭代时,以概率 随机丢弃尾部的 个latent
  3. 动态长度:丢弃后的有效latent数为 ,其中

这种训练方式使模型学习到重要性排序的表示——较早的latent编码关键信息,后续latent则逐步添加细节。

3.2 训练目标

ELIT 的训练目标与标准DiT一致,都是预测噪声:

其中 是带有ELIT模块的扩散Transformer。

3.3 学习到的表示结构

通过Random Latent Dropping训练,ELIT 自然地学习到了分层表示:


4. 推理灵活性

4.1 动态计算预算

ELIT 最重要的特性是推理时可动态调整latent数量

# 伪代码示例
for K in [8, 16, 32, 64, 128]:  # 不同计算预算
    model.forward(x, K=K)       # 使用K个latent进行推理

这使得单一模型可以适应多种计算约束:

场景计算预算使用的Latent数 相对FLOPs
实时推理非常低8-16约5-10%
标准推理中等32-64约25-50%
高质量生成充足128+约100%

4.2 质量-计算权衡曲线

ELIT 使得质量-计算权衡曲线变得连续且平滑

用户可以根据实际需求选择合适的 值,在生成质量和推理延迟之间取得平衡。


5. 实验结果

5.1 跨架构通用性

ELIT 在多种扩散Transformer架构上展现了一致的改进效果:

架构数据集基准FIDELIT-FID改进幅度
DiTImageNet 256×2562.452.1213.5%
DiTImageNet 512×5123.892.5235.3%
U-ViTImageNet 256×2562.512.1813.1%
HDiTImageNet 256×2562.211.9511.8%
MM-DiTT2I benchmarks基准显著提升显著

5.2 延迟-质量权衡

在 ImageNet-1K 512×512 分辨率下:

方法FIDFDD(Frechet Detection Distance)相对延迟
基准DiT3.89基准1.0×
ELIT(低预算)4.12-39.6%0.35×
ELIT(高预算)2.52-39.6%0.85×

5.3 可视化分析

实验表明,ELIT 的latent token按照重要性自然排序:

  • 较早的latent对应高层次的语义特征
  • 较晚的latent专注于低层次的细节重建
  • 丢弃尾部latent时,生成结果的轮廓和结构得以保留,仅细节有所损失

6. 相关技术

ELIT 与以下技术方向密切相关:


7. 总结与展望

7.1 主要贡献

  1. 即插即用设计:ELIT 可以作为即插即用模块添加到现有的DiT架构中,无需修改核心Transformer结构
  2. 计算解耦:首次实现了扩散Transformer输入分辨率与计算量的解耦
  3. 动态灵活性:单一模型可适应多种计算预算,无需针对不同设备重新训练
  4. 统一质量-计算曲线:提供了连续、平滑的质量-计算权衡空间

7.2 局限性

  • 需要额外的训练过程来学习重要性排序
  • Read/Write Cross-Attention层引入了额外的参数量
  • 在极低计算预算下,生成质量可能有所下降

7.3 未来方向

  • 探索与 采样加速 方法的结合
  • 研究自动确定最优latent数量的策略
  • 将ELIT扩展到视频生成等其他模态

参考资料

Footnotes

  1. Haji-Ali, M., et al. “One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers.” arXiv:2603.12245, March 2026. https://snap-research.github.io/elit/