概述

State Space Models(SSM,状态空间模型)家族经历了从 S4 到 Mamba、Mamba-2 再到 Mamba-3 的重要演进过程。每次迭代都在前一版本的基础上引入了关键的技术创新,在表达能力、计算效率和硬件友好性之间寻求更好的平衡。

┌─────────────────────────────────────────────────────────────────────────┐
│                     SSM 家族发展时间线                                    │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│   2021          2023.12         2024.05          2026.03               │
│     │              │               │                │                   │
│     ▼              ▼               ▼                ▼                   │
│   ┌────┐       ┌──────┐       ┌───────┐       ┌────────┐             │
│   │ S4 │  ──→  │Mamba │  ──→  │Mamba-2│  ──→  │ Mamba-3│            │
│   └────┘       └──────┘       └───────┘       └────────┘             │
│                                                                         │
│   基础理论      选择性机制      SSD框架          推理优先设计             │
│   HiPPO        输入依赖        对偶性           MIMO变体                │
│   矩阵指数      线性时间        硬件优化         复数值状态              │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

核心演进逻辑:S4奠定理论基础 → Mamba引入选择性机制 → Mamba-2优化训练效率 → Mamba-3专注推理效率。123

1. 发展脉络与技术传承

1.1 S4:理论基础奠基

S4(Structured State Spaces) 是整个家族的奠基工作,由 Albert Gu 等人在 2021 年提出。4

核心技术

  1. HiPPO(High-Order Polynomial Projection Operator)

    • 将连续时间信号离散化的数学框架
    • 处理长距离依赖问题
    • 为 SSM 提供理论基础
  2. 矩阵指数计算

    • 引入高效计算连续时间 SSM 的方法
    • 利用对角 + 低秩结构优化

局限性

  • 参数是静态的(与输入无关)
  • 无法有效处理信息选择问题
  • 表达能力受限

1.2 Mamba:选择性机制的引入

Mamba 在 S4 基础上引入最关键的创新——选择性机制(Selective Mechanism)1

核心创新

  1. 输入依赖的门控

    • 参数 变为输入依赖的
    • 模型可以”选择”关注或忽略特定信息
  2. 硬件感知的并行扫描

    • 针对选择性 SSM 设计的高效实现
    • 在 GPU 上实现真正的线性时间

数学形式

其中 由输入 通过线性投影得到:

1.3 Mamba-2:SSD 框架与训练优化

Mamba-2 引入状态空间对偶性(State Space Duality, SSD) 框架。2

核心创新

  1. SSM-注意力对偶性

    • 证明 SSM 可以表示为半可分矩阵
    • SSM 等价于结构化掩码注意力
  2. 标量-单位阵结构

    • 将转移矩阵 限制为标量-单位阵
    • 大幅简化计算,便于硬件优化
  3. 张量并行支持

    • 借鉴 Transformer 的并行策略
    • 支持分布式训练

SSD 数学框架

其中 是 1-半可分矩阵, 表示逐元素乘法。

1.4 Mamba-3:推理优先设计

Mamba-3 是首个推理优先(Inference-First) 的 SSM 架构。3

核心创新

  1. 指数-梯形离散化

    • 从正式推导出发改进离散化方法
    • 更丰富的状态动力学
  2. 复数值状态空间

    • 引入复数特征值实现旋转
    • 增强状态追踪能力
  3. MIMO 变体

    • 多输入多输出 formulation
    • 不增加解码延迟下提升质量

2. 核心技术对比

2.1 离散化方法对比

版本离散化方法数学性质表达能力
S4零阶保持(ZOH)静态参数有限
Mamba指数-欧拉(启发式)选择性参数中等
Mamba-2SSD 框架(标量-单位阵)简化结构中等
Mamba-3指数-梯形(二阶)复数值最高

递推形式对比

Mamba-1(Mamba)

Mamba-3(指数-梯形)

其中:

2.2 状态类型对比

版本状态类型旋转能力状态追踪
S4实数值有限
Mamba实数值中等
Mamba-2实数值(标量转移)受限
Mamba-3复数值

复数值旋转机制

Mamba-3 通过旋转矩阵实现状态更新:

其中 是旋转矩阵:

2.3 输入输出模式对比

版本I/O 模式MIMO 支持解码效率
S4SISO
MambaSISO
Mamba-2SISO最高
Mamba-3SISO/MIMO高(延迟不变)

MIMO 的关键优势

Mamba-3 的 MIMO 变体在不增加解码延迟的情况下提升了模型质量:

模型下游任务提升困惑度改善解码延迟
Mamba-3 SISO vs Mamba-2+0.6pp-0.03持平
Mamba-3 MIMO vs SISO+1.2pp-0.11持平
总计+1.8pp-0.14不变

3. 架构设计目标对比

3.1 设计哲学演进

┌─────────────────────────────────────────────────────────────────────┐
│                      设计目标演进                                    │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│   S4 (2021)                                                        │
│   ├── 目标:理论可行性证明                                           │
│   ├── 核心:HiPPO 框架 + 矩阵指数                                    │
│   └── 局限:静态参数,无法选择性                                     │
│                                                                     │
│   Mamba (2023.12)                                                  │
│   ├── 目标:实用化的线性时间模型                                      │
│   ├── 核心:选择性 SSM + 硬件感知扫描                                 │
│   └── 突破:输入依赖的门控机制                                       │
│                                                                     │
│   Mamba-2 (2024.05)                                                │
│   ├── 目标:高效训练 + 可扩展性                                       │
│   ├── 核心:SSD 框架 + 标量-单位阵                                   │
│   └── 突破:张量并行支持,大规模训练                                  │
│                                                                     │
│   Mamba-3 (2026.03)                                                │
│   ├── 目标:推理效率优化                                             │
│   ├── 核心:指数-梯形 + 复数值 + MIMO                                │
│   └── 突破:质量-延迟 Pareto 最优                                    │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

3.2 优化指标对比

指标S4MambaMamba-2Mamba-3
理论复杂度
并行训练最高
推理延迟最低最低
表达能力有限
状态追踪有限受限

3.3 适用场景分析

场景推荐版本原因
理论研究S4理论基础完整
长序列任务Mamba / Mamba-3线性时间复杂度
大规模训练Mamba-2张量并行支持
部署推理Mamba-3延迟优化
状态追踪任务Mamba-3复数值旋转

4. 性能对比实验

4.1 语言建模困惑度

模型规模TransformerMambaMamba-2Mamba-3 SISOMamba-3 MIMO
130M24.224.124.023.923.8
370M20.320.119.919.819.7
790M17.817.517.417.317.1
1.4B16.215.915.715.615.5
2.8B14.814.514.314.214.0

4.2 下游任务平均准确率

模型BoolQPIQAHellaSwagWinoGrandeArc-C平均
Mamba-259.271.852.151.327.452.4
Gated DeltaNet58.871.251.850.926.851.9
Mamba-3 SISO59.572.152.451.827.852.7
Mamba-3 MIMO60.172.853.152.428.553.4

4.3 状态追踪任务

任务MambaMamba-2Mamba-3理论极限
奇偶校验
模 5 运算
括号匹配
状态计数

4.4 推理延迟对比(1.5B 规模)

序列长度TransformerMamba-2Mamba-3 SISOMamba-3 MIMO
128基准-15%-20%-20%
512基准-18%-25%-25%
2048基准-22%-30%-30%

5. 代码实现对比

5.1 Mamba(SISO)

# Mamba 核心递推
def mamba_step(h_prev, x_t, dt, A, B, C):
    # 指数衰减
    A_bar = torch.exp(dt * A)
    # 状态更新
    h_t = A_bar * h_prev + dt * B * x_t
    # 输出投影
    y_t = C @ h_t
    return h_t, y_t

5.2 Mamba-2(SSD)

# Mamba-2 SSD 形式
def mamba2_step(h_prev, x_t, dt, A, B, C):
    # 标量-单位阵转移
    A_bar = torch.exp(dt * A)  # 标量
    # 状态更新
    h_t = A_bar * h_prev + (dt * B) * x_t
    # 输出
    y_t = (C * h_t).sum(dim=-1)
    return h_t, y_t

5.3 Mamba-3(复数值 + MIMO)

# Mamba-3 MIMO 核心
def mamba3_mimo_step(H_prev, X_t, dt, A, B, C, theta, lambda_):
    # 复数值旋转
    R_t = compute_rotation_matrix(theta * dt)
    A_bar = torch.exp(dt * A)  # 标量
    
    # MIMO 状态更新
    H_t = A_bar * (R_t @ H_prev) + dt * B @ X_t.transpose(-2, -1)
    
    # 多输出
    Y_t = (C.transpose(-2, -1) @ H_t).transpose(-2, -1)
    
    return H_t, Y_t

6. 数学公式汇总

6.1 连续时间 SSM(通用形式)

6.2 各版本离散化对比

版本递推形式
S4
Mamba
Mamba-2(标量转移)
Mamba-3

6.3 SSD 矩阵形式

6.4 复数值旋转

7. 未来发展方向

7.1 技术演进预测

当前状态                          可能的未来方向
─────────────────────────────────────────────────────
Mamba-3 (推理优先)    →    更强的状态追踪能力
                          ↓
Mamba-X (通用架构)    →    SSM + Attention 深度融合
                          ↓
自适应 SSM            →    动态切换 SISO/MIMO
                          ↓
多模态 SSM            →    视觉/音频 SSM 统一框架

7.2 潜在研究问题

  1. 表达能力的理论界限

    • SSM 能表达哪些 Transformer 无法表达的计算?
    • 理论极限与状态大小的关系
  2. 混合架构优化

    • SSM 层与 Attention 层的最优配比
    • 任务自适应的架构选择
  3. 硬件协同设计

    • 专为 SSM 优化的 AI 加速器
    • 新型存储层次结构
  4. 应用领域扩展

    • 多模态 SSM(视觉、音频)
    • 科学计算中的 SSM 应用

参考资料

相关链接


Last updated: 2026-05-10

Footnotes

  1. Albert Gu & Tri Dao, “Mamba: Linear-Time Sequence Modeling with Selective State Spaces”, arXiv:2312.00752, 2023. https://arxiv.org/abs/2312.00752 2

  2. Tri Dao & Albert Gu, “Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality”, arXiv:2405.21060, 2024. https://arxiv.org/abs/2405.21060 2

  3. Aakash Lahoti et al., “Mamba-3: Improved Sequence Modeling using State Space Principles”, arXiv:2603.15569, 2026. https://arxiv.org/abs/2603.15569 2

  4. Albert Gu et al., “Efficiently Modeling Long Sequences with Structured State Spaces”, ICLR 2022. https://arxiv.org/abs/2112.12715