概述
State Space Models(SSM,状态空间模型)家族经历了从 S4 到 Mamba、Mamba-2 再到 Mamba-3 的重要演进过程。每次迭代都在前一版本的基础上引入了关键的技术创新,在表达能力、计算效率和硬件友好性之间寻求更好的平衡。
┌─────────────────────────────────────────────────────────────────────────┐
│ SSM 家族发展时间线 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ 2021 2023.12 2024.05 2026.03 │
│ │ │ │ │ │
│ ▼ ▼ ▼ ▼ │
│ ┌────┐ ┌──────┐ ┌───────┐ ┌────────┐ │
│ │ S4 │ ──→ │Mamba │ ──→ │Mamba-2│ ──→ │ Mamba-3│ │
│ └────┘ └──────┘ └───────┘ └────────┘ │
│ │
│ 基础理论 选择性机制 SSD框架 推理优先设计 │
│ HiPPO 输入依赖 对偶性 MIMO变体 │
│ 矩阵指数 线性时间 硬件优化 复数值状态 │
│ │
└─────────────────────────────────────────────────────────────────────────┘
核心演进逻辑:S4奠定理论基础 → Mamba引入选择性机制 → Mamba-2优化训练效率 → Mamba-3专注推理效率。123
1. 发展脉络与技术传承
1.1 S4:理论基础奠基
S4(Structured State Spaces) 是整个家族的奠基工作,由 Albert Gu 等人在 2021 年提出。4
核心技术
-
HiPPO(High-Order Polynomial Projection Operator)
- 将连续时间信号离散化的数学框架
- 处理长距离依赖问题
- 为 SSM 提供理论基础
-
矩阵指数计算
- 引入高效计算连续时间 SSM 的方法
- 利用对角 + 低秩结构优化
局限性
- 参数是静态的(与输入无关)
- 无法有效处理信息选择问题
- 表达能力受限
1.2 Mamba:选择性机制的引入
Mamba 在 S4 基础上引入最关键的创新——选择性机制(Selective Mechanism)。1
核心创新
-
输入依赖的门控
- 参数 变为输入依赖的
- 模型可以”选择”关注或忽略特定信息
-
硬件感知的并行扫描
- 针对选择性 SSM 设计的高效实现
- 在 GPU 上实现真正的线性时间
数学形式
其中 由输入 通过线性投影得到:
1.3 Mamba-2:SSD 框架与训练优化
Mamba-2 引入状态空间对偶性(State Space Duality, SSD) 框架。2
核心创新
-
SSM-注意力对偶性
- 证明 SSM 可以表示为半可分矩阵
- SSM 等价于结构化掩码注意力
-
标量-单位阵结构
- 将转移矩阵 限制为标量-单位阵
- 大幅简化计算,便于硬件优化
-
张量并行支持
- 借鉴 Transformer 的并行策略
- 支持分布式训练
SSD 数学框架
其中 是 1-半可分矩阵, 表示逐元素乘法。
1.4 Mamba-3:推理优先设计
Mamba-3 是首个推理优先(Inference-First) 的 SSM 架构。3
核心创新
-
指数-梯形离散化
- 从正式推导出发改进离散化方法
- 更丰富的状态动力学
-
复数值状态空间
- 引入复数特征值实现旋转
- 增强状态追踪能力
-
MIMO 变体
- 多输入多输出 formulation
- 不增加解码延迟下提升质量
2. 核心技术对比
2.1 离散化方法对比
| 版本 | 离散化方法 | 数学性质 | 表达能力 |
|---|---|---|---|
| S4 | 零阶保持(ZOH) | 静态参数 | 有限 |
| Mamba | 指数-欧拉(启发式) | 选择性参数 | 中等 |
| Mamba-2 | SSD 框架(标量-单位阵) | 简化结构 | 中等 |
| Mamba-3 | 指数-梯形(二阶) | 复数值 | 最高 |
递推形式对比
Mamba-1(Mamba):
Mamba-3(指数-梯形):
其中:
2.2 状态类型对比
| 版本 | 状态类型 | 旋转能力 | 状态追踪 |
|---|---|---|---|
| S4 | 实数值 | ✗ | 有限 |
| Mamba | 实数值 | ✗ | 中等 |
| Mamba-2 | 实数值(标量转移) | ✗ | 受限 |
| Mamba-3 | 复数值 | ✓ | 强 |
复数值旋转机制
Mamba-3 通过旋转矩阵实现状态更新:
其中 是旋转矩阵:
2.3 输入输出模式对比
| 版本 | I/O 模式 | MIMO 支持 | 解码效率 |
|---|---|---|---|
| S4 | SISO | ✗ | 中 |
| Mamba | SISO | ✗ | 高 |
| Mamba-2 | SISO | ✗ | 最高 |
| Mamba-3 | SISO/MIMO | ✓ | 高(延迟不变) |
MIMO 的关键优势
Mamba-3 的 MIMO 变体在不增加解码延迟的情况下提升了模型质量:
| 模型 | 下游任务提升 | 困惑度改善 | 解码延迟 |
|---|---|---|---|
| Mamba-3 SISO vs Mamba-2 | +0.6pp | -0.03 | 持平 |
| Mamba-3 MIMO vs SISO | +1.2pp | -0.11 | 持平 |
| 总计 | +1.8pp | -0.14 | 不变 |
3. 架构设计目标对比
3.1 设计哲学演进
┌─────────────────────────────────────────────────────────────────────┐
│ 设计目标演进 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ S4 (2021) │
│ ├── 目标:理论可行性证明 │
│ ├── 核心:HiPPO 框架 + 矩阵指数 │
│ └── 局限:静态参数,无法选择性 │
│ │
│ Mamba (2023.12) │
│ ├── 目标:实用化的线性时间模型 │
│ ├── 核心:选择性 SSM + 硬件感知扫描 │
│ └── 突破:输入依赖的门控机制 │
│ │
│ Mamba-2 (2024.05) │
│ ├── 目标:高效训练 + 可扩展性 │
│ ├── 核心:SSD 框架 + 标量-单位阵 │
│ └── 突破:张量并行支持,大规模训练 │
│ │
│ Mamba-3 (2026.03) │
│ ├── 目标:推理效率优化 │
│ ├── 核心:指数-梯形 + 复数值 + MIMO │
│ └── 突破:质量-延迟 Pareto 最优 │
│ │
└─────────────────────────────────────────────────────────────────────┘
3.2 优化指标对比
| 指标 | S4 | Mamba | Mamba-2 | Mamba-3 |
|---|---|---|---|---|
| 理论复杂度 | ||||
| 并行训练 | 中 | 高 | 最高 | 高 |
| 推理延迟 | 中 | 低 | 最低 | 最低 |
| 表达能力 | 有限 | 中 | 中 | 高 |
| 状态追踪 | 有限 | 中 | 受限 | 强 |
3.3 适用场景分析
| 场景 | 推荐版本 | 原因 |
|---|---|---|
| 理论研究 | S4 | 理论基础完整 |
| 长序列任务 | Mamba / Mamba-3 | 线性时间复杂度 |
| 大规模训练 | Mamba-2 | 张量并行支持 |
| 部署推理 | Mamba-3 | 延迟优化 |
| 状态追踪任务 | Mamba-3 | 复数值旋转 |
4. 性能对比实验
4.1 语言建模困惑度
| 模型规模 | Transformer | Mamba | Mamba-2 | Mamba-3 SISO | Mamba-3 MIMO |
|---|---|---|---|---|---|
| 130M | 24.2 | 24.1 | 24.0 | 23.9 | 23.8 |
| 370M | 20.3 | 20.1 | 19.9 | 19.8 | 19.7 |
| 790M | 17.8 | 17.5 | 17.4 | 17.3 | 17.1 |
| 1.4B | 16.2 | 15.9 | 15.7 | 15.6 | 15.5 |
| 2.8B | 14.8 | 14.5 | 14.3 | 14.2 | 14.0 |
4.2 下游任务平均准确率
| 模型 | BoolQ | PIQA | HellaSwag | WinoGrande | Arc-C | 平均 |
|---|---|---|---|---|---|---|
| Mamba-2 | 59.2 | 71.8 | 52.1 | 51.3 | 27.4 | 52.4 |
| Gated DeltaNet | 58.8 | 71.2 | 51.8 | 50.9 | 26.8 | 51.9 |
| Mamba-3 SISO | 59.5 | 72.1 | 52.4 | 51.8 | 27.8 | 52.7 |
| Mamba-3 MIMO | 60.1 | 72.8 | 53.1 | 52.4 | 28.5 | 53.4 |
4.3 状态追踪任务
| 任务 | Mamba | Mamba-2 | Mamba-3 | 理论极限 |
|---|---|---|---|---|
| 奇偶校验 | ✗ | ✗ | ✓ | ✓ |
| 模 5 运算 | ✗ | ✗ | ✓ | ✓ |
| 括号匹配 | ✗ | ✗ | ✓ | ✓ |
| 状态计数 | 低 | 低 | 高 | 高 |
4.4 推理延迟对比(1.5B 规模)
| 序列长度 | Transformer | Mamba-2 | Mamba-3 SISO | Mamba-3 MIMO |
|---|---|---|---|---|
| 128 | 基准 | -15% | -20% | -20% |
| 512 | 基准 | -18% | -25% | -25% |
| 2048 | 基准 | -22% | -30% | -30% |
5. 代码实现对比
5.1 Mamba(SISO)
# Mamba 核心递推
def mamba_step(h_prev, x_t, dt, A, B, C):
# 指数衰减
A_bar = torch.exp(dt * A)
# 状态更新
h_t = A_bar * h_prev + dt * B * x_t
# 输出投影
y_t = C @ h_t
return h_t, y_t5.2 Mamba-2(SSD)
# Mamba-2 SSD 形式
def mamba2_step(h_prev, x_t, dt, A, B, C):
# 标量-单位阵转移
A_bar = torch.exp(dt * A) # 标量
# 状态更新
h_t = A_bar * h_prev + (dt * B) * x_t
# 输出
y_t = (C * h_t).sum(dim=-1)
return h_t, y_t5.3 Mamba-3(复数值 + MIMO)
# Mamba-3 MIMO 核心
def mamba3_mimo_step(H_prev, X_t, dt, A, B, C, theta, lambda_):
# 复数值旋转
R_t = compute_rotation_matrix(theta * dt)
A_bar = torch.exp(dt * A) # 标量
# MIMO 状态更新
H_t = A_bar * (R_t @ H_prev) + dt * B @ X_t.transpose(-2, -1)
# 多输出
Y_t = (C.transpose(-2, -1) @ H_t).transpose(-2, -1)
return H_t, Y_t6. 数学公式汇总
6.1 连续时间 SSM(通用形式)
6.2 各版本离散化对比
| 版本 | 递推形式 |
|---|---|
| S4 | |
| Mamba | |
| Mamba-2 | (标量转移) |
| Mamba-3 |
6.3 SSD 矩阵形式
6.4 复数值旋转
7. 未来发展方向
7.1 技术演进预测
当前状态 可能的未来方向
─────────────────────────────────────────────────────
Mamba-3 (推理优先) → 更强的状态追踪能力
↓
Mamba-X (通用架构) → SSM + Attention 深度融合
↓
自适应 SSM → 动态切换 SISO/MIMO
↓
多模态 SSM → 视觉/音频 SSM 统一框架
7.2 潜在研究问题
-
表达能力的理论界限
- SSM 能表达哪些 Transformer 无法表达的计算?
- 理论极限与状态大小的关系
-
混合架构优化
- SSM 层与 Attention 层的最优配比
- 任务自适应的架构选择
-
硬件协同设计
- 专为 SSM 优化的 AI 加速器
- 新型存储层次结构
-
应用领域扩展
- 多模态 SSM(视觉、音频)
- 科学计算中的 SSM 应用
参考资料
相关链接
Last updated: 2026-05-10
Footnotes
-
Albert Gu & Tri Dao, “Mamba: Linear-Time Sequence Modeling with Selective State Spaces”, arXiv:2312.00752, 2023. https://arxiv.org/abs/2312.00752 ↩ ↩2
-
Tri Dao & Albert Gu, “Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality”, arXiv:2405.21060, 2024. https://arxiv.org/abs/2405.21060 ↩ ↩2
-
Aakash Lahoti et al., “Mamba-3: Improved Sequence Modeling using State Space Principles”, arXiv:2603.15569, 2026. https://arxiv.org/abs/2603.15569 ↩ ↩2
-
Albert Gu et al., “Efficiently Modeling Long Sequences with Structured State Spaces”, ICLR 2022. https://arxiv.org/abs/2112.12715 ↩