Mamba-3 方法论深度解析

概述

本文深入解析 Mamba-3 的三项核心方法论改进，这些改进均源自经典状态空间理论。与 Mamba-2 的 SSD 框架一脉相承，Mamba-3 在推理优先（Inference-First）思想的指导下，对底层 SSM 数学进行了系统性升级。¹²

核心问题：如何让固定大小的状态执行更多工作，从而在保持推理效率的同时提升模型表达能力？³

Mamba-3 通过以下三条路径解决这一问题：

更表达性的递推关系：通过指数-梯形（Exponential-Trapezoidal）离散化方案实现
更丰富的状态追踪能力：通过复数值 SSM（等价于数据依赖的 RoPE）实现
更高的硬件利用效率：通过多输入多输出（MIMO）结构实现

1. 升级的离散化方案

1.1 连续时间状态空间模型

状态空间模型最原始的形式是一个连续时间常微分方程（ODE）：

h^{'} (t) y (t) = A h (t) + B x (t) = C^{⊤} h (t)

其中：

$x (t) \in R$ 是输入
$h (t) \in R^{N}$ 是隐藏状态（状态大小为 $N$ ）
$y (t) \in R$ 是输出
$A \in R^{N \times N}$ 是状态转移矩阵
$B \in R^{N}$ 、 $C \in R^{N}$ 是输入/输出投影

在传统控制理论中，这些系统是**线性时不变（LTI）**的，所有参数都是常数。

1.2 零阶保持（ZOH）离散化回顾

Mamba-1 和 Mamba-2 使用零阶保持（Zero-Order Hold, ZOH）进行离散化，得到熟悉的递推形式：

h_{t} y_{t} = e^{Δ_{t} A_{t}} h_{t - 1} + A_{t}^{- 1} (e^{Δ_{t} A_{t}} - I) B_{t} x_{t} = C_{t}^{⊤} h_{t}

其中离散化后的参数为：

$\overset{ˉ}{A}_{t} = e^{Δ_{t} A_{t}}$
$\overset{ˉ}{B}_{t} = A_{t}^{- 1} (e^{Δ_{t} A_{t}} - I) B_{t}$

一个关键发现：Mamba 实际使用的离散化方法混合了 ZOH 和 Euler 两种方案，其实现为 $\overset{ˉ}{A}_{t} = exp (Δ_{t} A_{t})$ 、 $\overset{ˉ}{B}_{t} = Δ_{t} B_{t}$ 。这种”混合启发式”方法虽然缺乏理论支撑，但在实践中表现优异。¹

1.3 指数调整离散化框架

为建立统一的离散化理论，Mamba-3 引入了**指数调整（Exponential-Adjusted）**方法。

1.3.1 积分因子法

对于简单 ODE $f^{'} (t) = A f (t)$ ，其解析解为 $f (t) = e^{t A} f (0)$ 。由于参数 $A$ 直接影响变化率，当 $A$ 参数化变化剧烈时，显式方法（如 Euler）被迫使用小步长，限制系统表达能力。

为解决这一问题，对系统 $h^{'} (t) = A (t) h (t) + B (t) x (t)$ 施加积分因子 $e^{- \int_{0}^{t} A (s) d s}$ ：

e^{\int_{0}^{t} - A (s) d s} h^{'} (t) (e^{\int_{0}^{t} - A (s) d s} h (t))^{'} = e^{\int_{0}^{t} - A (s) d s} A (t) h (t) + e^{\int_{0}^{t} - A (s) d s} B (t) x (t) = e^{\int_{0}^{t} - A (s) d s} B (t) x (t)

因为 $(e^{\int_{0}^{t} - A (s) d s})^{'} = - A (t) e^{\int_{0}^{t} - A (s) d s}$ 。

1.3.2 离散化推导

在时间区间 $[τ_{t - 1}, τ_{t}]$ 上积分：

\int_{τ_{t - 1}}^{τ_{t}} \frac{d}{d τ} (z (τ) h (τ)) d τ z (τ_{t}) h (τ_{t}) - z (τ_{t - 1}) h (τ_{t - 1}) = \int_{τ_{t - 1}}^{τ_{t}} z (τ) B (τ) x (τ) d τ = \int_{τ_{t - 1}}^{τ_{t}} z (τ) B (τ) x (τ) d τ

其中 $z (t) := e^{\int_{0}^{t} - A (s) d s}$ 。整理得：

h (τ_{t}) = exp (\int_{τ_{t - 1}}^{τ_{t}} A (s) d s) h (τ_{t - 1}) + \int_{τ_{t - 1}}^{τ_{t}} exp (\int_{τ}^{τ_{t}} A (s) d s) B (τ) x (τ) d τ

在 LTV 情形下，对 $A (s)$ 使用右侧保持假设（Right-Hold）： $\forall s \in [τ_{t - 1}, τ_{t}], A (s) = A (τ_{t}) = A_{t}$ ，则：

h_{t} \approx exp (Δ_{t} A_{t}) h_{t - 1} + \int_{τ_{t - 1}}^{τ_{t}} exp ((τ_{t} - τ) A_{t}) B (τ) x (τ) d τ

1.3.3 恢复 prior Mamba 离散化

ZOH 恢复：假设 $B (τ) x (τ)$ 在区间右端点采样：

\int_{τ_{t - 1}}^{τ_{t}} exp ((τ_{t} - τ) A_{t}) B (τ_{t}) x (τ_{t}) d τ = B_{t} x_{t} \int_{τ_{t - 1}}^{τ_{t}} exp ((τ_{t} - τ) A_{t}) d τ = A_{t}^{- 1} (exp (Δ_{t} A_{t}) - I) B_{t} x_{t}

指数-Euler 恢复：使用 Euler 规则近似积分，并在右端点保持 $B, x$ ：

\int_{τ_{t - 1}}^{τ_{t}} exp ((τ_{t} - τ) A_{t}) B (τ_{t}) x (τ_{t}) d τ \approx Δ_{t} B_{t} x_{t}

这正是 Mamba-1/2 实际使用的离散化方案！

1.4 指数-梯形离散化

1.4.1 梯形规则的二阶精度

Euler 规则仅一阶精度，局部截断误差为 $O (Δ_{t}^{2})$ 。Mamba-3 使用广义梯形规则，提供二阶精度近似：

\int_{τ_{t - 1}}^{τ_{t}} f (τ) d τ \approx Δ_{t} [(1 - λ_{t}) f (τ_{t - 1}) + λ_{t} f (τ_{t})]

其中 $λ_{t} \in [0, 1]$ 是数据依赖的标量。当 $λ_{t} = 1/2$ 时恢复经典梯形规则；Mamba-3 发现数据依赖的 $λ_{t}$ 效果更好。

1.4.2 最终递推公式

将梯形规则应用于状态-输入积分：

h_{t} = exp (Δ_{t} A_{t}) h_{t - 1} + (1 - λ_{t}) Δ_{t} exp (Δ_{t} A_{t}) B_{t - 1} x_{t - 1} + λ_{t} Δ_{t} B_{t} x_{t} = : α_{t} h_{t - 1} + β_{t} B_{t - 1} x_{t - 1} + γ_{t} B_{t} x_{t}

其中：

$α_{t} = e^{Δ_{t} A_{t}}$
$β_{t} = (1 - λ_{t}) Δ_{t} e^{Δ_{t} A_{t}}$
$γ_{t} = λ_{t} Δ_{t}$

1.4.3 隐式数据依赖卷积

关键观察：新的递推公式在状态-输入项上引入了结构化的时间混合。它等价于对 SSM 的状态-输入 $v_{t} = B_{t} x_{t}$ 执行宽度为 2 的数据依赖卷积。

这意味着 Mamba-3 不再需要外部的短因果卷积层——离散化本身就隐式地实现了卷积功能！

1.5 并行表示与 SSD 扩展

根据 SSD 框架，展开递推关系（设 $h_{- 1} = 0$ ）：

h_{0} h_{1} h_{2} = γ_{0} B_{0} x_{0} = (α_{1} γ_{0} + β_{1}) B_{0} x_{0} + γ_{1} B_{1} x_{1} = α_{2} (α_{1} γ_{0} + β_{1}) B_{0} x_{0} + (α_{2} γ_{1} + β_{2}) B_{1} x_{1} + γ_{2} B_{2} x_{2} ⋮

输出可表示为矩阵运算：

y_{0} y_{1} y_{2} ⋮ = γ_{0} (γ_{0} α_{1} + β_{1}) α_{2} (γ_{0} α_{1} + β_{1}) ⋮ γ_{1} (γ_{1} α_{2} + β_{2}) γ_{2} ⋱ ⊙ C_{0}^{⊤} B_{0} C_{1}^{⊤} B_{0} C_{2}^{⊤} B_{0} ⋮ C_{1}^{⊤} B_{1} C_{2}^{⊤} B_{1} C_{2}^{⊤} B_{2} ⋱ x_{0} x_{1} x_{2} ⋮

该形式可进一步分解为 1-半可分矩阵（Mamba-2 的衰减掩码）和 2-带矩阵的组合。

2. 复数值状态空间模型

2.1 动机：实数值 SSM 的表达能力局限

先前为提升效率而对 SSM 进行简化，导致了状态追踪能力的丧失。大量研究表明，当前线性 RNN 类模型在状态追踪任务上存在理论限制：

缺乏时间步间的非线性：限制了模型对复杂依赖关系的建模
结构化矩阵转移：如 Mamba-2 将对角转移简化为标量-单位阵

2.1.1 奇偶性（Parity）任务示例

奇偶性任务是检验状态追踪能力的经典基准：判断一串 0 和 1 的和是否为偶数。

理想解法需要隐藏状态追踪当前和是奇数还是偶数，然后在遇到下一个输入时交替状态——这等价于一个简单的两状态自动机。然而，Mamba 模型将转移限制为 $\overset{ˉ}{A}_{t} \in [0, 1]$ ，这强制模型学习”求和后取模”的朴素解法：

\overset{ˉ}{A}_{t} \in [0, 1] \Rightarrow 无法实现符号交替

这在短序列上可行，但当序列长度超过状态容量时便失效。

2.2 旋转视角：复数值的优势

2.2.1 旋转解决模运算问题

旋转可以优雅地解决模运算问题。直观理解：将一个 2D 向量绕原点旋转，整个可能的角分布 $[0, 2 π]$ 被划分为 $m$ 个区间，向量根据当前模余数旋转 $\frac{2 π}{m}$ 角度。

2.2.2 复数 SSM 的表示

核心结论：对角复数值连续 SSM 可以表示为离散化后的实数值 SSM，不引入任何额外近似损失。

对于状态 $N = 2$ 的情况，使用指数-Euler 离散化得到：

h_{t} = e^{Δ_{t} A_{t}} R_{t} [cos (Δ_{t} θ_{t}) sin (Δ_{t} θ_{t}) - sin (Δ_{t} θ_{t}) cos (Δ_{t} θ_{t})] h_{t - 1} + Δ_{t} B_{t} x_{t}

其中 $R_{t}$ 是旋转矩阵。对于更大状态， $R_{t}$ 是块对角的。

2.3 RoPE 等价性：高效实现

2.3.1 从旋转状态到旋转投影

问题：直接旋转隐藏状态需要重新实现内核，涉及大量矩阵乘法。

关键洞察：由于 $\overset{ˉ}{A}$ 是缩放-单位矩阵，我们可以将旋转吸收到 $B, C$ 中。

时间步 $t$ 的输出可建模为：

y_{t} = C_{t}^{⊤} \overset{ˉ}{B}_{t} + \dots + C_{t}^{⊤} (\overset{ˉ}{A} R)_{t \dots 1}^{t} \overset{ˉ}{B}_{0}

忽略 $\overset{ˉ}{A}$ 项（可吸收到 $C$ ），得到 $C_{i}^{⊤} R_{i} \dots R_{j + 1} \overset{ˉ}{B}_{j}$ 。这可以表示为：

(R_{i} \dots R_{0} C_{i})^{⊤} (R_{j} \dots R_{0} \overset{ˉ}{B}_{j})

2.3.2 RoPE trick

命题（复数 SSM 与数据依赖 RoPE 的等价性）：对 $B, C$ 应用旋转等价于在 SSM 上实现复数值转移。

具体实现：

计算累积角度： $θ_{t} = cumsum (Δ_{t} \cdot θ)$
使用 RoFormer 论文中的高效旋转乘法实现

这使得复数值 SSM 可以直接复用高效的 RoPE 内核，无需重新实现！

# 简化的 RoPE 等价实现
def apply_rope_trick(C, theta_cumsum, headdim):
    """RoPE trick: 将旋转应用到投影矩阵"""
    cos_vals = torch.cos(theta_cumsum)
    sin_vals = torch.sin(theta_cumsum)
    
    # 将 C 按维度分为前半和后半
    C_real, C_imag = C[..., :headdim//2], C[..., headdim//2:]
    
    # 应用旋转：C' = C_real * cos - C_imag * sin
    C_rotated = torch.cat([
        C_real * cos_vals - C_imag * sin_vals,
        C_real * sin_vals + C_imag * cos_vals
    ], dim=-1)
    
    return C_rotated

2.3.3 状态追踪能力验证

实验证明，复数值 SSM（通过 RoPE trick 实现）能够解决先前的 Mamba 模型无法完成的状态追踪任务，包括奇偶性等模运算问题。

3. 多输入多输出（MIMO）系统

3.1 问题：推理时的低算术强度

3.1.1 训练 vs 推理的计算特性

阶段	特性	说明
训练	计算密集型（Compute-bound）	硬件持续执行运算
推理/解码	内存密集型（Memory-bound）	计算单元大部分时间空闲，等待数据搬运

3.1.2 SSM 解码的算术强度分析

算术强度定义：执行运算次数 / 内存传输字节数。

典型 Mamba-2 SSM 结构（标量衰减 $a_{t}$ ，head 维度 $P$ ）：

h_{t} y_{t} = a_{t} h_{t - 1} + B_{t} x_{t} = C_{t}^{⊤} h_{t}

其中 $x_{t}, y_{t} \in R^{P}$ ， $h_{t} \in R^{N \times P}$ 。

内存流量： $2 (1 + 2 N + P + NP)$ 字节（使用 2 字节数据）

FLOPs：约 $5 NP - P$ （包含 $a_{t} h_{t - 1}$ 缩放、 $B_{t} x_{t}$ 外积、 $C_{t}^{⊤} h_{t}$ 矩阵乘法）

算术强度： $\approx 2.5$ ops/字节

作为对比，H100 的矩阵乘法算术强度约为 300 ops/字节。这意味着默认 SSM 解码是彻头彻尾的内存密集型操作！

3.2 MIMO 公式

3.2.1 从 SISO 到 MIMO

核心思想：在保持状态大小不变的同时，增加每次状态更新的 FLOPs。

将 $B_{t}, C_{t}$ 扩展为 $N \times R$ ， $x_{t}, y_{t}$ 扩展为 $P \times R$ ：

h_{t} y_{t} = a_{t} h_{t - 1} + B_{t} x_{t}^{⊤} = C_{t}^{⊤} h_{t}

其中 $R$ 是系统的秩。

3.2.2 算术强度提升

总 FLOPs： $4 NPR + NP - PR = O (R)$ 增加

内存流量：基本保持不变（对于小 $R$ ）

结果：算术强度随 $R$ 线性增长！当 $R ≪ P, N$ （通常 $P = 64, N = 128, R = 4$ ）时效果最佳。

3.3 参数高效实例化

3.3.1 朴素方案的参数爆炸

直接扩展投影大小会导致 $R \times$ 参数增长，因为 $x, B, C$ 、输出门 $Z$ 、输出投影都需要调整。

3.3.2 利用多值注意力结构

由于 $B, C$ 在所有 head 间共享（多值注意力结构），可以以较小开销扩展：

D N \to D NR (约可忽略)

对于 $x, y, Z$ （每 head 独有，是主要参数来源），保持原始投影不变，然后使用数据无关的可学习向量对每个维度进行元素级缩放：

参数减少 : D PR \to D P + PR

3.4 训练 vs 推理的不对称性

3.4.1 训练成本增长 $R$ 倍，而非 $R^{2}$ 倍

直觉上，MIMO 输出需要 $R^{2}$ 个 SISO SSM。但分块训练算法使得 FLOPs 仅增长 $R$ 倍：

序列被划分为大小为 $C$ 的块
块间状态聚合顺序执行
块内 SSM 输出使用二次并行算法

对于 MIMO：

块间输出计算增加 $R$ 倍
块内输出计算增加 $R^{2}$ 倍

通过将块大小减小到 $C / R$ ，总 FLOPs 仅增加 $R$ 倍。

3.4.2 为什么推理延迟不变？

推理时，GPU 张量核心在 SISO 解码中处于空闲状态。MIMO 的额外 FLOPs 可以被空闲的计算单元吸收，而不增加实际延迟：

延迟 \approx max (计算时间, 内存访问时间)

由于原始 SISO 是内存密集型，MIMO 增加的计算时间仍在内存访问时间范围内，因此总延迟保持不变！

4. 与 Mamba-2 的对比分析

4.1 架构层面的变化

组件	Mamba-2	Mamba-3
离散化	指数-Euler（一阶）	指数-梯形（二阶）
状态转移	标量 $\times$ 单位阵	复数值（旋转）
输入结构	SISO	SISO / MIMO（可选）
短卷积	外部独立层	隐式融入递推
归一化	RMSNorm	RMSNorm + QKNorm

4.2 性能对比

4.2.1 延迟基准（H100, batch=128）

Prefill 延迟（秒）：

模型	n=512	1024	2048	4096	16384
vLLM (Llama-3.2-1B)	0.26	0.52	1.08	2.08	12.17
Gated DeltaNet	0.51	1.01	2.01	4.00	16.21
Mamba-2	0.51	1.02	2.02	4.02	16.22
Mamba-3 SISO	0.51	1.01	2.02	4.01	16.22
Mamba-3 MIMO (R=4)	0.60	1.21	2.42	4.76	19.44

Prefill + Decode 延迟（秒）：

模型	n=512	1024	2048	4096	16384
vLLM (Llama-3.2-1B)	4.45	9.60	20.37	58.64	976.50
Gated DeltaNet	4.56	9.11	18.22	36.41	145.87
Mamba-2	4.66	9.32	18.62	37.22	149.02
Mamba-3 SISO	4.39	8.78	17.57	35.11	140.61
Mamba-3 MIMO (R=4)	4.74	9.48	18.96	37.85	151.81

关键发现：

Mamba-3 SISO 在所有序列长度上实现最快的 prefill + decode 延迟
Mamba-3 MIMO 速度与 Mamba-2 相当，但性能显著更强

4.2.2 状态大小 vs 性能

在受控实验中分析状态大小（推理速度的代理指标）与性能的关系：

Mamba-3 在相同的困惑度下，可以使用 Mamba-2 一半的状态大小
这意味着更快的推理速度，同时保持模型质量

4.3 训练效率

Mamba-3 与 Mamba-2 在架构形状（模型维度、状态大小等）上完全兼容，训练时间相当。

MIMO 变体需要更长的训练时间（因为 FLOPs 增加 $R$ 倍），但推理延迟不变。

5. 实现细节

5.1 内核技术栈

Mamba-3 使用三层域特定语言（DSL）实现高效内核：

DSL	用途	特点
Triton	Prefill（SISO）	标准开发语言，可控分块与融合，平台无关
TileLang	Prefill（MIMO）	显式共享内存控制，策略性内存层级操作
CuTe DSL	Decode	Python 接口生成 CUDA 级内核，细粒度 tensor 布局控制

5.2 融合结构

Mamba-3 的算法设计使得这些不同层次的实现成为可能：

指数-梯形递推：简单的三项结构，易于融合
RoPE trick：复用现有高效 RoPE 内核
MIMO：矩阵-矩阵乘法（matmul）而非外积，可利用快速 tensor core

6. 总结与展望

6.1 核心贡献

Mamba-3 的三项方法论改进均源自经典状态空间理论：

指数-梯形离散化：二阶精度递推，隐式实现卷积，移除外部短卷积层
复数值 SSM：通过 RoPE trick 高效实现，解决状态追踪任务
MIMO 结构：在不增加推理延迟的情况下，提升模型表达能力和硬件利用率

6.2 更广阔的图景

Mamba-3 代表了 SSM 设计的范式转变：从训练优先到推理优先。这一转变反映了 LLM 部署的现实需求：

后训练方法（RLVR）需要大量推理 rollouts
Agentic 工作流持续高强度调用推理端点
实时交互场景要求极低延迟

6.3 相关阅读

Mamba-3：推理优先的状态空间模型 — 模型概述与应用场景
Mamba-2 状态空间对偶性理论 — SSD 框架的数学基础
Cartesia Blog: Mamba-3 — 官方产品视角解读³
Goomba Lab: Mamba-3 Part 2 — 原论文方法论详解¹
arXiv: Mamba-3 — 完整论文²

Mamba-3 Part 2 - Methodological Deep Dive, Goomba Lab, 2026. https://goombalab.github.io/blog/2026/mamba3-part2/ ↩ ↩² ↩³
Lahoti, A., Li, K. Y., Chen, B., Wang, C., Bick, A., Kolter, J. Z., Dao, T., & Gu, A. (2026). Mamba-3: Improved Sequence Modeling using State Space Principles. arXiv:2603.15569. https://arxiv.org/abs/2603.15569 ↩ ↩²
Mamba-3: An Inference-First State Space Model, Cartesia Blog, 2026. https://blog.cartesia.ai/p/mamba-3/ ↩ ↩²

Metaphor

探索