概述

Mamba-3 是由卡内基梅隆大学、普林斯顿大学、Cartesia AI 和 Together AI 的研究团队于 2026 年 3 月发布的下一代状态空间模型(State Space Model, SSM)。与前身 Mamba-2 专注于训练效率不同,Mamba-3 是首个推理优先(Inference-First) 的状态空间模型,旨在解决现代 LLM 部署中日益重要的推理效率问题。

核心洞见:Mamba-3 通过三个核心方法论改进——指数-梯形离散化、复数值状态更新规则和多输入多输出(MIMO) formulation——在保持推理延迟不变的同时,显著提升了模型质量与能力。1

问题背景:为什么需要推理优先的设计?

从训练优先到推理优先的范式转变

过去两年中,LLM 的计算范式已从训练优先转向推理优先

阶段核心瓶颈代表模型
2022-2024预训练效率Mamba-2(2-8× 训练加速)
2024-2026后训练与部署Mamba-3(推理效率优化)

后训练方法(如 RLVR)的扩展以及智能体工作流(agentic workflows)的兴起,使得推理需求急剧增长。Codex、Claude Code 等系统需要持续高强度地调用推理端点。

Mamba-2 的遗留问题

Mamba-2 为加速预训练,对底层 SSM 机制进行了大量简化:

  • 将对角转移矩阵简化为标量-单位阵结构
  • 每个 token 更新执行的计算量相对于内存移动量过小
  • 解码阶段内存-bound:GPU 张量核心处于空闲状态,主要时间花在数据搬运上
┌─────────────────────────────────────────────────────┐
│                    计算范式对比                      │
│                                                     │
│  训练阶段:                                         │
│  ┌─────────────────────────────────────────┐       │
│  │         计算密集型(Compute-bound)      │       │
│  │         硬件持续执行运算                  │       │
│  └─────────────────────────────────────────┘       │
│                       ↓                            │
│  解码阶段:                                         │
│  ┌─────────────────────────────────────────┐       │
│  │         内存密集型(Memory-bound)       │       │
│  │         张量核心空闲,等待数据搬运        │       │
│  └─────────────────────────────────────────┘       │
└─────────────────────────────────────────────────────┘

核心问题

线性模型的核心优势在于:计算量随序列长度线性增长(得益于固定大小的状态)。然而,这也意味着所有历史信息必须压缩到一个固定表示中——这与 Transformer 通过不断增长的 KV 缓存存储所有历史信息的方式截然相反。

核心矛盾:如果不能增长状态,如何让固定状态完成更多工作?2

Mamba-3 的三大核心改进

Mamba-3 从经典控制理论和状态空间理论中汲取灵感,提出三个核心改进方向:

改进方向技术手段效果
(1) 更具表达力的递推指数-梯形离散化状态动力学更丰富
(2) 更强的状态追踪能力复数值状态空间解决奇偶校验等任务
(3) 更高的硬件利用率MIMO formulation不增加延迟下提升质量

1. 指数-梯形离散化(Exponential-Trapezoidal Discretization)

1.1 连续时间状态空间模型

状态空间模型最初是一个简单的连续时间常微分方程(ODE)

其中:

  • 是输入
  • 是输出
  • 是大小为 的隐藏状态(也称状态大小
  • 是状态转移矩阵
  • 是输入/输出投影

1.2 零阶保持(ZOH)离散化

为获得可用的递推形式,需要对连续 ODE 进行离散化。Mamba-1 和 Mamba-2 使用零阶保持(Zero-Order Hold, ZOH)离散化:

其中 是时间步长。

1.3 指数-欧拉(Exponential-Euler)方法

Mamba 实际实现中采用的是指数-欧拉方法的启发式近似:

这对应于将积分 用欧拉法则近似。

1.4 新的指数-梯形离散化

Mamba-3 提出了更一般的离散化框架。核心思想是:

  1. 使用积分因子(integrating factor) 调整系统动力学
  2. 将状态转移和状态输入积分解耦处理

具体推导过程如下:

对系统 应用积分因子

在区间 上积分:

重新整理得到:

1.5 梯形规则(Trapezoidal Rule)

欧拉法则只使用区间的一个端点,是一阶近似(局部截断误差为 )。Mamba-3 采用梯形规则,使用区间两端点的凸组合来近似积分,是二阶近似(局部截断误差为 ):

其中 可学习的参数(门控机制)。

1.6 Mamba-3 的递推形式

最终的指数-梯形离散化递推形式为:

其中:

关键发现:这个三项递推等价于在状态输入上应用宽度为 2 的隐式数据依赖卷积

# Python 伪代码:指数-梯形离散化
def mamba3_step(h_prev, x_t, x_tm1, dt, A, B, lambda_):
    alpha = torch.exp(dt * A)           # 状态衰减
    beta = (1 - lambda_) * dt * alpha   # 前一时刻贡献
    gamma = lambda_ * dt                # 当前时刻贡献
    
    # 隐式卷积:结合前一刻和当前输入
    h_t = alpha * h_prev + beta * (B @ x_tm1) + gamma * (B @ x_t)
    return h_t

1.7 并行表示与 SSD 框架

Mamba-2 的 SSD 框架 类似,Mamba-3 的递推形式可以展开为并行矩阵形式:

其中 是 1-半可分矩阵, 是 2-带矩阵。这一分解是硬件高效训练算法的基础。


2. 复数值状态空间(Complex-Valued SSM)

2.1 状态追踪的挑战

当前线性模型的一个著名局限是缺乏状态追踪能力。例如,最简单的任务——奇偶校验(判断 0 和 1 序列的和是否为偶数)——对于 Mamba 模型来说,在常数层数内是不可解的。

理想解决方案需要隐藏状态追踪当前累加和是奇数还是偶数,并根据下一个输入交替,这建模了一个简单的双状态自动机。然而,Mamba 模型将转移矩阵限制为 强制模型学习朴素解法:将所有值相加后取模 2。

2.2 旋转的威力

奇偶校验和其他模 任务可以通过旋转解决。可视化方法是:有一个 2D 向量绕原点旋转。整个可能的角分布 被划分为 个区间,向量旋转 来对齐当前的模 余数。

复数特征值的引入使得隐藏状态能够在潜在空间中进行旋转,这对奇偶校验或计数等任务至关重要。

2.3 复数值 SSM 的实数表示

在计算机系统中处理复数值非常麻烦,因为其乘法交互很复杂。幸运的是,对角复数值连续 SSM 可以表示为离散实数值 SSM(不引入额外的近似损失)。

核心思想是将大小为 的复数值状态 SSM 扩展为大小为 的实数值状态:

在指数-欧拉离散化下,得到以下递推:

对于更大的状态,旋转矩阵 是块对角的。

2.4 与数据依赖 RoPE 的等价性

关键定理:复数值 SSM 等价于数据依赖的旋转位置嵌入(RoPE)3

设输出为:

由于 是缩放单位矩阵,我们可以忽略 项。结果项 可以表示为:

因此,旋转可以直接嵌入到 项中,而不是直接调整转移矩阵!

这正是 RoPE trick:将旋转应用到 投影上,利用高效的 RoPE 内核实现复数动态。

# RoPE trick:高效实现复数旋转
def rope_bc(B, C, theta_cumsum, dt):
    # 计算累积角度
    angle = theta_cumsum * dt
    
    # 应用旋转到 B 和 C
    cos_a = torch.cos(angle)
    sin_a = torch.sin(angle)
    
    # 旋转后的 B 和 C
    B_rot = B * cos_a + rotate(B) * sin_a
    C_rot = C * cos_a + rotate(C) * sin_a
    
    return B_rot, C_rot

2.5 状态追踪能力对比

实验表明,复数值 SSM 能够解决先前 Mamba 模型无法完成的状态追踪任务:

模型奇偶校验模运算括号匹配
Mamba-2(实数值)
Mamba-3(复数值)

3. 多输入多输出(MIMO) formulation

3.1 内存-bound 问题的本质

训练阶段是计算密集型(compute-bound),而部署(尤其是解码)是内存密集型(memory-bound)。在解码时,硬件的计算单元大部分时间处于空闲状态,等待数据在不同内存层级间移动。

算术强度(Arithmetic Intensity) 是衡量硬件利用率的指标:执行的计算操作数与内存移动量的比值。

对于 Mamba-2 单头 SSM:

其中 是标量衰减,

  • 内存移动量:约 字节
  • FLOPs:约
  • 算术强度:约 2.5(远低于 H100 的 300 ops/byte 阈值)

3.2 MIMO 系统定义

从信号处理角度看,从 SISO(单输入单输出)到 MIMO(多输入多输出)的转换正是 SSM 的泛化形式。

MIMO SSM 的定义:

其中:

  • 是系统的秩(rank)

3.3 关键洞察:保持状态大小,增加计算量

MIMO 的核心思想是:在保持状态大小不变的情况下,增加每步的计算量

指标SISOMIMO ()
状态大小(不变)
内存移动
FLOPs
算术强度~2.5

(通常 )时,算术强度随 线性增长

3.4 分块训练算法(Chunked Training)

MIMO 变体将 SISO 的表达能力扩展 倍,但训练计算量仅增长 倍!

这是通过分块训练算法实现的:

  1. 序列被划分为大小为 的块
  2. 块内使用二次(并行)算法计算输出
  3. 块间使用线性(顺序)算法聚合状态

对于 MIMO,通过将块大小减小到 ,总 FLOPs 仅增长 倍。

3.5 MIMO 的实际效果

模型规模困惑度提升下游任务平均提升解码延迟
Mamba-3 SISO vs Mamba-2-0.03+0.6pp持平
Mamba-3 MIMO vs SISO-0.11+1.2pp持平
Mamba-3 MIMO 总计-0.14+1.8pp持平

4. 硬件效率与实现

4.1 硬件友好的架构设计

Mamba-3 的三大改进都经过精心设计,以确保硬件效率:

改进实现方式硬件友好性
指数-梯形离散化SSD 框架扩展兼容现有并行算法
复数值 RoPE利用现有 RoPE 内核无需新内核
MIMOTileLang 实现专用 CUDA 内核

4.2 延迟对比(1.5B 规模)

在 1.5B 规模下,Mamba-3 SISO 在所有序列长度的 prefill + decode 延迟上均优于 Mamba-2、Gated DeltaNet,甚至超过 Llama-3.2-1B(Transformer)!

序列长度    Mamba-2    Mamba-3 SISO    Transformer    Mamba-3 MIMO
   128      基准        更快 (~20%)       更慢           持平
   512      基准        更快 (~25%)       更慢           持平
  2048      基准        更快 (~30%)       更慢           持平

4.3 开源实现

Mamba-3 的实现采用多种技术栈的混合:

  • Triton:SISO 版本的预填充
  • TileLang:MIMO 版本的高效实现
  • CuTe DSL:底层 CUDA 内核优化
# 安装 Mamba-3
MAMBA_FORCE_BUILD=TRUE pip install --no-cache-dir --force-reinstall \
    git+https://github.com/state-spaces/mamba.git --no-build-isolation

5. 数学公式汇总

5.1 连续时间 SSM

5.2 指数-梯形离散化递推

其中:

5.3 复数值状态转移(含旋转)

其中 是旋转矩阵:

5.4 MIMO SSM

5.5 算术强度


6. 性能-效率前沿(Pareto Frontier)

Mamba-3 重新定义了亚二次模型在固定推理预算下的性能前沿:

                    性能
                      ↑
                      │    ★ Mamba-3 MIMO
                      │   ╱
                      │  ╱  ★ Mamba-3 SISO
                      │ ╱
                      │╱  ☆ Mamba-2
                      │╱ ☆
                      │╱☆
                     ─┼──────────────────→ 推理延迟
                      │
                      最低

核心成就

  • 在 1.5B 规模下,下游任务平均准确率比 Gated DeltaNet 高 0.6pp
  • MIMO 变体再提升 1.2pp,总计 1.8pp
  • 在仅使用 Mamba-2 一半状态大小的情况下,达到相当的困惑度

7. 与 Mamba-2 的关系

Mamba-3 是对 Mamba-2 SSD 框架的直接扩展:

特性Mamba-2Mamba-3
离散化零阶保持(启发式)指数-梯形(正式推导)
状态类型实数值复数值(RoPE trick)
输入输出SISOSISO/MIMO 可选
设计目标训练效率推理效率
核心创新SSD 对偶性更丰富的动力学

Mamba-3 将 SSD 层替换为更表达力的复数值指数-梯形 SSM,同时保持与现有 SSD 硬件算法的兼容性。


参考资料

相关链接


本文档遵循 Mamba-3 官方论文与作者博客的技术细节,日期:2026-05-03

Footnotes

  1. Aakash Lahoti et al., “Mamba-3: Improved Sequence Modeling using State Space Principles”, arXiv:2603.15569, 2026. https://arxiv.org/abs/2603.15569

  2. Cartesia AI Blog, “Mamba-3: An Inference-First State Space Model”, 2026. https://blog.cartesia.ai/p/mamba-3/

  3. Tri Dao, “Mamba-3 Part 2 - Methodological Deep Dive”, 2026. https://tridao.me/blog/2026/mamba3-part2/