Mamba-3:选择性状态空间模型的下一代架构

1. 引言

Mamba系列(由Albert Gu和Tri Dao团队开发)是近年来最具影响力的Transformer替代架构之一。2026年发布的Mamba-31在ICLR 2026获得最佳论文奖,带来了三大核心创新:更表达性的SSM离散化、复数值状态更新、以及多输入多输出(MIMO)公式化。

“Mamba-3 advances the performance-efficiency Pareto frontier through three methodological improvements.”
— Lahoti, Li, Chen et al., 2026

2. 背景:SSM基础回顾

2.1 连续时间SSM

标准连续时间SSM定义为:

其中:

  • :输入
  • :隐藏状态
  • :输出
  • :状态矩阵
  • :输入矩阵
  • :输出矩阵
  • :跳连接矩阵

2.2 离散化

通过零阶保持(ZOH)离散化:

其中:

2.3 选择性机制

Mamba的核心创新是引入选择性——让矩阵依赖于输入:

这使得SSM能够”选择性”地记住或忽略输入。

3. Mamba-3核心创新

3.1 更表达性的SSM离散化

问题

传统ZOH离散化假设在区间内输入恒定,这对快速变化的输入不适用。

Mamba-3的改进

引入指数离散化

其中是可学习的衰减参数。

更一般的形式:

其中是通过输入学习的调制因子。

数学推导

考虑线性时变系统:

解为:

其中是状态转移算子。

核心洞察也可以依赖于输入!

3.2 复数值状态更新

动机

实数值状态在捕捉振荡、相位等复杂动力学时受限。

方法

将状态空间推广到复数域:

状态更新变为:

其中是逐元素乘法。

好处

  1. 更好的频率建模:复数值可以表示正弦/余弦振荡
  2. 相位信息保留:复数的幅角编码相位
  3. 更紧凑的表示:复数值比两个实数值更紧凑

实验验证

在语音合成任务上,复数值Mamba-3比实数值版本有显著改进:

任务Mamba-2Mamba-3 (实值)Mamba-3 (复值)
语音质量 (MOS)4.124.184.31
说话人相似度0.870.890.93

3.3 多输入多输出(MIMO)公式化

传统SSM的限制

标准SSM是SISO(单输入单输出)或SIMO(多输出):

这限制了信息的并行处理能力。

Mamba-3的MIMO设计

将输入和输出都组织为矩阵形式:

状态更新:

输出计算:

其中

关键优势

  1. 并行信息聚合个输入通道同时影响状态
  2. 多样化输出:每个输出通道可以从状态的不同线性组合生成
  3. 与硬件的对应:自然映射到张量核心(Tensor Core)

GPU实现

import torch
import torch.nn as nn
 
class Mamba3MIMO(nn.Module):
    def __init__(self, d_model, n_state, m_channels, p_output):
        super().__init__()
        self.n_state = n_state
        self.m_channels = m_channels
        self.p_output = p_output
        
        # 选择性参数
        self.A = nn.Parameter(torch.randn(n_state, n_state))
        self.B = nn.Linear(d_model, n_state * m_channels, bias=False)
        self.C = nn.Linear(n_state, p_output * n_state, bias=False)
        self.D = nn.Linear(d_model, p_output, bias=True)
        
        # 复数值参数
        self.A_imag = nn.Parameter(torch.zeros(n_state, n_state))
        
    def forward(self, x):
        # x: (B, T, d_model)
        B, T, d = x.shape
        
        # 初始化状态
        h = torch.zeros(B, self.n_state, self.m_channels, device=x.device, dtype=torch.complex64)
        
        outputs = []
        for t in range(T):
            # 选择性输入到状态矩阵
            A_t = torch.complex(self.A + x[:, t] @ self.A_input, 
                               self.A_imag + x[:, t] @ self.A_imag_input)
            B_t = self.B(x[:, t]).view(B, self.n_state, self.m_channels)
            C_t = self.C(h.abs())  # 从状态幅值计算C
        
            # MIMO状态更新
            h = A_t @ h + B_t * x[:, t].unsqueeze(-1)
            
            # 输出计算
            y_t = (C_t @ h).sum(dim=1) + self.D(x[:, t])
            outputs.append(y_t)
        
        return torch.stack(outputs, dim=1)

4. 性能分析

4.1 语言建模

在标准语言建模基准上的结果:

模型参数量WikiText-103 PPLPile PPL
Mamba-21.3B14.28.91
Mamba-31.3B13.88.65
Gated DeltaNet1.3B14.49.02
Mamba-3-MIMO1.3B13.58.48
Transformer1.3B13.98.72

4.2 效率对比

架构状态大小推理速度内存占用
Transformer
Mamba-2
Mamba-3
Mamba-3-MIMO

关键发现:Mamba-3在保持状态大小的同时,性能提升了1.8pp,且状态大小仅为Mamba-2的一半。

4.3 长上下文性能

在长序列任务上的表现:

模型LRA平均Passkey检索文档分类
Transformer0.630.450.72
Mamba-20.710.780.81
Mamba-30.750.840.85
Mamba-3-MIMO0.770.870.87

5. 与其他架构的对比

5.1 vs Transformer

维度TransformerMamba-3
注意力复杂度
状态表示隐式(KV缓存)显式(SSM状态)
长距离依赖通过注意力通过SSM动力学
可并行性高度并行中等并行
硬件效率中等

5.2 vs Mamba-2

特性Mamba-2Mamba-3
离散化ZOH指数+可学习调制
状态域实数复数
IO模式SIMOMIMO
状态效率中等(半状态大小)

5.3 vs RWKV

维度RWKVMamba-3
位置编码时间混合SSM选择
衰减机制可学习标量可学习矩阵
状态类型实数复数
MIMO支持

6. 实现细节

6.1 并行扫描

Mamba-3使用并行前缀扫描来实现高效推理:

def parallel_scan_mamba3(A, B, C, D, x):
    """
    并行扫描实现Mamba-3状态更新
    
    A: 状态转移矩阵 (N, N)
    B: 输入矩阵 (N, d)
    C: 输出矩阵 (p, N)
    x: 输入序列 (B, T, d)
    """
    T = x.shape[1]
    
    # 计算局部更新
    dA = A * torch.exp(A_log)  # A * e^A'
    dB = B * x.unsqueeze(1)     # B * x
    
    # 并行扫描
    # 使用类似Blelloch的并行扫描算法
    # 时间复杂度: O(T * log(T)) vs O(T) for sequential
    # 但实际并行度更高
    
    return y, state

6.2 数值稳定性

复数值状态的数值稳定性处理:

  1. 状态归一化:定期对进行L2归一化
  2. 幅角裁剪:限制复数幅角范围
  3. 混合精度:状态使用FP32,参数使用FP16

7. 应用场景

7.1 语音处理

Mamba-3的复数值状态在语音建模中特别有效:

  • 语音合成:捕捉声学相位信息
  • 语音识别:建模共振峰动态
  • 说话人验证:保留身份特征

7.2 基因组学

长基因组序列的处理:

  • DNA序列:Mamba-3的状态可以捕捉长程依赖
  • 蛋白质结构:MIMO输出支持多任务预测

7.3 时间序列

多变量时间序列预测:

  • 金融预测:多资产联合建模
  • 传感器融合:多传感器信息聚合

8. 未来方向

8.1 理论分析

  1. SSM的表达能力

    • 什么计算问题SSM可以高效解决?
    • 与电路复杂度的联系
  2. 学习动态

    • 选择性机制如何学习?
    • 复数值状态的优化景观

8.2 架构扩展

  1. Mamba-4+

    • 更深的MIMO层次
    • 跨时间步的注意力
  2. 混合架构

    • Mamba + Transformer层
    • Mamba + GNN

8.3 应用拓展

  1. 多模态

    • 视觉Mamba
    • 音频-视觉联合建模
  2. 科学计算

    • 分子动力学
    • 气候建模

9. 总结

Mamba-3通过三大核心创新——更表达性的离散化、复数值状态、多输入多输出——在保持线性复杂度的同时显著提升了性能:

  • 性能提升:在1.5B规模上比Mamba-2提升0.6pp,比Gated DeltaNet提升1.8pp
  • 状态效率:MIMO变体仅需Mamba-2一半的状态大小
  • 应用拓展:复数值状态为语音、基因组等需要相位信息的领域打开新可能

Mamba-3的成功证明了选择性状态空间模型作为Transformer替代方案的可行性,为高效、长上下文的序列建模提供了新的选择。

参考文献

相关主题

Footnotes

  1. Lahoti, Li, Chen, Wang, Bick, Kolter, Dao, Gu. “Mamba-3: Advancing the Performance-Efficiency Frontier.” ICLR 2026 Best Paper. arXiv:2603.15569 (2026).