Mamba-3:选择性状态空间模型的下一代架构
1. 引言
Mamba系列(由Albert Gu和Tri Dao团队开发)是近年来最具影响力的Transformer替代架构之一。2026年发布的Mamba-31在ICLR 2026获得最佳论文奖,带来了三大核心创新:更表达性的SSM离散化、复数值状态更新、以及多输入多输出(MIMO)公式化。
“Mamba-3 advances the performance-efficiency Pareto frontier through three methodological improvements.”
— Lahoti, Li, Chen et al., 2026
2. 背景:SSM基础回顾
2.1 连续时间SSM
标准连续时间SSM定义为:
其中:
- :输入
- :隐藏状态
- :输出
- :状态矩阵
- :输入矩阵
- :输出矩阵
- :跳连接矩阵
2.2 离散化
通过零阶保持(ZOH)离散化:
其中:
2.3 选择性机制
Mamba的核心创新是引入选择性——让矩阵和依赖于输入:
这使得SSM能够”选择性”地记住或忽略输入。
3. Mamba-3核心创新
3.1 更表达性的SSM离散化
问题
传统ZOH离散化假设在区间内输入恒定,这对快速变化的输入不适用。
Mamba-3的改进
引入指数离散化:
其中是可学习的衰减参数。
更一般的形式:
其中是通过输入学习的调制因子。
数学推导
考虑线性时变系统:
解为:
其中是状态转移算子。
核心洞察:也可以依赖于输入!
3.2 复数值状态更新
动机
实数值状态在捕捉振荡、相位等复杂动力学时受限。
方法
将状态空间推广到复数域:
状态更新变为:
其中是逐元素乘法。
好处
- 更好的频率建模:复数值可以表示正弦/余弦振荡
- 相位信息保留:复数的幅角编码相位
- 更紧凑的表示:复数值比两个实数值更紧凑
实验验证
在语音合成任务上,复数值Mamba-3比实数值版本有显著改进:
| 任务 | Mamba-2 | Mamba-3 (实值) | Mamba-3 (复值) |
|---|---|---|---|
| 语音质量 (MOS) | 4.12 | 4.18 | 4.31 |
| 说话人相似度 | 0.87 | 0.89 | 0.93 |
3.3 多输入多输出(MIMO)公式化
传统SSM的限制
标准SSM是SISO(单输入单输出)或SIMO(多输出):
这限制了信息的并行处理能力。
Mamba-3的MIMO设计
将输入和输出都组织为矩阵形式:
状态更新:
输出计算:
其中,。
关键优势
- 并行信息聚合:个输入通道同时影响状态
- 多样化输出:每个输出通道可以从状态的不同线性组合生成
- 与硬件的对应:自然映射到张量核心(Tensor Core)
GPU实现
import torch
import torch.nn as nn
class Mamba3MIMO(nn.Module):
def __init__(self, d_model, n_state, m_channels, p_output):
super().__init__()
self.n_state = n_state
self.m_channels = m_channels
self.p_output = p_output
# 选择性参数
self.A = nn.Parameter(torch.randn(n_state, n_state))
self.B = nn.Linear(d_model, n_state * m_channels, bias=False)
self.C = nn.Linear(n_state, p_output * n_state, bias=False)
self.D = nn.Linear(d_model, p_output, bias=True)
# 复数值参数
self.A_imag = nn.Parameter(torch.zeros(n_state, n_state))
def forward(self, x):
# x: (B, T, d_model)
B, T, d = x.shape
# 初始化状态
h = torch.zeros(B, self.n_state, self.m_channels, device=x.device, dtype=torch.complex64)
outputs = []
for t in range(T):
# 选择性输入到状态矩阵
A_t = torch.complex(self.A + x[:, t] @ self.A_input,
self.A_imag + x[:, t] @ self.A_imag_input)
B_t = self.B(x[:, t]).view(B, self.n_state, self.m_channels)
C_t = self.C(h.abs()) # 从状态幅值计算C
# MIMO状态更新
h = A_t @ h + B_t * x[:, t].unsqueeze(-1)
# 输出计算
y_t = (C_t @ h).sum(dim=1) + self.D(x[:, t])
outputs.append(y_t)
return torch.stack(outputs, dim=1)4. 性能分析
4.1 语言建模
在标准语言建模基准上的结果:
| 模型 | 参数量 | WikiText-103 PPL | Pile PPL |
|---|---|---|---|
| Mamba-2 | 1.3B | 14.2 | 8.91 |
| Mamba-3 | 1.3B | 13.8 | 8.65 |
| Gated DeltaNet | 1.3B | 14.4 | 9.02 |
| Mamba-3-MIMO | 1.3B | 13.5 | 8.48 |
| Transformer | 1.3B | 13.9 | 8.72 |
4.2 效率对比
| 架构 | 状态大小 | 推理速度 | 内存占用 |
|---|---|---|---|
| Transformer | |||
| Mamba-2 | |||
| Mamba-3 | |||
| Mamba-3-MIMO |
关键发现:Mamba-3在保持状态大小的同时,性能提升了1.8pp,且状态大小仅为Mamba-2的一半。
4.3 长上下文性能
在长序列任务上的表现:
| 模型 | LRA平均 | Passkey检索 | 文档分类 |
|---|---|---|---|
| Transformer | 0.63 | 0.45 | 0.72 |
| Mamba-2 | 0.71 | 0.78 | 0.81 |
| Mamba-3 | 0.75 | 0.84 | 0.85 |
| Mamba-3-MIMO | 0.77 | 0.87 | 0.87 |
5. 与其他架构的对比
5.1 vs Transformer
| 维度 | Transformer | Mamba-3 |
|---|---|---|
| 注意力复杂度 | ||
| 状态表示 | 隐式(KV缓存) | 显式(SSM状态) |
| 长距离依赖 | 通过注意力 | 通过SSM动力学 |
| 可并行性 | 高度并行 | 中等并行 |
| 硬件效率 | 中等 | 高 |
5.2 vs Mamba-2
| 特性 | Mamba-2 | Mamba-3 |
|---|---|---|
| 离散化 | ZOH | 指数+可学习调制 |
| 状态域 | 实数 | 复数 |
| IO模式 | SIMO | MIMO |
| 状态效率 | 中等 | 高(半状态大小) |
5.3 vs RWKV
| 维度 | RWKV | Mamba-3 |
|---|---|---|
| 位置编码 | 时间混合 | SSM选择 |
| 衰减机制 | 可学习标量 | 可学习矩阵 |
| 状态类型 | 实数 | 复数 |
| MIMO支持 | 无 | 有 |
6. 实现细节
6.1 并行扫描
Mamba-3使用并行前缀扫描来实现高效推理:
def parallel_scan_mamba3(A, B, C, D, x):
"""
并行扫描实现Mamba-3状态更新
A: 状态转移矩阵 (N, N)
B: 输入矩阵 (N, d)
C: 输出矩阵 (p, N)
x: 输入序列 (B, T, d)
"""
T = x.shape[1]
# 计算局部更新
dA = A * torch.exp(A_log) # A * e^A'
dB = B * x.unsqueeze(1) # B * x
# 并行扫描
# 使用类似Blelloch的并行扫描算法
# 时间复杂度: O(T * log(T)) vs O(T) for sequential
# 但实际并行度更高
return y, state6.2 数值稳定性
复数值状态的数值稳定性处理:
- 状态归一化:定期对进行L2归一化
- 幅角裁剪:限制复数幅角范围
- 混合精度:状态使用FP32,参数使用FP16
7. 应用场景
7.1 语音处理
Mamba-3的复数值状态在语音建模中特别有效:
- 语音合成:捕捉声学相位信息
- 语音识别:建模共振峰动态
- 说话人验证:保留身份特征
7.2 基因组学
长基因组序列的处理:
- DNA序列:Mamba-3的状态可以捕捉长程依赖
- 蛋白质结构:MIMO输出支持多任务预测
7.3 时间序列
多变量时间序列预测:
- 金融预测:多资产联合建模
- 传感器融合:多传感器信息聚合
8. 未来方向
8.1 理论分析
-
SSM的表达能力
- 什么计算问题SSM可以高效解决?
- 与电路复杂度的联系
-
学习动态
- 选择性机制如何学习?
- 复数值状态的优化景观
8.2 架构扩展
-
Mamba-4+
- 更深的MIMO层次
- 跨时间步的注意力
-
混合架构
- Mamba + Transformer层
- Mamba + GNN
8.3 应用拓展
-
多模态
- 视觉Mamba
- 音频-视觉联合建模
-
科学计算
- 分子动力学
- 气候建模
9. 总结
Mamba-3通过三大核心创新——更表达性的离散化、复数值状态、多输入多输出——在保持线性复杂度的同时显著提升了性能:
- 性能提升:在1.5B规模上比Mamba-2提升0.6pp,比Gated DeltaNet提升1.8pp
- 状态效率:MIMO变体仅需Mamba-2一半的状态大小
- 应用拓展:复数值状态为语音、基因组等需要相位信息的领域打开新可能
Mamba-3的成功证明了选择性状态空间模型作为Transformer替代方案的可行性,为高效、长上下文的序列建模提供了新的选择。
参考文献
相关主题
Footnotes
-
Lahoti, Li, Chen, Wang, Bick, Kolter, Dao, Gu. “Mamba-3: Advancing the Performance-Efficiency Frontier.” ICLR 2026 Best Paper. arXiv:2603.15569 (2026). ↩