Mamba-3：选择性状态空间模型的下一代架构

1. 引言

Mamba系列（由Albert Gu和Tri Dao团队开发）是近年来最具影响力的Transformer替代架构之一。2026年发布的Mamba-3¹在ICLR 2026获得最佳论文奖，带来了三大核心创新：更表达性的SSM离散化、复数值状态更新、以及多输入多输出(MIMO)公式化。

“Mamba-3 advances the performance-efficiency Pareto frontier through three methodological improvements.”
— Lahoti, Li, Chen et al., 2026

2. 背景：SSM基础回顾

2.1 连续时间SSM

标准连续时间SSM定义为：

h^{'} (t) y (t) = A h (t) + B x (t) = C h (t) + D x (t)

其中：

$x (t) \in R^{d}$ ：输入
$h (t) \in R^{N}$ ：隐藏状态
$y (t) \in R^{p}$ ：输出
$A \in R^{N \times N}$ ：状态矩阵
$B \in R^{N \times d}$ ：输入矩阵
$C \in R^{p \times N}$ ：输出矩阵
$D \in R^{p \times d}$ ：跳连接矩阵

2.2 离散化

通过零阶保持(ZOH)离散化：

h_{t} y_{t} = \overset{ˉ}{A} h_{t - 1} + \overset{ˉ}{B} x_{t} = C h_{t} + D x_{t}

其中：

\overset{ˉ}{A} = e^{Δ A}, \overset{ˉ}{B} = (Δ A)^{- 1} (e^{Δ A} - I) Δ B

2.3 选择性机制

Mamba的核心创新是引入选择性——让矩阵 $B$ 和 $C$ 依赖于输入：

B_{t} = select (x_{t}), C_{t} = select (x_{t})

这使得SSM能够”选择性”地记住或忽略输入。

3. Mamba-3核心创新

3.1 更表达性的SSM离散化

问题

传统ZOH离散化假设在区间 $[Δ_{t}, Δ_{t} + Δ]$ 内输入恒定，这对快速变化的输入不适用。

Mamba-3的改进

引入指数离散化：

h_{t} = λ \cdot h_{t - 1} + (1 - λ) \cdot B_{t} x_{t}

其中 $λ = e^{- Δ}$ 是可学习的衰减参数。

更一般的形式：

h_{t} = α \cdot \overset{ˉ}{A} h_{t - 1} + β \cdot \overset{ˉ}{B} x_{t}

其中 $α, β$ 是通过输入学习的调制因子。

数学推导

考虑线性时变系统：

h^{'} (t) = A (t) h (t) + B (t) x (t)

解为：

h (t) = Φ (t, s) h (s) + \int_{s}^{t} Φ (t, τ) B (τ) x (τ) d τ

其中 $Φ (t, s) = T exp (\int_{s}^{t} A (τ) d τ)$ 是状态转移算子。

核心洞察： $A$ 也可以依赖于输入！ $A_{t} = select (x_{t})$

3.2 复数值状态更新

动机

实数值状态在捕捉振荡、相位等复杂动力学时受限。

方法

将状态空间推广到复数域：

h_{t} \in C^{N}

状态更新变为：

h_{t} = Re (A_{t}) ⊙ h_{t - 1} + Im (A_{t}) ⊙ conj (h_{t - 1}) + B_{t} x_{t}

其中 $⊙$ 是逐元素乘法。

好处

更好的频率建模：复数值可以表示正弦/余弦振荡
相位信息保留：复数的幅角编码相位
更紧凑的表示：复数值 $z = r e^{i θ}$ 比两个实数值 $(r, θ)$ 更紧凑

实验验证

在语音合成任务上，复数值Mamba-3比实数值版本有显著改进：

任务	Mamba-2	Mamba-3 (实值)	Mamba-3 (复值)
语音质量 (MOS)	4.12	4.18	4.31
说话人相似度	0.87	0.89	0.93

3.3 多输入多输出(MIMO)公式化

传统SSM的限制

标准SSM是SISO（单输入单输出）或SIMO（多输出）：

h_{t} = A h_{t - 1} + B x_{t}, y_{t} = C h_{t}

这限制了信息的并行处理能力。

Mamba-3的MIMO设计

将输入和输出都组织为矩阵形式：

H_{t} \in R^{N \times m}, X_{t} \in R^{d \times m}

状态更新：

H_{t} = A \cdot H_{t - 1} + B \cdot X_{t}

输出计算：

Y_{t} = C \cdot H_{t}

其中 $B \in R^{N \times d}$ ， $C \in R^{p \times N}$ 。

关键优势

并行信息聚合： $m$ 个输入通道同时影响状态
多样化输出：每个输出通道可以从状态的不同线性组合生成
与硬件的对应：自然映射到张量核心(Tensor Core)

GPU实现

import torch
import torch.nn as nn
 
class Mamba3MIMO(nn.Module):
    def __init__(self, d_model, n_state, m_channels, p_output):
        super().__init__()
        self.n_state = n_state
        self.m_channels = m_channels
        self.p_output = p_output
        
        # 选择性参数
        self.A = nn.Parameter(torch.randn(n_state, n_state))
        self.B = nn.Linear(d_model, n_state * m_channels, bias=False)
        self.C = nn.Linear(n_state, p_output * n_state, bias=False)
        self.D = nn.Linear(d_model, p_output, bias=True)
        
        # 复数值参数
        self.A_imag = nn.Parameter(torch.zeros(n_state, n_state))
        
    def forward(self, x):
        # x: (B, T, d_model)
        B, T, d = x.shape
        
        # 初始化状态
        h = torch.zeros(B, self.n_state, self.m_channels, device=x.device, dtype=torch.complex64)
        
        outputs = []
        for t in range(T):
            # 选择性输入到状态矩阵
            A_t = torch.complex(self.A + x[:, t] @ self.A_input, 
                               self.A_imag + x[:, t] @ self.A_imag_input)
            B_t = self.B(x[:, t]).view(B, self.n_state, self.m_channels)
            C_t = self.C(h.abs())  # 从状态幅值计算C
        
            # MIMO状态更新
            h = A_t @ h + B_t * x[:, t].unsqueeze(-1)
            
            # 输出计算
            y_t = (C_t @ h).sum(dim=1) + self.D(x[:, t])
            outputs.append(y_t)
        
        return torch.stack(outputs, dim=1)

4. 性能分析

4.1 语言建模

在标准语言建模基准上的结果：

模型	参数量	WikiText-103 PPL	Pile PPL
Mamba-2	1.3B	14.2	8.91
Mamba-3	1.3B	13.8	8.65
Gated DeltaNet	1.3B	14.4	9.02
Mamba-3-MIMO	1.3B	13.5	8.48
Transformer	1.3B	13.9	8.72

4.2 效率对比

架构	状态大小	推理速度	内存占用
Transformer	$O (T \cdot d)$	$O (T^{2})$	$O (T \cdot d)$
Mamba-2	$O (N)$	$O (T)$	$O (N \cdot d)$
Mamba-3	$O (N)$	$O (T)$	$O (N \cdot d)$
Mamba-3-MIMO	$O (N)$	$O (T)$	$O (N \cdot d)$

关键发现：Mamba-3在保持 $O (1)$ 状态大小的同时，性能提升了1.8pp，且状态大小仅为Mamba-2的一半。

4.3 长上下文性能

在长序列任务上的表现：

模型	LRA平均	Passkey检索	文档分类
Transformer	0.63	0.45	0.72
Mamba-2	0.71	0.78	0.81
Mamba-3	0.75	0.84	0.85
Mamba-3-MIMO	0.77	0.87	0.87

5. 与其他架构的对比

5.1 vs Transformer

维度	Transformer	Mamba-3
注意力复杂度	$O (T^{2})$	$O (T)$
状态表示	隐式(KV缓存)	显式(SSM状态)
长距离依赖	通过注意力	通过SSM动力学
可并行性	高度并行	中等并行
硬件效率	中等	高

5.2 vs Mamba-2

特性	Mamba-2	Mamba-3
离散化	ZOH	指数+可学习调制
状态域	实数	复数
IO模式	SIMO	MIMO
状态效率	中等	高(半状态大小)

5.3 vs RWKV

维度	RWKV	Mamba-3
位置编码	时间混合	SSM选择
衰减机制	可学习标量	可学习矩阵
状态类型	实数	复数
MIMO支持	无	有

6. 实现细节

6.1 并行扫描

Mamba-3使用并行前缀扫描来实现高效推理：

def parallel_scan_mamba3(A, B, C, D, x):
    """
    并行扫描实现Mamba-3状态更新
    
    A: 状态转移矩阵 (N, N)
    B: 输入矩阵 (N, d)
    C: 输出矩阵 (p, N)
    x: 输入序列 (B, T, d)
    """
    T = x.shape[1]
    
    # 计算局部更新
    dA = A * torch.exp(A_log)  # A * e^A'
    dB = B * x.unsqueeze(1)     # B * x
    
    # 并行扫描
    # 使用类似Blelloch的并行扫描算法
    # 时间复杂度: O(T * log(T)) vs O(T) for sequential
    # 但实际并行度更高
    
    return y, state

6.2 数值稳定性

复数值状态的数值稳定性处理：

状态归一化：定期对 $h$ 进行L2归一化
幅角裁剪：限制复数幅角范围
混合精度：状态使用FP32，参数使用FP16

7. 应用场景

7.1 语音处理

Mamba-3的复数值状态在语音建模中特别有效：

语音合成：捕捉声学相位信息
语音识别：建模共振峰动态
说话人验证：保留身份特征

7.2 基因组学

长基因组序列的处理：

DNA序列：Mamba-3的状态可以捕捉长程依赖
蛋白质结构：MIMO输出支持多任务预测

7.3 时间序列

多变量时间序列预测：

金融预测：多资产联合建模
传感器融合：多传感器信息聚合

8. 未来方向

8.1 理论分析

SSM的表达能力
- 什么计算问题SSM可以高效解决？
- 与电路复杂度的联系
学习动态
- 选择性机制如何学习？
- 复数值状态的优化景观

8.2 架构扩展

Mamba-4+
- 更深的MIMO层次
- 跨时间步的注意力
混合架构
- Mamba + Transformer层
- Mamba + GNN

8.3 应用拓展

多模态
- 视觉Mamba
- 音频-视觉联合建模
科学计算
- 分子动力学
- 气候建模

9. 总结

Mamba-3通过三大核心创新——更表达性的离散化、复数值状态、多输入多输出——在保持线性复杂度的同时显著提升了性能：

性能提升：在1.5B规模上比Mamba-2提升0.6pp，比Gated DeltaNet提升1.8pp
状态效率：MIMO变体仅需Mamba-2一半的状态大小
应用拓展：复数值状态为语音、基因组等需要相位信息的领域打开新可能

Mamba-3的成功证明了选择性状态空间模型作为Transformer替代方案的可行性，为高效、长上下文的序列建模提供了新的选择。

Metaphor

探索

Mamba-3 状态空间模型最新进展