概述

状态空间对偶性(State Space Duality, SSD)框架 是 Mamba-2 的核心理论基础,它揭示了状态空间模型(SSM)与结构化注意力之间的深层数学联系。这一框架将 SSM 视为**半可分矩阵(Semi-separable Matrix)的矩阵变换,同时将线性注意力视为结构化掩码注意力(Structured Masked Attention, SMA)**的张量收缩运算,而两者的交集正是 SSD 模型。

核心洞见:SSD 模型可以通过两种完全独立的方式推导——一种从 SSM 视角出发,另一种从注意力视角出发——最终证明它们在数学上是等价的。1

SSD 框架图景

┌─────────────────────────────────────────────────────────────┐
│                    SSD Framework                            │
│                                                             │
│        ┌──────────────────┐    ┌──────────────────┐        │
│        │  Structured SSMs │    │ Structured       │        │
│        │  (半可分矩阵)     │    │ Attention        │        │
│        │                  │    │ (结构化掩码注意力) │        │
│        └────────┬─────────┘    └────────┬─────────┘        │
│                 │                       │                  │
│                 └───────────┬───────────┘                  │
│                             │                              │
│                      ┌──────┴──────┐                       │
│                      │  SSD Model  │                       │
│                      │  (Mamba-2)  │                       │
│                      └─────────────┘                       │
└─────────────────────────────────────────────────────────────┘

1. SSM 视角:半可分矩阵变换

1.1 序列变换的矩阵形式

许多序列模型可以表示为矩阵序列变换(或称矩阵混合器):

其中 是一个矩阵, 是输入序列, 是输出序列。

自注意力的例子是 ,而 SSM 同样可以写成这种形式。

1.2 选择性 SSM 的定义

Mamba-2 中的选择性状态空间模型定义为1

其中 是标量-单位阵结构(scalar-identity structure)的矩阵。

1.3 SSM 的矩阵展开

将 SSM 递推展开为矩阵形式,得到:

其中矩阵 的元素定义为:

(下三角)。

展开后的矩阵形式如下:

1.4 半可分矩阵的定义与性质

定义:上述矩阵称为**(三角)半可分矩阵(Semi-separable Matrix)**。1

半可分矩阵具有结构化秩性质:对角线及其下方的任意子矩阵都是低秩的。

┌─────────────────────────────┐
│  ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★  │  ← 对角线及以下区域
│    ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★  │    所有子矩阵
│      ★ ★ ★ ★ ★ ★ ★ ★ ★ ★  │    都是低秩的
│        ★ ★ ★ ★ ★ ★ ★ ★ ★  │
│          ★ ★ ★ ★ ★ ★ ★ ★  │
│            ★ ★ ★ ★ ★ ★ ★  │
│              ★ ★ ★ ★ ★ ★  │
│                ★ ★ ★ ★ ★  │
│                  ★ ★ ★ ★  │
│                    ★ ★ ★  │
│                      ★ ★  │
│                        ★  │
└─────────────────────────────┘

1.5 从 SSM 到注意力的对偶性推导

对于标量 的情况(即 SSD 模型),由于 是标量,可以提取出来:

这直接导出 SSD 的注意力形式:

其中 表示逐元素乘法, 是因果掩码矩阵。

2. 注意力视角:张量收缩与结构化掩码

2.1 核注意力定义

将注意力定义为函数:

标准形式为:

2.2 线性注意力的张量收缩证明

因果线性注意力的二次形式为:

其中 是因果掩码矩阵:

使用**爱因斯坦求和约定(einsum)**将上述运算写成张量收缩形式:

简化为单次四路收缩:

2.3 线性形式的推导

选择不同的收缩顺序可以避免二次复杂度。重新排序为

关键观察:第二行的 恰好是矩阵乘法,可以通过**累积求和(cumsum)**线性时间计算。

2.4 结构化掩码注意力(SMA)

定义:结构化掩码注意力(SMA)定义为四路张量收缩,其中注意力掩码 任意结构化矩阵1

这推广了原始的线性注意力框架。常见的结构化矩阵包括:

  • 因果掩码 → 线性注意力(Katharopoulos et al.)
  • 指数衰减掩码 → Retentive Network
  • 半可分矩阵 → SSD 模型(Mamba-2)

3. 两种视角的等价性证明

3.1 1-半可分矩阵

SSD 模型对应的掩码矩阵 1-半可分矩阵(1-SS Matrix)

因此,SSD 模型本质上是 1-半可分掩码注意力1-SS SMA

3.2 从 SMA 到 SSM 的等价性

给定 1-SS 矩阵 ,矩阵-向量乘法 可以通过标量递推线性时间计算:

这恰好对应原始的 SSM 递推形式!

3.3 对偶性的本质

对偶表示SSM 视角SMA 视角
核心表示半可分矩阵变换四路张量收缩
广义化状态空间模型线性注意力
SSD 实例化标量 SSM( 为标量)1-SS 掩码注意力
线性-二次对偶结构化矩阵乘法算法张量收缩约简顺序

核心洞见:虽然普遍认为引入注意力掩码 后无法重排序矩阵乘法,但张量收缩约简顺序的灵活性使得这仍然可行。矩阵乘法的结合律是张量收缩约简顺序的特殊情况。1

4. 与 Transformer 的理论联系

4.1 SSM 作为通用序列变换

Transformer 的核心是自注意力机制:

而 SSM 通过半可分矩阵提供了一种不同的序列混合方式。SSD 框架证明了:

Transformer 是 SSM 的一种特例2

具体来说,当 SSM 的状态维度 且参数结构特殊化时,可以逼近 Transformer 的表达能力。

4.2 线性注意力与 SSM 的联系

SSD 框架揭示了以下等价链条:

Transformer (softmax 注意力)
        ↓
Kernel Attention (特征映射)
        ↓
Linear Attention (累积求和)
        ↓
SSD (半可分掩码注意力)
        ↓
SSM (状态空间递推)

4.3 混合算法的启示

SSD 框架启发了混合算法的设计:通过半可分矩阵的块分解,可以结合线性形式和二次形式的优点,在计算效率和表达能力之间取得平衡。1

5. 关键数学公式汇总

5.1 选择性 SSM

5.2 半可分矩阵元素

5.3 SSD 的注意力形式

5.4 结构化掩码注意力的张量收缩

5.5 1-半可分矩阵

6. 算法意义

6.1 两种计算方式

计算方式算法复杂度
线性形式结构化矩阵乘法(利用半可分结构)
二次形式标准矩阵乘法(展开掩码矩阵)

6.2 系统优化

SSD 框架使得 Mamba-2 能够借鉴 Transformer 的系统优化技术2

  • 张量并行(Tensor Parallelism)
  • 序列并行(Sequence Parallelism)
  • 可变序列长度支持

6.3 状态维度的影响

模型状态维度 表达能力计算效率
Mamba-1
Mamba-2 (SSD) 标量
Transformer最高

7. 未来研究方向

基于 SSD 框架的理论基础,以下是潜在的研究方向:

  1. 新的序列模型:寻找具有特定性质的结构化矩阵类
  2. 双向扩展:自然地将 Mamba 扩展为双向模型
  3. 知识蒸馏:从 Transformer 蒸馏到 SSM 的理论工具
  4. 可解释性:利用矩阵形式分析 SSM 的内部表示
  5. 新型结构:探索 Toeplitz 或 Fourier 结构化注意力

参考资料

相关链接

Footnotes

  1. Tri Dao, “State Space Duality (Mamba-2) Part II - The Theory”, 2024. https://tridao.me/blog/2024/mamba2-part2-theory/ 2 3 4 5 6

  2. Tri Dao & Albert Gu, “Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality”, arXiv:2405.21060, 2024. https://arxiv.org/abs/2405.21060 2