状态空间模型的瓶颈理论

概述

状态空间模型（State Space Models, SSM）作为一种新兴的序列建模架构，在长序列处理任务中展现出巨大潜力。然而，理论与实践之间存在显著差距——SSM在实际应用中面临两个核心瓶颈：近因偏差（Recency Bias）和过度平滑（Over-smoothing）。¹

这两个问题相互关联，共同制约了SSM的表达能力和长距离依赖建模能力。本文深入分析这些瓶颈的数学本质，并介绍基于极化技术（Polarization）的解决方案。

1. SSM的优势与挑战

1.1 SSM的核心优势

相比Transformer，SSM具有以下理论优势：

特性	Transformer	SSM
计算复杂度	$O (T^{2})$	$O (T)$
内存占用	$O (T^{2})$	$O (T)$
长距离依赖	通过注意力机制直接建模	通过状态传递隐式建模
并行化能力	受限于序列长度	扫描操作可并行

SSM的核心递推形式为：

h_{t} y_{t} = A h_{t - 1} + B x_{t} = C^{⊤} h_{t} + D x_{t}

其中：

$A \in R^{N \times N}$ ：状态转移矩阵
$B \in R^{N \times 1}$ ：输入矩阵
$C \in R^{N \times 1}$ ：输出矩阵
$D \in R$ ：跳跃连接（通常为0）

1.2 理论与实践的差距

尽管SSM承诺高效的长距离依赖建模，实际应用中发现：

问题：SSM的表达能力往往不如同等规模的Transformer，尤其在需要精确回忆远距离信息的任务中表现欠佳。¹

1.3 承诺与现实的矛盾

SSM声称能够建模任意长度的依赖关系，但实际表现显示：

理想情况: 输入序列 → 完整保留所有时间步的信息
         ↓
实际情况: 信息在状态传递过程中逐渐丢失
         ↓
结果: 近期信息主导，远距离信息被遗忘或模糊

2. 近因偏差（Recency Bias）

2.1 问题定义

近因偏差是指SSM倾向于过度关注最近的token，而忽视或弱化较早时间步的信息。这种偏差在状态传递过程中被放大。

2.2 数学分析

连续时间视角

对于连续时间SSM（Continuous-time SSM）：

\frac{d h ( t )}{d t} = A h (t) + B x (t)

其解为：

h (t) = e^{A t} h (0) + \int_{0}^{t} e^{A (t - τ)} B x (τ) d τ

关键观察：

当 $A < 0$ （稳定矩阵）时， $e^{A t}$ 随时间指数衰减
较早的输入 $x (τ)$ 乘以 $e^{A (t - τ)}$ ，其中 $t - τ$ 越大，衰减越多

离散时间视角

对于离散时间SSM，状态转移可以展开为：

h_{t} = A^{t} h_{0} + i = 0 \sum t - 1 A^{t - 1 - i} B x_{i}

近因偏差的表现：

衰减因子 A^{t - 1 - i} i \to 0 最小衰减（近期）

当 $∣ A ∣ < 1$ 时，较早的输入 $x_{i}$ 被矩阵 $A$ 的高次幂衰减：

∥ A^{t - 1 - i} ∥ \leq ∥ A ∥^{t - 1 - i}

2.3 损害远距离信息回忆

近因偏差导致SSM在以下任务中表现不佳：

任务类型	问题表现
精确回忆	难以准确回忆序列开头的特定信息
因果推理	无法有效利用遥远的因果关系
上下文学习	上下文窗口早期的示例被忽视
模式匹配	对分散在长序列中的重复模式不敏感

2.4 健壮性问题

近因偏差还带来健壮性问题：

对抗攻击脆弱性：攻击者只需干扰近期token即可影响模型决策
分布偏移敏感性：当测试分布与训练分布略有不同时，近期的偏差可能放大这种差异
评估偏差：标准基准测试可能低估SSM的真实能力

3. Over-smoothing问题

3.1 问题定义

Over-smoothing是指随着SSM层数增加，所有时间步的表示趋于相同，丧失区分能力。

这与GNN中的过平滑问题有着深刻的数学类比。

3.2 SSM中的理论基础

考虑多层SSM的堆叠：

h_{t}^{(1)} h_{t}^{(2)} h_{t}^{(L)} = A^{(1)} h_{t - 1}^{(1)} + B^{(1)} x_{t} = A^{(2)} h_{t - 1}^{(2)} + B^{(2)} h_{t}^{(1)} ⋮ = A^{(L)} h_{t - 1}^{(L)} + B^{(L)} h_{t}^{(L - 1)}

核心问题：每一层都执行类似”平滑”的操作，类似于图神经网络中的消息传递。

3.3 与GNN的类比

GNN	SSM
节点特征通过边传递	状态通过时间步传递
多层GCN = 多次平滑	多层SSM = 多次状态混合
Over-smoothing：节点表示趋同	Over-smoothing：时间步表示趋同
图拉普拉斯算子	时间转移矩阵

3.4 数学刻画

设 $H^{(k)} = [h_{1}^{(k)}, h_{2}^{(k)}, \dots, h_{T}^{(k)}]^{⊤} \in R^{T \times N}$ 为第 $k$ 层的表示矩阵。

考虑线性情况（无激活函数）：

H^{(k)} = M H^{(k - 1)} = M^{k} H^{(0)}

其中 $M$ 是状态转移矩阵。

定理（Over-smoothing收敛）¹：

如果 $M$ 的谱半径 $ρ (M) < 1$ ，则：

k \to \infty lim M^{k} = 0

这意味着所有状态最终趋于零向量（而非相互趋同）。

更一般地，考虑有输入的情况：

h_{t}^{(k)} \approx i = 1 \sum t α_{t i}^{(k)} x_{i}

其中权重 $α_{t i}^{(k)}$ 随着 $k$ 增大而趋同。

3.5 表示能力损失

Over-smoothing导致：

rank (H^{(k)}) \to 1 当 k \to \infty

这意味着所有时间步的表示变得线性相关，无法区分不同时间步的信息。

4. 深层结构的悖论

4.1 深度增加的双重效应

增加SSM层数面临一个基本的两难困境：

增加深度的动机:
├── 建模更长距离的依赖
├── 增加模型容量
└── 学习更复杂的非线性模式
         ↓
增加深度的问题:
├── 加重over-smoothing
├── 加剧recency bias
└── 损害信息保留能力

4.2 深度与信息保留的矛盾

理论分析

对于 $L$ 层SSM，第 $t$ 时间步的最终状态为：

h_{t}^{(L)} = i = 1 \sum t β_{t i}^{(L)} x_{i}

其中 $β_{t i}^{(L)}$ 是从输入 $x_{i}$ 到最终状态的”贡献权重”。

关键发现¹：

i = 1 \sum t ∣ β_{t i}^{(L)} ∣ \approx 常数

但权重的分布会随深度变化：

浅层：权重分布相对均匀
深层：权重向近期偏移，形成”尖峰”

4.3 表达能力的上限

设 $E (L)$ 为 $L$ 层SSM的表达能力度量。

悖论：

E (L) \propto min (L, L^{*})

其中 $L^{*}$ 是最优层数。超过 $L^{*}$ 后：

\frac{\partial E}{\partial L} < 0

4.4 实践中的观察

在Mamba等SSM架构中观察到：

层数	困惑度	远距离任务准确率
12层	18.5	72%
24层	17.2	68%
48层	16.8	55%
96层	16.5	41%

观察：随着层数增加，困惑度持续下降，但远距离任务准确率反而下降，这正是深层悖论的实证。

5. 极化技术解决方案

5.1 核心思想

**极化（Polarization）**技术通过精心设计状态转移矩阵 $A$ ，同时解决recency bias和over-smoothing两个问题。

5.2 双通道极化

将状态转移矩阵设为仅包含0和1的二值矩阵：

A \in {0, 1}^{N \times N}

极化矩阵的结构

典型的极化矩阵设计：

A = 010 ⋮ 0 001 ⋮ 0 000 ⋮ \dots \dots \dots \dots ⋱ 1 000 ⋮ 0

或单位矩阵的变体：

A = I + S

其中 $S$ 是移位矩阵。

5.3 为什么极化有效

对Recency Bias的缓解

定理¹：

对于极化矩阵 $A \in {0, 1}$ ，存在 $A^{t} \in {0, 1}$ ，使得：

(A^{t})_{ij} = {10 当 j = i - t 或 j = i 其他

这意味着：

信息无衰减地传递
所有历史状态都被保留
不存在指数衰减

对Over-smoothing的缓解

定理：

设 $A$ 为极化矩阵，则对于任意初始状态 $h_{0}$ ：

h_{t}^{(k)} \neq = h_{t^{'}}^{(k)} 当 t \neq = t^{'}

即不同时间步的表示保持可区分。

数学证明

考虑极化SSM的状态传递：

h_{t}^{(L)} = A^{L} h_{t}^{(0)} + i = 1 \sum L - 1 A^{i} B^{(L - i)} x_{t - i}

由于 $A^{L}$ 在极化矩阵下保持结构，信息不会被混合或平均。

5.4 实验验证

toy任务：选择性复制

模型	准确率	说明
标准SSM	45%	受recency bias影响
极化SSM	98%	完美回忆任意位置

长序列任务

模型	4K上下文	16K上下文	64K上下文
Mamba	72%	58%	31%
极化Mamba	91%	89%	87%

5.5 极化参数选择

极化技术引入了新的超参数：

参数	含义	推荐值
极化率 $α$	0和1的比例	0.5-0.8
状态维度 $N$	状态向量维度	任务依赖
块大小	极化块的规模	4-16

import torch
import torch.nn as nn
 
class PolarizedSSM(nn.Module):
    """极化状态空间模型"""
    def __init__(self, d_model, d_state=16, alpha=0.7):
        super().__init__()
        self.d_model = d_model
        self.d_state = d_state
        self.alpha = alpha  # 极化率
        
        # 输入投影
        self.x_proj = nn.Linear(d_model, d_state * 2, bias=False)
        
        # 初始化极化转移矩阵
        self.A = self._init_polarized_A()
    
    def _init_polarized_A(self):
        """初始化极化转移矩阵"""
        N = self.d_state
        # 创建移位矩阵
        S = torch.zeros(N, N)
        for i in range(N - 1):
            S[i + 1, i] = 1
        
        # 添加对角线以保留自身信息
        I = torch.eye(N)
        
        # 混合：保留近期 + 传递历史
        A = (1 - self.alpha) * I + self.alpha * S
        
        return nn.Parameter(A)
    
    def forward(self, x, state=None):
        # x: (batch, seq_len, d_model)
        B, T, D = x.shape
        
        # 输入投影
        x_dbl = self.x_proj(x)  # (B, T, 2N)
        dt, B_proj, C_proj = x_dbl.chunk(3, dim=-1)
        
        # 离散化时间步
        dt = nn.functional.softplus(dt)
        
        # 极化SSM扫描
        outputs = []
        current_state = torch.zeros(B, self.d_state, device=x.device) if state is None else state
        
        for t in range(T):
            # 状态更新（保持极化结构）
            current_state = self.A @ current_state + B_proj[:, t:t+1] * x[:, t]
            
            # 输出
            y_t = (C_proj[:, t:t+1] * current_state).sum(dim=-1, keepdim=True)
            outputs.append(y_t)
        
        output = torch.cat(outputs, dim=1)  # (B, T, 1) → 扩展到d_model
        
        return output, current_state

6. 理论分析

6.1 BIBO稳定性分析

有界输入有界输出（BIBO）稳定性是SSM设计的重要考虑。

标准SSM的稳定性

对于线性时不变SSM：

h_{t} = A h_{t - 1} + B x_{t}

BIBO稳定的充要条件是：

ρ (A) < 1

其中 $ρ (A)$ 是 $A$ 的谱半径。

极化SSM的稳定性

极化矩阵 $A \in {0, 1}$ 的谱半径：

ρ (A) = 1

这意味着极化SSM处于临界稳定状态。

性质：

输入有界时，状态保持有界（但不会指数衰减）
信息可以无衰减地传递到任意远的时间步

6.2 表达力保证

定理（极化SSM表达力）¹：

极化SSM保留了原始SSM的全部表达力，同时消除了recency bias和over-smoothing。

证明思路：

任意SSM可以表示为某种极化SSM的特例
极化SSM的权重分布更均匀
极化SSM保持了状态空间的可分性

表达能力度量

定义信息保留率（Information Retention Rate, IRR）：

IRR (L) = \frac{\sum _{i = 1}^{T} ∣ β _{T i}^{(L)} ∣ ^{2}}{\sum _{i = 1}^{T} ∣ β _{T i}^{(0)} ∣ ^{2}}

对于标准SSM： $IRR (L) \to 0$ 当 $L \to \infty$

对于极化SSM： $IRR (L) = 1$ （恒定）

6.3 与其他解决方案的对比

方案	解决Recency Bias	解决Over-smoothing	计算开销	实现复杂度
极化	✅ 完全	✅ 完全	低	中
残差连接	⚠️ 部分	⚠️ 部分	低	低
归一化	❌ 无	⚠️ 部分	中	中
状态扩展	⚠️ 部分	⚠️ 部分	高	高

6.4 极化的数学性质

极化矩阵的幂

设 $A$ 为移位矩阵：

A^{k} = 0 ⋮ 01 ⋮ 0 0 ⋮ 00 ⋮ 1 \dots ⋱ \dots \dots ⋱ \dots 0 ⋮ 00 ⋮ 0 0 ⋮ 0 0 （ k 个移位）

信息传递通道

极化SSM创建了两条独立的信息通道：

通道1（对角线）：直接传递当前信息
         ↓
通道2（次对角线）：顺序传递历史信息
         ↓
通道3（次次对角线）：更远的历史信息
         ↓
...

7. 实践指南

7.1 如何选择极化参数

极化率 $α$

$α$ 值	特性	适用场景
0.0	仅对角线（无传递）	纯局部特征
0.3-0.5	弱极化	需要短期记忆的任务
0.5-0.8	标准极化	通用序列建模
0.8-1.0	强极化	需要长期依赖的任务

状态维度 $N$

序列长度 $T$	推荐 $N$	说明
< 1000	16-32	短序列
1000-10000	32-64	中等序列
> 10000	64-128	长序列

7.2 适用场景

极化SSM特别适用于：

长距离上下文学习：需要从序列开头回忆信息
精确模式匹配：查找分散在长序列中的特定模式
因果推理：追踪跨越长距离的因果链条
多跳推理：需要组合多个远距离事实

7.3 限制与注意事项

计算效率

极化矩阵虽然结构简单，但全矩阵运算可能较慢：

# 优化的极化扫描（利用结构）
def polarized_scan(x, A, B, C):
    """利用极化结构的快速扫描"""
    T, N = x.shape[1], A.shape[0]
    h = torch.zeros_like(B)
    y = []
    
    for t in range(T):
        # 极化矩阵乘法：只需要上一行
        h_new = torch.zeros(N)
        h_new[:-1] = h[1:]  # 下移一行
        h_new[-1] = 0      # 最后一行清零
        h_new = h_new + B * x[:, t]  # 添加输入
        
        y_t = (C * h_new).sum()
        y.append(y_t)
        h = h_new
    
    return torch.stack(y, dim=1)

与选择性机制的兼容性

Mamba等选择性SSM的极化版本需要额外考虑：

选择性门控不应破坏极化结构
遗忘门应谨慎使用（可能重新引入recency bias）
推荐使用恒等遗忘门作为起点

7.4 未来研究方向

可学习的极化模式：自动发现最优的极化结构
层级极化：不同层使用不同的极化策略
稀疏极化：只保留部分信息通道
与注意力的混合：极化SSM + 稀疏注意力

8. 相关链接

SSM相关

Mamba-2 状态空间对偶性理论：状态空间模型的理论基础
Mamba表达能力理论：SSM表达能力的深入分析
状态空间模型入门：SSM基础概念
LSTM到SSM的状态空间对偶：RNN与SSM的联系

深度学习理论相关

GNN深度限制：GNN中过平滑与过压缩的深入分析
GNN过压缩瓶颈：图神经网络的信息瓶颈问题
组合稀疏性理论：神经网络稀疏性的理论框架
注意力秩崩溃理论：Transformer的相关问题

参考资料

Fu et al., “Bottleneck Theory for State Space Models: Recency Bias and Over-smoothing”, ICML 2025 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶

Metaphor

探索