概述

状态空间模型(State Space Models, SSM)作为一种新兴的序列建模架构,在长序列处理任务中展现出巨大潜力。然而,理论与实践之间存在显著差距——SSM在实际应用中面临两个核心瓶颈:近因偏差(Recency Bias)和过度平滑(Over-smoothing)。1

这两个问题相互关联,共同制约了SSM的表达能力和长距离依赖建模能力。本文深入分析这些瓶颈的数学本质,并介绍基于极化技术(Polarization)的解决方案。


1. SSM的优势与挑战

1.1 SSM的核心优势

相比Transformer,SSM具有以下理论优势:

特性TransformerSSM
计算复杂度
内存占用
长距离依赖通过注意力机制直接建模通过状态传递隐式建模
并行化能力受限于序列长度扫描操作可并行

SSM的核心递推形式为:

其中:

  • :状态转移矩阵
  • :输入矩阵
  • :输出矩阵
  • :跳跃连接(通常为0)

1.2 理论与实践的差距

尽管SSM承诺高效的长距离依赖建模,实际应用中发现:

问题:SSM的表达能力往往不如同等规模的Transformer,尤其在需要精确回忆远距离信息的任务中表现欠佳。1

1.3 承诺与现实的矛盾

SSM声称能够建模任意长度的依赖关系,但实际表现显示:

理想情况: 输入序列 → 完整保留所有时间步的信息
         ↓
实际情况: 信息在状态传递过程中逐渐丢失
         ↓
结果: 近期信息主导,远距离信息被遗忘或模糊

2. 近因偏差(Recency Bias)

2.1 问题定义

近因偏差是指SSM倾向于过度关注最近的token,而忽视或弱化较早时间步的信息。这种偏差在状态传递过程中被放大。

2.2 数学分析

连续时间视角

对于连续时间SSM(Continuous-time SSM):

其解为:

关键观察

  • (稳定矩阵)时, 随时间指数衰减
  • 较早的输入 乘以 ,其中 越大,衰减越多

离散时间视角

对于离散时间SSM,状态转移可以展开为:

近因偏差的表现

时,较早的输入 被矩阵 的高次幂衰减:

2.3 损害远距离信息回忆

近因偏差导致SSM在以下任务中表现不佳:

任务类型问题表现
精确回忆难以准确回忆序列开头的特定信息
因果推理无法有效利用遥远的因果关系
上下文学习上下文窗口早期的示例被忽视
模式匹配对分散在长序列中的重复模式不敏感

2.4 健壮性问题

近因偏差还带来健壮性问题:

  1. 对抗攻击脆弱性:攻击者只需干扰近期token即可影响模型决策
  2. 分布偏移敏感性:当测试分布与训练分布略有不同时,近期的偏差可能放大这种差异
  3. 评估偏差:标准基准测试可能低估SSM的真实能力

3. Over-smoothing问题

3.1 问题定义

Over-smoothing是指随着SSM层数增加,所有时间步的表示趋于相同,丧失区分能力。

这与GNN中的过平滑问题有着深刻的数学类比。

3.2 SSM中的理论基础

考虑多层SSM的堆叠:

核心问题:每一层都执行类似”平滑”的操作,类似于图神经网络中的消息传递。

3.3 与GNN的类比

GNNSSM
节点特征通过边传递状态通过时间步传递
多层GCN = 多次平滑多层SSM = 多次状态混合
Over-smoothing:节点表示趋同Over-smoothing:时间步表示趋同
图拉普拉斯算子时间转移矩阵

3.4 数学刻画

为第 层的表示矩阵。

考虑线性情况(无激活函数):

其中 是状态转移矩阵。

定理(Over-smoothing收敛)1

如果 的谱半径 ,则:

这意味着所有状态最终趋于零向量(而非相互趋同)。

更一般地,考虑有输入的情况:

其中权重 随着 增大而趋同。

3.5 表示能力损失

Over-smoothing导致:

这意味着所有时间步的表示变得线性相关,无法区分不同时间步的信息。


4. 深层结构的悖论

4.1 深度增加的双重效应

增加SSM层数面临一个基本的两难困境:

增加深度的动机:
├── 建模更长距离的依赖
├── 增加模型容量
└── 学习更复杂的非线性模式
         ↓
增加深度的问题:
├── 加重over-smoothing
├── 加剧recency bias
└── 损害信息保留能力

4.2 深度与信息保留的矛盾

理论分析

对于 层SSM,第 时间步的最终状态为:

其中 是从输入 到最终状态的”贡献权重”。

关键发现1

但权重的分布会随深度变化:

  • 浅层:权重分布相对均匀
  • 深层:权重向近期偏移,形成”尖峰”

4.3 表达能力的上限

层SSM的表达能力度量。

悖论

其中 是最优层数。超过 后:

4.4 实践中的观察

在Mamba等SSM架构中观察到:

层数困惑度远距离任务准确率
12层18.572%
24层17.268%
48层16.855%
96层16.541%

观察:随着层数增加,困惑度持续下降,但远距离任务准确率反而下降,这正是深层悖论的实证。


5. 极化技术解决方案

5.1 核心思想

**极化(Polarization)**技术通过精心设计状态转移矩阵 ,同时解决recency bias和over-smoothing两个问题。

5.2 双通道极化

将状态转移矩阵设为仅包含0和1的二值矩阵

极化矩阵的结构

典型的极化矩阵设计:

或单位矩阵的变体:

其中 是移位矩阵。

5.3 为什么极化有效

对Recency Bias的缓解

定理1

对于极化矩阵 ,存在 ,使得:

这意味着:

  • 信息无衰减地传递
  • 所有历史状态都被保留
  • 不存在指数衰减

对Over-smoothing的缓解

定理

为极化矩阵,则对于任意初始状态

即不同时间步的表示保持可区分

数学证明

考虑极化SSM的状态传递:

由于 在极化矩阵下保持结构,信息不会被混合或平均。

5.4 实验验证

toy任务:选择性复制

模型准确率说明
标准SSM45%受recency bias影响
极化SSM98%完美回忆任意位置

长序列任务

模型4K上下文16K上下文64K上下文
Mamba72%58%31%
极化Mamba91%89%87%

5.5 极化参数选择

极化技术引入了新的超参数:

参数含义推荐值
极化率 0和1的比例0.5-0.8
状态维度 状态向量维度任务依赖
块大小极化块的规模4-16
import torch
import torch.nn as nn
 
class PolarizedSSM(nn.Module):
    """极化状态空间模型"""
    def __init__(self, d_model, d_state=16, alpha=0.7):
        super().__init__()
        self.d_model = d_model
        self.d_state = d_state
        self.alpha = alpha  # 极化率
        
        # 输入投影
        self.x_proj = nn.Linear(d_model, d_state * 2, bias=False)
        
        # 初始化极化转移矩阵
        self.A = self._init_polarized_A()
    
    def _init_polarized_A(self):
        """初始化极化转移矩阵"""
        N = self.d_state
        # 创建移位矩阵
        S = torch.zeros(N, N)
        for i in range(N - 1):
            S[i + 1, i] = 1
        
        # 添加对角线以保留自身信息
        I = torch.eye(N)
        
        # 混合:保留近期 + 传递历史
        A = (1 - self.alpha) * I + self.alpha * S
        
        return nn.Parameter(A)
    
    def forward(self, x, state=None):
        # x: (batch, seq_len, d_model)
        B, T, D = x.shape
        
        # 输入投影
        x_dbl = self.x_proj(x)  # (B, T, 2N)
        dt, B_proj, C_proj = x_dbl.chunk(3, dim=-1)
        
        # 离散化时间步
        dt = nn.functional.softplus(dt)
        
        # 极化SSM扫描
        outputs = []
        current_state = torch.zeros(B, self.d_state, device=x.device) if state is None else state
        
        for t in range(T):
            # 状态更新(保持极化结构)
            current_state = self.A @ current_state + B_proj[:, t:t+1] * x[:, t]
            
            # 输出
            y_t = (C_proj[:, t:t+1] * current_state).sum(dim=-1, keepdim=True)
            outputs.append(y_t)
        
        output = torch.cat(outputs, dim=1)  # (B, T, 1) → 扩展到d_model
        
        return output, current_state

6. 理论分析

6.1 BIBO稳定性分析

有界输入有界输出(BIBO)稳定性是SSM设计的重要考虑。

标准SSM的稳定性

对于线性时不变SSM:

BIBO稳定的充要条件是:

其中 的谱半径。

极化SSM的稳定性

极化矩阵 的谱半径:

这意味着极化SSM处于临界稳定状态。

性质

  • 输入有界时,状态保持有界(但不会指数衰减)
  • 信息可以无衰减地传递到任意远的时间步

6.2 表达力保证

定理(极化SSM表达力)1

极化SSM保留了原始SSM的全部表达力,同时消除了recency bias和over-smoothing。

证明思路

  1. 任意SSM可以表示为某种极化SSM的特例
  2. 极化SSM的权重分布更均匀
  3. 极化SSM保持了状态空间的可分性

表达能力度量

定义信息保留率(Information Retention Rate, IRR):

对于标准SSM:

对于极化SSM:(恒定)

6.3 与其他解决方案的对比

方案解决Recency Bias解决Over-smoothing计算开销实现复杂度
极化✅ 完全✅ 完全
残差连接⚠️ 部分⚠️ 部分
归一化❌ 无⚠️ 部分
状态扩展⚠️ 部分⚠️ 部分

6.4 极化的数学性质

极化矩阵的幂

为移位矩阵:

信息传递通道

极化SSM创建了两条独立的信息通道

通道1(对角线):直接传递当前信息
         ↓
通道2(次对角线):顺序传递历史信息
         ↓
通道3(次次对角线):更远的历史信息
         ↓
...

7. 实践指南

7.1 如何选择极化参数

极化率

特性适用场景
0.0仅对角线(无传递)纯局部特征
0.3-0.5弱极化需要短期记忆的任务
0.5-0.8标准极化通用序列建模
0.8-1.0强极化需要长期依赖的任务

状态维度

序列长度 推荐 说明
< 100016-32短序列
1000-1000032-64中等序列
> 1000064-128长序列

7.2 适用场景

极化SSM特别适用于:

  1. 长距离上下文学习:需要从序列开头回忆信息
  2. 精确模式匹配:查找分散在长序列中的特定模式
  3. 因果推理:追踪跨越长距离的因果链条
  4. 多跳推理:需要组合多个远距离事实

7.3 限制与注意事项

计算效率

极化矩阵虽然结构简单,但全矩阵运算可能较慢:

# 优化的极化扫描(利用结构)
def polarized_scan(x, A, B, C):
    """利用极化结构的快速扫描"""
    T, N = x.shape[1], A.shape[0]
    h = torch.zeros_like(B)
    y = []
    
    for t in range(T):
        # 极化矩阵乘法:只需要上一行
        h_new = torch.zeros(N)
        h_new[:-1] = h[1:]  # 下移一行
        h_new[-1] = 0      # 最后一行清零
        h_new = h_new + B * x[:, t]  # 添加输入
        
        y_t = (C * h_new).sum()
        y.append(y_t)
        h = h_new
    
    return torch.stack(y, dim=1)

与选择性机制的兼容性

Mamba等选择性SSM的极化版本需要额外考虑:

  1. 选择性门控不应破坏极化结构
  2. 遗忘门应谨慎使用(可能重新引入recency bias)
  3. 推荐使用恒等遗忘门作为起点

7.4 未来研究方向

  1. 可学习的极化模式:自动发现最优的极化结构
  2. 层级极化:不同层使用不同的极化策略
  3. 稀疏极化:只保留部分信息通道
  4. 与注意力的混合:极化SSM + 稀疏注意力

8. 相关链接

SSM相关

深度学习理论相关


参考资料


Footnotes

  1. Fu et al., “Bottleneck Theory for State Space Models: Recency Bias and Over-smoothing”, ICML 2025 2 3 4 5 6