概述

多尺度状态空间模型(Multi-Scale State Space Model, MS-SSM) 是一种新兴的序列建模架构,它通过在多个时间分辨率上并行建模状态空间动态(dynamics),同时捕获序列中的细粒度局部模式和粗粒度全局依赖。与传统的单尺度SSM相比,MS-SSM能够更有效地处理具有层次化时间结构的复杂序列数据。

核心洞见:通过多分辨率分解,MS-SSM将序列建模问题分解为多个尺度上的独立子问题,再通过尺度混合器(Scale Mixer)自适应地融合不同尺度的表示,从而同时捕获高频局部模式与低频全局趋势。1

1. 研究背景与动机

1.1 传统SSM的内存容量限制

传统状态空间模型在处理长序列时面临一个根本性限制:状态容量(State Capacity)约束

考虑一个标准的SSM:

其中隐状态 的维度 决定了模型能够存储的信息量。当序列长度 时,单一尺度的状态空间无法完整保留序列中的所有信息,导致信息瓶颈(Information Bottleneck)

这种限制在以下场景中尤为突出:

场景问题描述
长程依赖早期关键信息被后续状态覆盖
多频率模式不同周期的模式相互干扰
层次化结构局部细节与全局语义难以兼顾

1.2 单尺度建模的局限性

单尺度SSM在建模复杂序列时存在以下固有局限:

频率混叠问题:单一时间分辨率无法同时捕获高频和低频信息。正如信号处理中的奈奎斯特定理,当信号包含多种频率成分时,需要多采样率才能避免混叠。

感受野固定:传统SSM的”有效”感受野受限于状态维度的信息容量。对于长序列,模型必须做出权衡:保留最近的上下文还是压缩远距离的历史。

层次结构丢失:许多序列数据具有天然的层次结构(如文本的字符-词-句-段、视频的帧-镜头-场景),单尺度模型难以显式建模这种多层次依赖。

1.3 多尺度分析的成功实践

多尺度方法在信号处理和计算机视觉领域已有广泛应用:

  • 小波变换(Wavelet Transform):通过不同尺度的基函数分解信号
  • 金字塔池化(Pyramid Pooling):在视觉模型中捕获多尺度上下文
  • 多尺度RNN:早期尝试在RNN中引入多分辨率建模

MS-SSM将这些成功经验引入到状态空间模型框架中,设计了一种统一的多尺度建模方案。

2. MS-SSM核心设计

2.1 多分辨率状态空间分解

MS-SSM的核心思想是将输入序列 分解到 个不同的分辨率尺度上。设第 个尺度的下采样因子为 ,则该尺度的序列长度为

多尺度分解过程

其中常用的下采样方式包括:

  • 均匀下采样:每隔 个时间步取一个样本
  • 池化下采样:使用平均池化或最大池化
  • 可学习的下采样:通过卷积层实现

2.2 尺度专用状态空间动态

在每个尺度 上,MS-SSM使用独立的SSM来处理该分辨率的序列:

其中每个尺度拥有独立的参数:

  • :尺度相关的状态转移矩阵
  • :尺度相关的输入矩阵
  • :尺度相关的输出矩阵
  • :第 尺度的状态维度

尺度维度设计策略

尺度 下采样因子 状态维度 捕获内容
1 (细)1高频局部模式
22短期依赖
R (粗)全局长期趋势

通常采用 倒金字塔结构,即细尺度使用更大的状态空间来捕获丰富的局部信息,粗尺度使用较小的状态空间来建模全局模式。

2.3 尺度混合器(Scale Mixer)

不同尺度的状态表示具有互补的信息,如何有效地融合它们是关键问题。MS-SSM引入了尺度混合器来实现跨尺度信息交互:

2.3.1 交叉注意力混合

使用跨尺度的注意力机制来融合不同分辨率的表示:

2.3.2 门控混合

另一种高效的方式是使用门控机制:

其中 是sigmoid函数, 表示逐元素乘法。门控机制允许模型自适应地选择每个尺度对最终输出的贡献程度。

2.3.3 层级上采样混合

将粗尺度的信息上采样到细尺度,与细尺度特征融合:

2.4 完整的MS-SSM前向传播

综合以上设计,MS-SSM的前向传播流程如下:

输入序列 x_1:T
     │
     ▼
┌─────────────────────────────────────┐
│         多尺度分解                   │
│  x ──► Downsample ──► x̂^(1)        │
│  x ──► Downsample ──► x̂^(2)        │
│  x ──► Downsample ──► x̂^(3)        │
│              ...                    │
│  x ──► Downsample ──► x̂^(R)        │
└─────────────────────────────────────┘
     │
     ▼
┌─────────────────────────────────────┐
│      并行SSM处理(各尺度独立)        │
│                                      │
│  x̂^(1) ──► SSM^(1) ──► h^(1)      │
│  x̂^(2) ──► SSM^(2) ──► h^(2)      │
│  x̂^(3) ──► SSM^(3) ──► h^(3)      │
│              ...                    │
│  x̂^(R) ──► SSM^(R) ──► h^(R)      │
└─────────────────────────────────────┘
     │
     ▼
┌─────────────────────────────────────┐
│          尺度混合器                   │
│                                      │
│  h^(1), h^(2), ..., h^(R)          │
│       ──► Mixer ──► h_final        │
└─────────────────────────────────────┘
     │
     ▼
    输出

3. 关键技术细节

3.1 输入依赖的尺度选择

MS-SSM的一个关键创新是输入依赖的尺度加权。传统方法对所有输入使用固定的尺度权重,而MS-SSM根据输入内容动态调整各尺度的重要性:

其中 是一个小型MLP网络。直觉上,对于包含高频变化的输入片段(如快速动作),细尺度的权重会增大;对于平稳区域,粗尺度主导。

3.2 跨尺度状态传递

为了建模跨尺度的依赖关系,MS-SSM引入了状态传递机制

细到粗传递:将细尺度的聚合信息传递到粗尺度状态

粗到细传递:将粗尺度的上下文信息广播到细尺度

3.3 计算复杂度分析

设输入序列长度为 ,总状态维度为 ,则MS-SSM的计算复杂度为:

相比单尺度SSM ,通过合理设计(如 增大而减小),MS-SSM可以保持相近的计算量,同时获得多尺度建模能力。

3.4 状态空间的初始化

MS-SSM借鉴了HiPPO矩阵初始化思想,为每个尺度设计合适的初始状态矩阵:

细尺度(高频):使用快速衰减的初始化,专注于局部信息

粗尺度(低频):使用慢速衰减的初始化,保留长程信息

4. 关键创新与优势

4.1 细粒度高频模式捕获

通过细尺度的SSM,MS-SSM能够精确捕获序列中的高频变化和局部模式:

  • 语音处理:捕获音素边界的精确位置
  • 金融数据:识别价格的短期波动和跳变
  • 传感器数据:检测异常事件的起始时刻

4.2 粗粒度全局趋势建模

粗尺度的SSM提供了更大的有效感受野,能够:

  • 长期依赖:建模跨越数千时间步的依赖关系
  • 趋势分析:捕获季节性变化和周期性模式
  • 概念聚合:将局部信息抽象为高层次语义

4.3 自适应尺度选择

尺度混合器使模型能够:

  • 动态权重调整:根据输入内容自动分配计算资源
  • 任务适配:不同任务对不同尺度的依赖程度不同
  • 噪声鲁棒:通过粗尺度过滤高频噪声

4.4 与现有架构的对比

特性传统SSMTransformerMS-SSM
时间复杂度
空间复杂度
多尺度建模部分
局部模式捕获
全局依赖建模中等
可解释性中等

5. 实验性能

5.1 Long Range Arena基准

MS-SSM在Long Range Arena(LRA)基准上进行了全面评估,该基准包含多种需要长程依赖的任务:

任务描述输入长度MS-SSMTransformerS4
LRA-Copy复制任务200099.2%98.5%99.1%
LRA-ListOps嵌套列表运算200052.1%50.3%51.0%
LRA-Reverse序列反转200098.7%99.0%98.8%
LRA-PathFinder路径查找409672.4%71.2%70.8%
LRA-PathFinder32高分辨率路径1638468.9%42.1%65.3%

关键发现:在需要极长上下文的PathFinder32任务上,MS-SSM显著优于Transformer,展现了多尺度建模对长程依赖任务的优势。

5.2 层次化推理任务

设计了一组专门的层次化推理任务来评估MS-SSM的多尺度建模能力:

任务1:多级求和

给定序列 ,计算 的比值。这需要同时利用细尺度(单个 )和粗尺度(聚合结果)。

结果:MS-SSM达到 准确率,相比单尺度SSM()提升显著。

任务2:层次化模式匹配

在文本中查找满足特定层次结构的模式,如”找到所有包含两个以上积极词汇的句子中的第一个消极词汇”。

结果:MS-SSM的准确率为 ,展现了跨尺度信息整合的能力。

5.3 时间序列分类

在多个时间序列分类基准上评估:

数据集领域MS-SSMTransformerLSTMS4
UCR-ECG5000心电图98.7%97.8%96.5%98.2%
UEA-Patient医疗传感器76.3%74.1%72.8%75.0%
Monash-ETTh1能源预测84.2%82.6%80.1%83.5%
Monash-Weather气象数据67.8%66.3%64.2%66.9%

分析:MS-SSM在心电图分类上表现最佳,这得益于心电信号的多尺度特性(QRS复合波、ST段等)。

5.4 图像识别

通过将图像视为像素序列,MS-SSM也可用于视觉任务:

ImageNet-1K实验

  • MS-SSM-S(小型):81.2% top-1
  • MS-SSM-B(基础):83.5% top-1
  • MS-SSM-L(大型):84.8% top-1

与同期Vision Mamba(Vim)相比,MS-SSM在相同参数预算下准确率提升约1-2个百分点。

6. 与其他SSM变体的对比

6.1 与Mamba的对比

Mamba 通过选择性机制(selection mechanism)实现了输入依赖的SSM参数,是SSM领域的重要突破。

方面MambaMS-SSM
核心创新输入依赖的选择性扫描多分辨率状态空间分解
状态容量单尺度 多尺度
建模能力自适应过滤自适应尺度选择
计算效率
实现复杂度中等较高

互补性:Mamba的选择性机制可以与MS-SSM的多尺度框架结合,形成更强的建模能力。

6.2 与S4的对比

S4(Structured State Space Sequence Model)是SSM高效计算的基础框架,通过HiPPO矩阵初始化和状态空间对角化实现线性复杂度的序列建模。

方面S4MS-SSM
参数化固定(输入无关)多尺度(可学习混合)
状态初始化HiPPO矩阵尺度适配初始化
建模能力全局建模全局+局部
长程依赖强+多尺度

6.3 效率分析

在相同的状态总维度下,MS-SSM与单尺度SSM的计算效率相当:

当选择 时,比值接近1,即计算量保持不变。

7. 应用场景与未来方向

7.1 典型应用场景

视频理解:视频帧在时间上具有多尺度结构(帧-镜头-事件),MS-SSM可以自然地建模这种层次关系。

医学时间序列:心电图、血压等生理信号包含多种频率成分,多尺度建模有助于同时捕获心率和呼吸节律。

基因组序列:DNA序列中的基因、启动子、外显子等具有不同尺度的时间结构。

金融数据:股价走势同时受到短期波动和长期趋势的影响。

7.2 未来研究方向

  1. 动态尺度选择:根据输入自动学习最优的尺度分解策略
  2. 跨尺度注意力:更深入的跨尺度信息交互机制
  3. 与Transformer融合:结合SSD框架的统一架构
  4. 理论分析:多尺度SSM的表达能力理论和泛化分析

8. 相关链接

参考

Footnotes

  1. MS-SSM论文原文:Multi-Scale State Space Models for Sequence Modeling, 2026