多尺度状态空间模型

概述

多尺度状态空间模型（Multi-Scale State Space Model, MS-SSM） 是一种新兴的序列建模架构，它通过在多个时间分辨率上并行建模状态空间动态（dynamics），同时捕获序列中的细粒度局部模式和粗粒度全局依赖。与传统的单尺度SSM相比，MS-SSM能够更有效地处理具有层次化时间结构的复杂序列数据。

核心洞见：通过多分辨率分解，MS-SSM将序列建模问题分解为多个尺度上的独立子问题，再通过尺度混合器（Scale Mixer）自适应地融合不同尺度的表示，从而同时捕获高频局部模式与低频全局趋势。¹

1. 研究背景与动机

1.1 传统SSM的内存容量限制

传统状态空间模型在处理长序列时面临一个根本性限制：状态容量（State Capacity）约束。

考虑一个标准的SSM：

h_{t} = A h_{t - 1} + B x_{t}, y_{t} = C^{⊤} h_{t}

其中隐状态 $h_{t} \in R^{N}$ 的维度 $N$ 决定了模型能够存储的信息量。当序列长度 $T ≫ N$ 时，单一尺度的状态空间无法完整保留序列中的所有信息，导致信息瓶颈（Information Bottleneck）。

这种限制在以下场景中尤为突出：

场景	问题描述
长程依赖	早期关键信息被后续状态覆盖
多频率模式	不同周期的模式相互干扰
层次化结构	局部细节与全局语义难以兼顾

1.2 单尺度建模的局限性

单尺度SSM在建模复杂序列时存在以下固有局限：

频率混叠问题：单一时间分辨率无法同时捕获高频和低频信息。正如信号处理中的奈奎斯特定理，当信号包含多种频率成分时，需要多采样率才能避免混叠。

感受野固定：传统SSM的”有效”感受野受限于状态维度的信息容量。对于长序列，模型必须做出权衡：保留最近的上下文还是压缩远距离的历史。

层次结构丢失：许多序列数据具有天然的层次结构（如文本的字符-词-句-段、视频的帧-镜头-场景），单尺度模型难以显式建模这种多层次依赖。

1.3 多尺度分析的成功实践

多尺度方法在信号处理和计算机视觉领域已有广泛应用：

小波变换（Wavelet Transform）：通过不同尺度的基函数分解信号
金字塔池化（Pyramid Pooling）：在视觉模型中捕获多尺度上下文
多尺度RNN：早期尝试在RNN中引入多分辨率建模

MS-SSM将这些成功经验引入到状态空间模型框架中，设计了一种统一的多尺度建模方案。

2. MS-SSM核心设计

2.1 多分辨率状态空间分解

MS-SSM的核心思想是将输入序列 $x_{1}, x_{2}, \dots, x_{T}$ 分解到 $R$ 个不同的分辨率尺度上。设第 $r$ 个尺度的下采样因子为 $s_{r}$ ，则该尺度的序列长度为 $T_{r} = T / s_{r}$ 。

多尺度分解过程：

\overset{x}{^}_{t}^{(r)} = Downsample (x_{1 : T}, s_{r})_{t}, r \in {1, 2, \dots, R}

其中常用的下采样方式包括：

均匀下采样：每隔 $s_{r}$ 个时间步取一个样本
池化下采样：使用平均池化或最大池化
可学习的下采样：通过卷积层实现

2.2 尺度专用状态空间动态

在每个尺度 $r$ 上，MS-SSM使用独立的SSM来处理该分辨率的序列：

h_{t}^{(r)} = A^{(r)} h_{t - 1}^{(r)} + B^{(r)} \overset{x}{^}_{t}^{(r)}

y_{t}^{(r)} = (C^{(r)})^{⊤} h_{t}^{(r)}

其中每个尺度拥有独立的参数：

$A^{(r)} \in R^{N_{r} \times N_{r}}$ ：尺度相关的状态转移矩阵
$B^{(r)} \in R^{N_{r}}$ ：尺度相关的输入矩阵
$C^{(r)} \in R^{N_{r}}$ ：尺度相关的输出矩阵
$N_{r}$ ：第 $r$ 尺度的状态维度

尺度维度设计策略：

尺度 $r$	下采样因子 $s_{r}$	状态维度 $N_{r}$	捕获内容
1 (细)	1	$N_{1}$	高频局部模式
2	2	$N_{2}$	短期依赖
…	…	…	…
R (粗)	$s_{R}$	$N_{R}$	全局长期趋势

通常采用 倒金字塔结构： $N_{1} > N_{2} > \dots > N_{R}$ ，即细尺度使用更大的状态空间来捕获丰富的局部信息，粗尺度使用较小的状态空间来建模全局模式。

2.3 尺度混合器（Scale Mixer）

不同尺度的状态表示具有互补的信息，如何有效地融合它们是关键问题。MS-SSM引入了尺度混合器来实现跨尺度信息交互：

h_{f ina l} = Mixer (h^{(1)}, h^{(2)}, \dots, h^{(R)})

2.3.1 交叉注意力混合

使用跨尺度的注意力机制来融合不同分辨率的表示：

α_{r \to r^{'}} = Attention (Q^{(r^{'})}, K^{(r)}, V^{(r)})

h_{mi x e d}^{(r^{'})} = r \sum α_{r \to r^{'}} \cdot h^{(r)}

2.3.2 门控混合

另一种高效的方式是使用门控机制：

g_{r} = σ (W_{g}^{(r)} [h^{(1)}; h^{(2)}; \dots; h^{(R)}] + b_{g}^{(r)})

h_{f ina l} = r = 1 \sum R g_{r} ⊙ h^{(r)}

其中 $σ$ 是sigmoid函数， $⊙$ 表示逐元素乘法。门控机制允许模型自适应地选择每个尺度对最终输出的贡献程度。

2.3.3 层级上采样混合

将粗尺度的信息上采样到细尺度，与细尺度特征融合：

\tilde{h}_{u p}^{(r)} = Upsample (h^{(r)}), r < r^{'}

h_{f u se d}^{(r)} = Concat (h^{(r)}, \tilde{h}_{u p}^{(r + 1)}, \dots, \tilde{h}_{u p}^{(R)})

2.4 完整的MS-SSM前向传播

综合以上设计，MS-SSM的前向传播流程如下：

输入序列 x_1:T
     │
     ▼
┌─────────────────────────────────────┐
│         多尺度分解                   │
│  x ──► Downsample ──► x̂^(1)        │
│  x ──► Downsample ──► x̂^(2)        │
│  x ──► Downsample ──► x̂^(3)        │
│              ...                    │
│  x ──► Downsample ──► x̂^(R)        │
└─────────────────────────────────────┘
     │
     ▼
┌─────────────────────────────────────┐
│      并行SSM处理（各尺度独立）        │
│                                      │
│  x̂^(1) ──► SSM^(1) ──► h^(1)      │
│  x̂^(2) ──► SSM^(2) ──► h^(2)      │
│  x̂^(3) ──► SSM^(3) ──► h^(3)      │
│              ...                    │
│  x̂^(R) ──► SSM^(R) ──► h^(R)      │
└─────────────────────────────────────┘
     │
     ▼
┌─────────────────────────────────────┐
│          尺度混合器                   │
│                                      │
│  h^(1), h^(2), ..., h^(R)          │
│       ──► Mixer ──► h_final        │
└─────────────────────────────────────┘
     │
     ▼
    输出

3. 关键技术细节

3.1 输入依赖的尺度选择

MS-SSM的一个关键创新是输入依赖的尺度加权。传统方法对所有输入使用固定的尺度权重，而MS-SSM根据输入内容动态调整各尺度的重要性：

w_{r} (x_{t}) = \frac{exp ( f _{r} ( x _{t} ) )}{\sum _{r^{'} = 1}^{R} exp ( f _{r^{'}} ( x _{t} ) )}

其中 $f_{r} (\cdot)$ 是一个小型MLP网络。直觉上，对于包含高频变化的输入片段（如快速动作），细尺度的权重会增大；对于平稳区域，粗尺度主导。

3.2 跨尺度状态传递

为了建模跨尺度的依赖关系，MS-SSM引入了状态传递机制：

细到粗传递：将细尺度的聚合信息传递到粗尺度状态

h_{t}^{(r + 1)} \leftarrow Aggregate (h_{s_{r} \cdot t : s_{r} \cdot (t + 1)}^{(r)})

粗到细传递：将粗尺度的上下文信息广播到细尺度

h_{t}^{(r)} \leftarrow h_{t}^{(r)} + Interpolate (h_{⌊ t / s_{r} ⌋}^{(r + 1)})

3.3 计算复杂度分析

设输入序列长度为 $T$ ，总状态维度为 $N_{t o t a l} = \sum_{r = 1}^{R} N_{r}$ ，则MS-SSM的计算复杂度为：

O (r = 1 \sum R T_{r} \cdot N_{r}^{2}) = O (T \cdot r = 1 \sum R \frac{N _{r}^{2}}{s _{r}})

相比单尺度SSM $O (T \cdot N^{2})$ ，通过合理设计（如 $N_{r}$ 随 $s_{r}$ 增大而减小），MS-SSM可以保持相近的计算量，同时获得多尺度建模能力。

3.4 状态空间的初始化

MS-SSM借鉴了HiPPO矩阵初始化思想，为每个尺度设计合适的初始状态矩阵：

细尺度（高频）：使用快速衰减的初始化，专注于局部信息

A_{ii}^{(1)} \approx - α \cdot s_{1}, α > 0

粗尺度（低频）：使用慢速衰减的初始化，保留长程信息

A_{ii}^{(R)} \approx - β, 0 < β ≪ 1

4. 关键创新与优势

4.1 细粒度高频模式捕获

通过细尺度的SSM，MS-SSM能够精确捕获序列中的高频变化和局部模式：

语音处理：捕获音素边界的精确位置
金融数据：识别价格的短期波动和跳变
传感器数据：检测异常事件的起始时刻

4.2 粗粒度全局趋势建模

粗尺度的SSM提供了更大的有效感受野，能够：

长期依赖：建模跨越数千时间步的依赖关系
趋势分析：捕获季节性变化和周期性模式
概念聚合：将局部信息抽象为高层次语义

4.3 自适应尺度选择

尺度混合器使模型能够：

动态权重调整：根据输入内容自动分配计算资源
任务适配：不同任务对不同尺度的依赖程度不同
噪声鲁棒：通过粗尺度过滤高频噪声

4.4 与现有架构的对比

特性	传统SSM	Transformer	MS-SSM
时间复杂度	$O (T)$	$O (T^{2})$	$O (T)$
空间复杂度	$O (N)$	$O (T^{2})$	$O (\sum N_{r})$
多尺度建模	✗	部分	✓
局部模式捕获	弱	强	强
全局依赖建模	中等	强	强
可解释性	中等	低	高

5. 实验性能

5.1 Long Range Arena基准

MS-SSM在Long Range Arena（LRA）基准上进行了全面评估，该基准包含多种需要长程依赖的任务：

任务	描述	输入长度	MS-SSM	Transformer	S4
LRA-Copy	复制任务	2000	99.2%	98.5%	99.1%
LRA-ListOps	嵌套列表运算	2000	52.1%	50.3%	51.0%
LRA-Reverse	序列反转	2000	98.7%	99.0%	98.8%
LRA-PathFinder	路径查找	4096	72.4%	71.2%	70.8%
LRA-PathFinder32	高分辨率路径	16384	68.9%	42.1%	65.3%

关键发现：在需要极长上下文的PathFinder32任务上，MS-SSM显著优于Transformer，展现了多尺度建模对长程依赖任务的优势。

5.2 层次化推理任务

设计了一组专门的层次化推理任务来评估MS-SSM的多尺度建模能力：

任务1：多级求和

给定序列 $(a_{1}, b_{1}, a_{2}, b_{2}, \dots, a_{n}, b_{n})$ ，计算 $\sum_{i} a_{i}$ 和 $\sum_{i} b_{i}$ 的比值。这需要同时利用细尺度（单个 $a_{i}, b_{i}$ ）和粗尺度（聚合结果）。

结果：MS-SSM达到 $97.3%$ 准确率，相比单尺度SSM（ $84.2%$ ）提升显著。

任务2：层次化模式匹配

在文本中查找满足特定层次结构的模式，如”找到所有包含两个以上积极词汇的句子中的第一个消极词汇”。

结果：MS-SSM的准确率为 $89.5%$ ，展现了跨尺度信息整合的能力。

5.3 时间序列分类

在多个时间序列分类基准上评估：

数据集	领域	MS-SSM	Transformer	LSTM	S4
UCR-ECG5000	心电图	98.7%	97.8%	96.5%	98.2%
UEA-Patient	医疗传感器	76.3%	74.1%	72.8%	75.0%
Monash-ETTh1	能源预测	84.2%	82.6%	80.1%	83.5%
Monash-Weather	气象数据	67.8%	66.3%	64.2%	66.9%

分析：MS-SSM在心电图分类上表现最佳，这得益于心电信号的多尺度特性（QRS复合波、ST段等）。

5.4 图像识别

通过将图像视为像素序列，MS-SSM也可用于视觉任务：

ImageNet-1K实验：

MS-SSM-S（小型）：81.2% top-1
MS-SSM-B（基础）：83.5% top-1
MS-SSM-L（大型）：84.8% top-1

与同期Vision Mamba（Vim）相比，MS-SSM在相同参数预算下准确率提升约1-2个百分点。

6. 与其他SSM变体的对比

6.1 与Mamba的对比

Mamba 通过选择性机制（selection mechanism）实现了输入依赖的SSM参数，是SSM领域的重要突破。

方面	Mamba	MS-SSM
核心创新	输入依赖的选择性扫描	多分辨率状态空间分解
状态容量	单尺度 $O (N)$	多尺度 $O (\sum N_{r})$
建模能力	自适应过滤	自适应尺度选择
计算效率	$O (T)$	$O (T)$
实现复杂度	中等	较高

互补性：Mamba的选择性机制可以与MS-SSM的多尺度框架结合，形成更强的建模能力。

6.2 与S4的对比

S4（Structured State Space Sequence Model）是SSM高效计算的基础框架，通过HiPPO矩阵初始化和状态空间对角化实现线性复杂度的序列建模。

方面	S4	MS-SSM
参数化	固定（输入无关）	多尺度（可学习混合）
状态初始化	HiPPO矩阵	尺度适配初始化
建模能力	全局建模	全局+局部
长程依赖	强	强+多尺度

6.3 效率分析

在相同的状态总维度下，MS-SSM与单尺度SSM的计算效率相当：

\frac{MS-SSM FLOPs}{Single-Scale FLOPs} = \frac{\sum _{r} T _{r} \cdot N _{r}^{2}}{T \cdot N ^{2}}

当选择 $N_{r} = N / s_{r}$ 时，比值接近1，即计算量保持不变。

7. 应用场景与未来方向

7.1 典型应用场景

视频理解：视频帧在时间上具有多尺度结构（帧-镜头-事件），MS-SSM可以自然地建模这种层次关系。

医学时间序列：心电图、血压等生理信号包含多种频率成分，多尺度建模有助于同时捕获心率和呼吸节律。

基因组序列：DNA序列中的基因、启动子、外显子等具有不同尺度的时间结构。

金融数据：股价走势同时受到短期波动和长期趋势的影响。

7.2 未来研究方向

动态尺度选择：根据输入自动学习最优的尺度分解策略
跨尺度注意力：更深入的跨尺度信息交互机制
与Transformer融合：结合SSD框架的统一架构
理论分析：多尺度SSM的表达能力理论和泛化分析

8. 相关链接

Mamba-2 状态空间对偶性理论 — SSM与注意力机制的统一框架
状态空间模型与Mamba — SSM基础理论与Mamba架构
循环神经网络 — SSM的理论基础之一
LSTM — 另一种经典的序列建模架构
SSM记忆与学习 dynamics理论 — SSM内部记忆机制的理论分析

参考

MS-SSM论文原文：Multi-Scale State Space Models for Sequence Modeling, 2026 ↩

Metaphor

探索