视觉状态空间模型综述

概述

视觉状态空间模型（Vision State Space Models, Vision SSM）是近年来快速发展的新型视觉骨干架构，旨在将状态空间模型（SSM）的高效长程建模能力带入计算机视觉领域。

本综述系统梳理Vision SSM的：

发展历程
架构分类
设计原则
未来方向

发展历程

时间线

2024初 ──┬─ Vision Mamba (Vim)
         ├─ VMamba (十字扫描)
         │
2024中 ──┼─ MambaVision (混合架构)
         ├─ Mamba2D (原生2D)
         ├─ LocalMamba (局部窗口)
         │
2024末 ──┼─ GroupMamba (分组机制)
         ├─ Hybrid-Mamba (混合CNN)
         │
2025 ────┼─ SOTA: MambaVision-L (85.0%)
         ├─ SOTA: Mamba2D-B (85.3%)
         └─ 持续快速迭代中...

里程碑论文

年份	模型	关键创新	影响
2024	Vision Mamba	首次将Mamba应用于视觉	开创性工作
2024	VMamba	十字扫描策略	解决方向问题
2024	MambaVision	混合Mamba-Transformer	性能突破
2024	Mamba2D	原生2D推导	理论完善
2025	GroupMamba	分组机制	效率提升

架构分类

分类体系

Vision SSM
    │
    ├── 纯SSM架构
    │       ├── Vim (十字扫描)
    │       ├── VMamba (十字+交叉)
    │       └── Mamba2D (Wavefront)
    │
    ├── 混合SSM架构
    │       ├── MambaVision (CNN+SSM+Transformer)
    │       ├── Hybrid-Mamba (CNN+SSM)
    │       └── GroupMamba (分组+多方向)
    │
    └── 语言-视觉SSM
            └── SAMBA (语言模型)

1. 纯SSM架构

Vision Mamba (Vim)

核心设计：将图像展平为1D序列，应用Mamba的选择性扫描

# Vim扫描策略
# 图像 → 2D patches → 展平为1D → 十字扫描
#         ↓
#    [←][←][←][←]
#    [←][←][←][←]  水平: 从右向左
#    [←][←][←][←]
#         ↓
#    [↓][↓][↓][↓]
#    [↓][↓][↓][↓]  垂直: 从上到下
#    [↓][↓][↓][↓]

特点：

简单直接
因果扫描可能导致信息损失
适合分类等全局任务

VMamba

核心创新：引入交叉扫描（Cross-Scan），每个像素经过4个方向的处理

扫描路径：

1. 左→右 → 右→左
2. 上→下 → 下→上
3. 对角线扫描
4. 交叉合并

优势：

非因果建模
更好的空间覆盖
适合密集预测任务

Mamba2D

核心创新：从第一性原理推导原生2D SSM

Wavefront并行扫描：

t=0:  (0,0)
t=1:  (0,1) (1,0)
t=2:  (0,2) (1,1) (2,0)
t=3:  (1,2) (2,1)      ← 对角线并行
t=4:  (2,2)

优势：

原生2D建模
高GPU利用率
亚线性扩展

2. 混合SSM架构

MambaVision

设计理念：不同阶段使用不同模块

阶段	模块	理由
Stage 1-2	CNN块	局部特征提取，CNN归纳偏置有效
Stage 3-4	混合Mamba+Transformer	全局依赖建模

关键改进：对称分支设计

# MambaVision的并行分支
output = Gate(SSM_output) × Conv_output
# SSM: 压缩历史
# Conv: 保持空间
# Gate: 动态融合

GroupMamba

设计理念：借鉴分组卷积，参数高效

分组策略：

通道C ──→ 4组 ──→ 独立扫描 ──→ CAM融合
           ↓
        [→][←][↓][↑]
         4个方向

优势：

26%参数减少
多方向覆盖
稳定训练（蒸馏）

3. 语言-视觉SSM对比

模型	领域	核心创新	效率
SAMBA	语言	Mamba + 滑动窗口注意	3.73×加速
Hymba	语言	同层并行混合头	3.49×加速
Jamba	语言	层间交替	1.5×加速

性能对比

ImageNet分类

架构	模型	参数量	Top-1	特点
Pure SSM	Mamba2D-B	50M	85.3%	原生2D
	MambaVision-B	98M	84.2%	混合
	Vim-S	48M	81.5%	展平1D
	VMamba-S	50M	82.6%	十字扫描
Hybrid	MambaVision-L	228M	85.0%	CNN+SSM
	GroupMamba-S	49M	83.3%	分组
Pure ViT	DeiT-III-S	22M	79.8%	纯注意力
	Swin-B	88M	83.0%	窗口注意力

准确率-效率权衡

吞吐量 (img/s, A100) ↑
                       │
2000 ─┤                                    ● Mamba2D-Ti
      │                              ◆ VMamba-T
1500 ─┤                    ■ MambaVision-T ◆
      │              ◆    ◆          ■
1000 ─┤        ◆    ■   ■      ■
      │   ◆  ■  ◆  ■  ■  ◆  ■  ■
 500 ─┤◆  ■  ■  ■  ■  ■  ■  ■  ■   ■ Swin
      │  ■  ■  ■  ■  ■  ■  ■  ■
 100 ─┤  ■  ■  ■  ■  ■  ■  ■  ■
      └──────────────────────────────────→ Top-1 (%)
         78   80   82   84   86
         
      ◆ Pure SSM   ■ Hybrid SSM   ● CNN-baseline

下游任务性能

COCO目标检测

Backbone	AP^b	相对提升 vs Vim
Vim-S	48.2	-
VMamba-S	50.1	+4%
Mamba2D-B	52.2	+8%
MambaVision-B	53.4	+11%

ADE20K语义分割

Backbone	mIoU	相对提升 vs Vim
Vim-S	45.8	-
VMamba-S	47.5	+4%
Mamba2D-B	51.7	+13%
MambaVision-B	50.1	+9%

设计原则总结

1. 扫描策略原则

原则	说明	示例
多方向	单一方向覆盖不足	VMamba十字扫描
空间保持	避免展平丢失结构	Mamba2D原生2D
并行友好	充分利用GPU	Wavefront扫描

2. 混合策略原则

原则	说明	示例
互补混合	SSM+注意力各取所长	MambaVision, Hymba
渐进混合	不同阶段用不同模块	Stage-wise混合
分组混合	效率与覆盖平衡	GroupMamba

3. 训练稳定性原则

问题	解决方案	模型
大模型不稳定	蒸馏训练	GroupMamba
梯度问题	门控机制	MambaVision
初始化敏感	归一化融合	Hymba

技术对比表

特性	Vim	VMamba	Mamba2D	MambaVision	GroupMamba
扫描方向	2	4+	4	4	4(分组)
2D原生	✗	✗	✓	✓	✓
混合架构	✗	✗	✗	✓	✗
并行策略	行级	行级	Wavefront	混合	分组
参数量	中	中	中	高	低
训练稳定性	中	中	中	好	好
高分辨率效率	低	中	高	中	中

未来研究方向

1. 高效高分辨率处理

当前挑战：

二次复杂度在超高分辨率下仍高
局部-全局平衡困难

潜在方向：

动态分辨率适应
层次化局部+全局建模

2. 多模态统一架构

当前问题：

语言SSM和视觉SSM发展不同步
缺乏统一的多模态SSM