概述
视觉状态空间模型(Vision State Space Models, Vision SSM)是近年来快速发展的新型视觉骨干架构,旨在将状态空间模型(SSM)的高效长程建模能力带入计算机视觉领域。
本综述系统梳理Vision SSM的:
- 发展历程
- 架构分类
- 设计原则
- 未来方向
发展历程
时间线
2024初 ──┬─ Vision Mamba (Vim)
├─ VMamba (十字扫描)
│
2024中 ──┼─ MambaVision (混合架构)
├─ Mamba2D (原生2D)
├─ LocalMamba (局部窗口)
│
2024末 ──┼─ GroupMamba (分组机制)
├─ Hybrid-Mamba (混合CNN)
│
2025 ────┼─ SOTA: MambaVision-L (85.0%)
├─ SOTA: Mamba2D-B (85.3%)
└─ 持续快速迭代中...
里程碑论文
| 年份 | 模型 | 关键创新 | 影响 |
|---|---|---|---|
| 2024 | Vision Mamba | 首次将Mamba应用于视觉 | 开创性工作 |
| 2024 | VMamba | 十字扫描策略 | 解决方向问题 |
| 2024 | MambaVision | 混合Mamba-Transformer | 性能突破 |
| 2024 | Mamba2D | 原生2D推导 | 理论完善 |
| 2025 | GroupMamba | 分组机制 | 效率提升 |
架构分类
分类体系
Vision SSM
│
├── 纯SSM架构
│ ├── Vim (十字扫描)
│ ├── VMamba (十字+交叉)
│ └── Mamba2D (Wavefront)
│
├── 混合SSM架构
│ ├── MambaVision (CNN+SSM+Transformer)
│ ├── Hybrid-Mamba (CNN+SSM)
│ └── GroupMamba (分组+多方向)
│
└── 语言-视觉SSM
└── SAMBA (语言模型)
1. 纯SSM架构
Vision Mamba (Vim)
核心设计:将图像展平为1D序列,应用Mamba的选择性扫描
# Vim扫描策略
# 图像 → 2D patches → 展平为1D → 十字扫描
# ↓
# [←][←][←][←]
# [←][←][←][←] 水平: 从右向左
# [←][←][←][←]
# ↓
# [↓][↓][↓][↓]
# [↓][↓][↓][↓] 垂直: 从上到下
# [↓][↓][↓][↓]特点:
- 简单直接
- 因果扫描可能导致信息损失
- 适合分类等全局任务
VMamba
核心创新:引入交叉扫描(Cross-Scan),每个像素经过4个方向的处理
扫描路径:
1. 左→右 → 右→左
2. 上→下 → 下→上
3. 对角线扫描
4. 交叉合并
优势:
- 非因果建模
- 更好的空间覆盖
- 适合密集预测任务
Mamba2D
核心创新:从第一性原理推导原生2D SSM
Wavefront并行扫描:
t=0: (0,0)
t=1: (0,1) (1,0)
t=2: (0,2) (1,1) (2,0)
t=3: (1,2) (2,1) ← 对角线并行
t=4: (2,2)
优势:
- 原生2D建模
- 高GPU利用率
- 亚线性扩展
2. 混合SSM架构
MambaVision
设计理念:不同阶段使用不同模块
| 阶段 | 模块 | 理由 |
|---|---|---|
| Stage 1-2 | CNN块 | 局部特征提取,CNN归纳偏置有效 |
| Stage 3-4 | 混合Mamba+Transformer | 全局依赖建模 |
关键改进:对称分支设计
# MambaVision的并行分支
output = Gate(SSM_output) × Conv_output
# SSM: 压缩历史
# Conv: 保持空间
# Gate: 动态融合GroupMamba
设计理念:借鉴分组卷积,参数高效
分组策略:
通道C ──→ 4组 ──→ 独立扫描 ──→ CAM融合
↓
[→][←][↓][↑]
4个方向
优势:
- 26%参数减少
- 多方向覆盖
- 稳定训练(蒸馏)
3. 语言-视觉SSM对比
| 模型 | 领域 | 核心创新 | 效率 |
|---|---|---|---|
| SAMBA | 语言 | Mamba + 滑动窗口注意 | 3.73×加速 |
| Hymba | 语言 | 同层并行混合头 | 3.49×加速 |
| Jamba | 语言 | 层间交替 | 1.5×加速 |
性能对比
ImageNet分类
| 架构 | 模型 | 参数量 | Top-1 | 特点 |
|---|---|---|---|---|
| Pure SSM | Mamba2D-B | 50M | 85.3% | 原生2D |
| MambaVision-B | 98M | 84.2% | 混合 | |
| Vim-S | 48M | 81.5% | 展平1D | |
| VMamba-S | 50M | 82.6% | 十字扫描 | |
| Hybrid | MambaVision-L | 228M | 85.0% | CNN+SSM |
| GroupMamba-S | 49M | 83.3% | 分组 | |
| Pure ViT | DeiT-III-S | 22M | 79.8% | 纯注意力 |
| Swin-B | 88M | 83.0% | 窗口注意力 |
准确率-效率权衡
吞吐量 (img/s, A100) ↑
│
2000 ─┤ ● Mamba2D-Ti
│ ◆ VMamba-T
1500 ─┤ ■ MambaVision-T ◆
│ ◆ ◆ ■
1000 ─┤ ◆ ■ ■ ■
│ ◆ ■ ◆ ■ ■ ◆ ■ ■
500 ─┤◆ ■ ■ ■ ■ ■ ■ ■ ■ ■ Swin
│ ■ ■ ■ ■ ■ ■ ■ ■
100 ─┤ ■ ■ ■ ■ ■ ■ ■ ■
└──────────────────────────────────→ Top-1 (%)
78 80 82 84 86
◆ Pure SSM ■ Hybrid SSM ● CNN-baseline
下游任务性能
COCO目标检测
| Backbone | AP^b | 相对提升 vs Vim |
|---|---|---|
| Vim-S | 48.2 | - |
| VMamba-S | 50.1 | +4% |
| Mamba2D-B | 52.2 | +8% |
| MambaVision-B | 53.4 | +11% |
ADE20K语义分割
| Backbone | mIoU | 相对提升 vs Vim |
|---|---|---|
| Vim-S | 45.8 | - |
| VMamba-S | 47.5 | +4% |
| Mamba2D-B | 51.7 | +13% |
| MambaVision-B | 50.1 | +9% |
设计原则总结
1. 扫描策略原则
| 原则 | 说明 | 示例 |
|---|---|---|
| 多方向 | 单一方向覆盖不足 | VMamba十字扫描 |
| 空间保持 | 避免展平丢失结构 | Mamba2D原生2D |
| 并行友好 | 充分利用GPU | Wavefront扫描 |
2. 混合策略原则
| 原则 | 说明 | 示例 |
|---|---|---|
| 互补混合 | SSM+注意力各取所长 | MambaVision, Hymba |
| 渐进混合 | 不同阶段用不同模块 | Stage-wise混合 |
| 分组混合 | 效率与覆盖平衡 | GroupMamba |
3. 训练稳定性原则
| 问题 | 解决方案 | 模型 |
|---|---|---|
| 大模型不稳定 | 蒸馏训练 | GroupMamba |
| 梯度问题 | 门控机制 | MambaVision |
| 初始化敏感 | 归一化融合 | Hymba |
技术对比表
| 特性 | Vim | VMamba | Mamba2D | MambaVision | GroupMamba |
|---|---|---|---|---|---|
| 扫描方向 | 2 | 4+ | 4 | 4 | 4(分组) |
| 2D原生 | ✗ | ✗ | ✓ | ✓ | ✓ |
| 混合架构 | ✗ | ✗ | ✗ | ✓ | ✗ |
| 并行策略 | 行级 | 行级 | Wavefront | 混合 | 分组 |
| 参数量 | 中 | 中 | 中 | 高 | 低 |
| 训练稳定性 | 中 | 中 | 中 | 好 | 好 |
| 高分辨率效率 | 低 | 中 | 高 | 中 | 中 |
未来研究方向
1. 高效高分辨率处理
当前挑战:
- 二次复杂度在超高分辨率下仍高
- 局部-全局平衡困难
潜在方向:
- 动态分辨率适应
- 层次化局部+全局建模
2. 多模态统一架构
当前问题:
- 语言SSM和视觉SSM发展不同步
- 缺乏统一的多模态SSM
潜在方向:
- 共享SSM骨干的多模态模型
- 跨模态注意力-SSM融合
3. 更深理论理解
待解决问题:
- SSM在视觉中的表达能力上界
- 与Transformer的理论对比
- 训练动态的理论分析
4. 硬件协同设计
优化方向:
- 专用CUDA核优化
- 移动端部署
- 神经形态芯片适配
总结
核心洞见
-
视觉SSM已经成熟:在分类、检测、分割任务上达到或超越ViT水平
-
混合是趋势:纯SSM难以在所有任务上超越混合架构
-
效率是优势:相比Transformer,SSM在高分辨率和长序列上效率显著更高
-
理论需完善:相比实践进展,理论理解仍落后
选型建议
| 场景 | 推荐架构 | 理由 |
|---|---|---|
| 高分辨率密集预测 | Mamba2D | Wavefront并行,高效 |
| 分类+检测+分割 | MambaVision | 混合优势,全任务SOTA |
| 资源受限 | GroupMamba | 最高参数效率 |
| 长序列语言 | SAMBA/Hymba | 专门优化 |