概述

视觉状态空间模型(Vision State Space Models, Vision SSM)是近年来快速发展的新型视觉骨干架构,旨在将状态空间模型(SSM)的高效长程建模能力带入计算机视觉领域。

本综述系统梳理Vision SSM的:

  • 发展历程
  • 架构分类
  • 设计原则
  • 未来方向

发展历程

时间线

2024初 ──┬─ Vision Mamba (Vim)
         ├─ VMamba (十字扫描)
         │
2024中 ──┼─ MambaVision (混合架构)
         ├─ Mamba2D (原生2D)
         ├─ LocalMamba (局部窗口)
         │
2024末 ──┼─ GroupMamba (分组机制)
         ├─ Hybrid-Mamba (混合CNN)
         │
2025 ────┼─ SOTA: MambaVision-L (85.0%)
         ├─ SOTA: Mamba2D-B (85.3%)
         └─ 持续快速迭代中...

里程碑论文

年份模型关键创新影响
2024Vision Mamba首次将Mamba应用于视觉开创性工作
2024VMamba十字扫描策略解决方向问题
2024MambaVision混合Mamba-Transformer性能突破
2024Mamba2D原生2D推导理论完善
2025GroupMamba分组机制效率提升

架构分类

分类体系

Vision SSM
    │
    ├── 纯SSM架构
    │       ├── Vim (十字扫描)
    │       ├── VMamba (十字+交叉)
    │       └── Mamba2D (Wavefront)
    │
    ├── 混合SSM架构
    │       ├── MambaVision (CNN+SSM+Transformer)
    │       ├── Hybrid-Mamba (CNN+SSM)
    │       └── GroupMamba (分组+多方向)
    │
    └── 语言-视觉SSM
            └── SAMBA (语言模型)

1. 纯SSM架构

Vision Mamba (Vim)

核心设计:将图像展平为1D序列,应用Mamba的选择性扫描

# Vim扫描策略
# 图像 → 2D patches → 展平为1D → 十字扫描
#         ↓
#    [←][←][←][←]
#    [←][←][←][←]  水平: 从右向左
#    [←][←][←][←]
#         ↓
#    [↓][↓][↓][↓]
#    [↓][↓][↓][↓]  垂直: 从上到下
#    [↓][↓][↓][↓]

特点

  • 简单直接
  • 因果扫描可能导致信息损失
  • 适合分类等全局任务

VMamba

核心创新:引入交叉扫描(Cross-Scan),每个像素经过4个方向的处理

扫描路径

1. 左→右 → 右→左
2. 上→下 → 下→上
3. 对角线扫描
4. 交叉合并

优势

  • 非因果建模
  • 更好的空间覆盖
  • 适合密集预测任务

Mamba2D

核心创新:从第一性原理推导原生2D SSM

Wavefront并行扫描

t=0:  (0,0)
t=1:  (0,1) (1,0)
t=2:  (0,2) (1,1) (2,0)
t=3:  (1,2) (2,1)      ← 对角线并行
t=4:  (2,2)

优势

  • 原生2D建模
  • 高GPU利用率
  • 亚线性扩展

2. 混合SSM架构

MambaVision

设计理念:不同阶段使用不同模块

阶段模块理由
Stage 1-2CNN块局部特征提取,CNN归纳偏置有效
Stage 3-4混合Mamba+Transformer全局依赖建模

关键改进:对称分支设计

# MambaVision的并行分支
output = Gate(SSM_output) × Conv_output
# SSM: 压缩历史
# Conv: 保持空间
# Gate: 动态融合

GroupMamba

设计理念:借鉴分组卷积,参数高效

分组策略

通道C ──→ 4组 ──→ 独立扫描 ──→ CAM融合
           ↓
        [→][←][↓][↑]
         4个方向

优势

  • 26%参数减少
  • 多方向覆盖
  • 稳定训练(蒸馏)

3. 语言-视觉SSM对比

模型领域核心创新效率
SAMBA语言Mamba + 滑动窗口注意3.73×加速
Hymba语言同层并行混合头3.49×加速
Jamba语言层间交替1.5×加速

性能对比

ImageNet分类

架构模型参数量Top-1特点
Pure SSMMamba2D-B50M85.3%原生2D
MambaVision-B98M84.2%混合
Vim-S48M81.5%展平1D
VMamba-S50M82.6%十字扫描
HybridMambaVision-L228M85.0%CNN+SSM
GroupMamba-S49M83.3%分组
Pure ViTDeiT-III-S22M79.8%纯注意力
Swin-B88M83.0%窗口注意力

准确率-效率权衡

吞吐量 (img/s, A100) ↑
                       │
2000 ─┤                                    ● Mamba2D-Ti
      │                              ◆ VMamba-T
1500 ─┤                    ■ MambaVision-T ◆
      │              ◆    ◆          ■
1000 ─┤        ◆    ■   ■      ■
      │   ◆  ■  ◆  ■  ■  ◆  ■  ■
 500 ─┤◆  ■  ■  ■  ■  ■  ■  ■  ■   ■ Swin
      │  ■  ■  ■  ■  ■  ■  ■  ■
 100 ─┤  ■  ■  ■  ■  ■  ■  ■  ■
      └──────────────────────────────────→ Top-1 (%)
         78   80   82   84   86
         
      ◆ Pure SSM   ■ Hybrid SSM   ● CNN-baseline

下游任务性能

COCO目标检测

BackboneAP^b相对提升 vs Vim
Vim-S48.2-
VMamba-S50.1+4%
Mamba2D-B52.2+8%
MambaVision-B53.4+11%

ADE20K语义分割

BackbonemIoU相对提升 vs Vim
Vim-S45.8-
VMamba-S47.5+4%
Mamba2D-B51.7+13%
MambaVision-B50.1+9%

设计原则总结

1. 扫描策略原则

原则说明示例
多方向单一方向覆盖不足VMamba十字扫描
空间保持避免展平丢失结构Mamba2D原生2D
并行友好充分利用GPUWavefront扫描

2. 混合策略原则

原则说明示例
互补混合SSM+注意力各取所长MambaVision, Hymba
渐进混合不同阶段用不同模块Stage-wise混合
分组混合效率与覆盖平衡GroupMamba

3. 训练稳定性原则

问题解决方案模型
大模型不稳定蒸馏训练GroupMamba
梯度问题门控机制MambaVision
初始化敏感归一化融合Hymba

技术对比表

特性VimVMambaMamba2DMambaVisionGroupMamba
扫描方向24+444(分组)
2D原生
混合架构
并行策略行级行级Wavefront混合分组
参数量
训练稳定性
高分辨率效率

未来研究方向

1. 高效高分辨率处理

当前挑战:

  • 二次复杂度在超高分辨率下仍高
  • 局部-全局平衡困难

潜在方向:

  • 动态分辨率适应
  • 层次化局部+全局建模

2. 多模态统一架构

当前问题:

  • 语言SSM和视觉SSM发展不同步
  • 缺乏统一的多模态SSM

潜在方向:

  • 共享SSM骨干的多模态模型
  • 跨模态注意力-SSM融合

3. 更深理论理解

待解决问题:

  • SSM在视觉中的表达能力上界
  • 与Transformer的理论对比
  • 训练动态的理论分析

4. 硬件协同设计

优化方向:

  • 专用CUDA核优化
  • 移动端部署
  • 神经形态芯片适配

总结

核心洞见

  1. 视觉SSM已经成熟:在分类、检测、分割任务上达到或超越ViT水平

  2. 混合是趋势:纯SSM难以在所有任务上超越混合架构

  3. 效率是优势:相比Transformer,SSM在高分辨率和长序列上效率显著更高

  4. 理论需完善:相比实践进展,理论理解仍落后

选型建议

场景推荐架构理由
高分辨率密集预测Mamba2DWavefront并行,高效
分类+检测+分割MambaVision混合优势,全任务SOTA
资源受限GroupMamba最高参数效率
长序列语言SAMBA/Hymba专门优化

相关主题