多模态推理与规划索引

1. 内容概览

本专题系统梳理了多模态大型语言模型在推理与规划领域的前沿进展,涵盖以下核心主题:

主题文档核心内容
多模态思维链multimodal-chain-of-thought-surveyMCoT 定义、分类体系、关键方法
视觉规划visual-planning-paradigmVisual-Only Planning、Think-Act 架构
空间推理spatial-reasoning-llmSpatialLLM、3D 空间理解
具身规划embodied-multimodal-planningEMAC+、EGOPLAN、闭环控制
评估基准multimodal-reasoning-benchmarksMMMU、MathVista、Video-MME 等

2. 核心概念速查

2.1 多模态思维链 (MCoT)

定义:在推理过程中同时利用视觉和文本信息进行逐步推理。

形式化

分类

  • 顺序推理、树状推理、图状推理
  • 文本优先型、交错型、视觉优先型

2.2 视觉规划

核心思想:让模型仅通过图像进行思考,而非依赖文本中间表示。

架构

  1. Think 阶段
  2. Act 阶段

优势

  • 保留完整视觉信息
  • 减少语言幻觉
  • 提高空间推理精度

2.3 空间推理

SpatialLLM 两阶段训练

  1. 空间坐标注入:
  2. 空间语言对齐:

空间推理类型

类型描述示例
拓扑关系连通性”A 在 B 内部”
度量关系精确距离”A 距离 B 2米”
投影关系视角变化”从前面看 A 在左边”
动态关系空间变换”A 向 B 方向移动”

2.4 具身规划

EGOPLAN 三层框架

  1. 目标层 :高层指令分解
  2. 任务层 :子目标映射到任务序列
  3. 动作层 :任务分解为基本动作

闭环控制

3. 评估基准速查

基准领域规模关键指标最高性能
MMMU通用11.5K准确率82.9% (o3)
MMMU-Pro真实多模态8K视觉依赖74.1% (o3)
MathVista数学6.1K准确率86.8% (o3)
Video-MME视频1.3K时序理解待更新
OmniSpatial空间8K空间准确率82.1%

4. 学习路径

4.1 入门路径(1-2天)

  1. 多模态思维链基础

  2. 评估基准入门

4.2 进阶路径(3-5天)

  1. 视觉规划深入

  2. 空间推理深入

  3. 具身规划深入

4.3 专业路径(1-2周)

  1. 阅读原论文

    • SpatialLLM (CVPR 2025)
    • EGOPLAN (ICLR 2026)
    • ThinkAct (ICLR 2026)
  2. 深入特定方向

    • 选择感兴趣的方向深入研究
    • 关注最新 arXiv 论文
  3. 实践项目

    • 在特定任务上复现和改进方法
    • 探索新方向

5. 主题关联图

┌─────────────────────────────────────────────────────────────┐
│                    多模态推理与规划                          │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   ┌─────────────────┐                                      │
│   │  多模态思维链    │◄──────┐                             │
│   │ (MCoT Survey)   │       │                             │
│   └────────┬────────┘       │                             │
│            │                │                             │
│            ▼                │                             │
│   ┌─────────────────┐      │                             │
│   │    视觉规划      │──────┤                             │
│   │ (Visual-Only)   │      │                             │
│   └────────┬────────┘      │                             │
│            │                │                             │
│            ▼                ▼                             │
│   ┌─────────────────┐ ┌──────────────┐                  │
│   │    空间推理      │ │   评估基准   │                  │
│   │ (SpatialLLM)    │ │ (Benchmarks) │                  │
│   └────────┬────────┘ └──────────────┘                  │
│            │                                             │
│            ▼                                             │
│   ┌─────────────────┐                                    │
│   │    具身规划      │                                    │
│   │  (EMAC+/EGOPLAN)│                                    │
│   └─────────────────┘                                    │
│                                                             │
└─────────────────────────────────────────────────────────────┘

6. 核心公式汇总

6.1 多模态思维链

6.2 视觉思考

6.3 空间坐标注入

6.4 具身规划损失

7. 相关专题链接

7.1 基础专题

7.2 进阶专题

7.3 应用专题

8. 参考文献


本专题最后更新于 2026-05-17