多模态推理与规划索引
1. 内容概览
本专题系统梳理了多模态大型语言模型在推理与规划领域的前沿进展,涵盖以下核心主题:
| 主题 | 文档 | 核心内容 |
|---|---|---|
| 多模态思维链 | multimodal-chain-of-thought-survey | MCoT 定义、分类体系、关键方法 |
| 视觉规划 | visual-planning-paradigm | Visual-Only Planning、Think-Act 架构 |
| 空间推理 | spatial-reasoning-llm | SpatialLLM、3D 空间理解 |
| 具身规划 | embodied-multimodal-planning | EMAC+、EGOPLAN、闭环控制 |
| 评估基准 | multimodal-reasoning-benchmarks | MMMU、MathVista、Video-MME 等 |
2. 核心概念速查
2.1 多模态思维链 (MCoT)
定义:在推理过程中同时利用视觉和文本信息进行逐步推理。
形式化:
分类:
- 顺序推理、树状推理、图状推理
- 文本优先型、交错型、视觉优先型
2.2 视觉规划
核心思想:让模型仅通过图像进行思考,而非依赖文本中间表示。
架构:
- Think 阶段:
- Act 阶段:
优势:
- 保留完整视觉信息
- 减少语言幻觉
- 提高空间推理精度
2.3 空间推理
SpatialLLM 两阶段训练:
- 空间坐标注入:
- 空间语言对齐:
空间推理类型:
| 类型 | 描述 | 示例 |
|---|---|---|
| 拓扑关系 | 连通性 | ”A 在 B 内部” |
| 度量关系 | 精确距离 | ”A 距离 B 2米” |
| 投影关系 | 视角变化 | ”从前面看 A 在左边” |
| 动态关系 | 空间变换 | ”A 向 B 方向移动” |
2.4 具身规划
EGOPLAN 三层框架:
- 目标层 :高层指令分解
- 任务层 :子目标映射到任务序列
- 动作层 :任务分解为基本动作
闭环控制:
3. 评估基准速查
| 基准 | 领域 | 规模 | 关键指标 | 最高性能 |
|---|---|---|---|---|
| MMMU | 通用 | 11.5K | 准确率 | 82.9% (o3) |
| MMMU-Pro | 真实多模态 | 8K | 视觉依赖 | 74.1% (o3) |
| MathVista | 数学 | 6.1K | 准确率 | 86.8% (o3) |
| Video-MME | 视频 | 1.3K | 时序理解 | 待更新 |
| OmniSpatial | 空间 | 8K | 空间准确率 | 82.1% |
4. 学习路径
4.1 入门路径(1-2天)
-
多模态思维链基础
- 阅读:multimodal-chain-of-thought-survey 第一节和第二节
- 目标:理解 MCoT 的定义和基本分类
-
评估基准入门
- 阅读:multimodal-reasoning-benchmarks 第一、二节
- 目标:了解主流基准的设计特点
4.2 进阶路径(3-5天)
-
视觉规划深入
- 阅读:visual-planning-paradigm 全文
- 实践:复现 Think-Act 架构
-
空间推理深入
- 阅读:spatial-reasoning-llm 全文
- 目标:理解 2D-3D 映射机制
-
具身规划深入
- 阅读:embodied-multimodal-planning 全文
- 目标:掌握三层规划框架
4.3 专业路径(1-2周)
-
阅读原论文
- SpatialLLM (CVPR 2025)
- EGOPLAN (ICLR 2026)
- ThinkAct (ICLR 2026)
-
深入特定方向
- 选择感兴趣的方向深入研究
- 关注最新 arXiv 论文
-
实践项目
- 在特定任务上复现和改进方法
- 探索新方向
5. 主题关联图
┌─────────────────────────────────────────────────────────────┐
│ 多模态推理与规划 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────┐ │
│ │ 多模态思维链 │◄──────┐ │
│ │ (MCoT Survey) │ │ │
│ └────────┬────────┘ │ │
│ │ │ │
│ ▼ │ │
│ ┌─────────────────┐ │ │
│ │ 视觉规划 │──────┤ │
│ │ (Visual-Only) │ │ │
│ └────────┬────────┘ │ │
│ │ │ │
│ ▼ ▼ │
│ ┌─────────────────┐ ┌──────────────┐ │
│ │ 空间推理 │ │ 评估基准 │ │
│ │ (SpatialLLM) │ │ (Benchmarks) │ │
│ └────────┬────────┘ └──────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────┐ │
│ │ 具身规划 │ │
│ │ (EMAC+/EGOPLAN)│ │
│ └─────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
6. 核心公式汇总
6.1 多模态思维链
6.2 视觉思考
6.3 空间坐标注入
6.4 具身规划损失
7. 相关专题链接
7.1 基础专题
7.2 进阶专题
7.3 应用专题
8. 参考文献
本专题最后更新于 2026-05-17