多模态推理评估基准
1. 概述
多模态推理评估基准是衡量多模态大型语言模型(MLLM)能力的重要工具。本专题系统梳理当前主流的评估基准,分析其设计特点、评估维度和模型表现。
2. 基准分类体系
2.1 按评估领域分类
| 类别 | 代表基准 | 评估重点 |
|---|---|---|
| 通用理解 | MMMU, MME | 多学科知识与推理 |
| 数学推理 | MathVista, MMMU-Math | 视觉数学问题求解 |
| 空间推理 | OmniSpatial, Spatial-DISE | 3D空间关系理解 |
| 视频理解 | Video-MME, MINERVA | 时序推理能力 |
| 具身智能 | ALFRED, BEHAVIOR | 动作规划能力 |
2.2 评估维度
| 维度 | 描述 |
|---|---|
| 准确性 | 答案正确率 |
| 推理链 | 中间步骤的合理性 |
| 可解释性 | 推理过程的透明性 |
| 鲁棒性 | 对扰动的抵抗能力 |
3. MMMU 系列
3.1 MMMU (CVPR 2024)
全称:Massive Multidisciplinary Multimodal Understanding
规模:11,500+ 大学水平问题
3.1.1 数据构成
| 学科类别 | 问题数量 | 占比 |
|---|---|---|
| 艺术与设计 | 1,200 | 10.4% |
| 商业 | 2,500 | 21.7% |
| 科学 | 3,000 | 26.1% |
| 健康与医学 | 2,000 | 17.4% |
| 人文与社会科学 | 1,800 | 15.7% |
| 其他 | 1,000 | 8.7% |
3.1.2 问题类型
- 视觉问答:需要理解图像内容回答问题
- 图表分析:从图表中提取信息进行推理
- 多图像比较:跨图像的综合分析
- 学科应用:将学科知识应用于实际问题
3.1.3 评估结果
| 模型 | 准确率 |
|---|---|
| GPT-4V | 69.1% |
| Claude 3 Opus | 68.3% |
| Gemini 1.5 Pro | 71.2% |
| OpenAI o3 | 82.9% |
3.2 MMMU-Pro (ACL 2025)
改进重点:解决文本泄漏问题
3.2.1 构建方法
- 问题筛选:移除可通过纯文本回答的问题
- 选项增强:确保所有选项都需要图像信息
- 视觉排他性:验证问题确实依赖视觉信息
3.2.2 三步过滤流程
原始问题 → Step 1: 文本可答性检测 → Step 2: 选项增强 → Step 3: 视觉验证
3.2.3 性能对比
| 模型 | MMMU | MMMU-Pro | 下降幅度 |
|---|---|---|---|
| GPT-4V | 69.1% | 51.3% | -17.8% |
| Claude 3 | 68.3% | 48.7% | -19.6% |
| Gemini 1.5 | 71.2% | 52.4% | -18.8% |
| OpenAI o3 | 82.9% | 74.1% | -8.8% |
关键发现:顶级模型的视觉依赖度更真实。
4. MathVista:数学视觉推理
4.1 概述 (ICLR 2024 Oral)
规模:6,141 个数学视觉问题
特点:结合视觉理解与数学问题求解
4.2 问题类型分类
| 类型 | 描述 | 示例 |
|---|---|---|
| 几何计算 | 几何图形面积、周长等 | 计算三角形面积 |
| 图表分析 | 从图表中提取数据 | 读取柱状图数据 |
| 代数推理 | 含视觉元素的代数问题 | 方程中的图形表示 |
| 统计分析 | 视觉化的统计问题 | 读懂箱线图 |
| 数论 | 含视觉表示的数论 | 图形化计数 |
4.3 MathVista-COT 数据集
在 MathVista 基础上添加了链式思维标注:
# MathVista-COT 示例
{
"question_id": "mv_001",
"image": "path/to/image.png",
"question": "图中圆的面积是多少?",
"options": ["12.56", "25.12", "50.24", "100.48"],
"answer": "50.24",
"reasoning_chain": [
"观察图像,圆的半径为4厘米",
"面积公式为 πr²",
"代入 r=4: π × 4² = π × 16 ≈ 50.24"
],
"difficulty": "medium",
"subject": "geometry"
}4.4 评估结果
| 模型 | 原生 | + PoT | + CoT | 最高 |
|---|---|---|---|---|
| GPT-4V | 49.9% | 52.3% | 51.8% | 52.3% |
| Gemini 1.5 | 53.2% | 55.1% | 54.6% | 55.1% |
| LLaVA-1.6 | 38.7% | 40.2% | 39.5% | 40.2% |
| OpenAI o3 | 86.8% | - | - | 86.8% |
5. 视频推理基准
5.1 Video-MME (CVPR 2025)
特点:首个综合视频分析基准
5.1.1 数据构成
| 视频类型 | 数量 | 时长范围 |
|---|---|---|
| 纪录类 | 300 | 5-30分钟 |
| 体育类 | 250 | 1-10分钟 |
| 电影片段 | 200 | 2-15分钟 |
| 日常活动 | 400 | 1-5分钟 |
| 航拍视频 | 150 | 30秒-5分钟 |
5.1.2 评估维度
- 时序理解:事件顺序、因果关系
- 多模态整合:视频+字幕+音频
- 长期依赖:跨越长时间的关系
- 动作识别:精细动作理解
5.2 MINERVA (ICCV 2025)
特点:关注推理过程的中间步骤
5.2.1 与普通基准的区别
| 方面 | 普通基准 | MINERVA |
|---|---|---|
| 输出 | 仅答案 | 答案 + 推理链 |
| 评估 | 正确性 | 正确性 + 推理质量 |
| 可解释性 | 低 | 高 |
5.2.2 推理质量评分
其中:
- :步骤间的连贯性
- :推理链的完整性
5.3 VRBench
焦点:叙事视频的多步推理
特点:
- 长视频理解(平均 20 分钟)
- 因果推理
- 事件预测
6. 空间推理基准
6.1 OmniSpatial (2025)
规模:8,000+ 空间推理问题
6.1.1 评估类型
| 类型 | 问题数量 | 描述 |
|---|---|---|
| 拓扑关系 | 2,500 | 包含、接触、分离 |
| 度量关系 | 2,000 | 距离、大小、角度 |
| 投影关系 | 1,500 | 不同视角的空间关系 |
| 动态关系 | 2,000 | 运动中的空间变换 |
6.2 Spatial-DISE (2025)
特点:统一的多类型空间推理基准
6.2.1 任务类型
{
"task_types": [
"spatial_relation_prediction", # 预测空间关系
"spatial_localization", # 定位空间位置
"spatial_transformation", # 空间变换推理
"spatial_reasoning_chain" # 空间推理链
]
}6.3 Spatial457 (2025)
焦点:6D 空间推理(3D位置 + 3D方向)
应用场景:机器人操作、自动驾驶
6.4 性能对比
| 模型 | OmniSpatial | Spatial-DISE | Spatial457 |
|---|---|---|---|
| GPT-4V | 52.3% | 48.7% | 35.2% |
| Gemini 1.5 | 58.1% | 54.4% | 42.8% |
| SpatialLLM | 78.5% | 72.3% | 68.4% |
7. 通用多模态基准
7.1 MME (Multimodal Evaluation)
规模:12 个子任务,2,400 个问题
7.1.1 子任务分类
| 类别 | 子任务 | 示例 |
|---|---|---|
| 感知 | 物体识别、计数 | ”图中有什么?“ |
| 推理 | 因果推理、逻辑 | ”为什么发生?“ |
| 空间 | 位置、大小 | ”A在B的什么方向?“ |
| 文本 | OCR、文档理解 | ”图片中的文字是什么?“ |
7.2 MEGA-Bench (ICLR 2025)
规模:505 个多模态任务
特点:
- 任务多样性最高
- 数据来源广泛
- 支持自动评估
8. 评估方法论
8.1 评估流程
class MultimodalBenchmark:
def __init__(self, model, benchmark_name):
self.model = model
self.benchmark = self.load_benchmark(benchmark_name)
def evaluate(self):
results = {
'accuracy': [],
'reasoning_quality': [],
'error_analysis': []
}
for item in self.benchmark:
# 生成回答
response = self.model.generate(
image=item['image'],
question=item['question']
)
# 评估准确性
is_correct = self.check_answer(response, item['answer'])
results['accuracy'].append(is_correct)
# 评估推理质量
if 'reasoning_chain' in item:
reasoning_score = self.evaluate_reasoning(
response.reasoning,
item['reasoning_chain']
)
results['reasoning_quality'].append(reasoning_score)
# 错误分析
if not is_correct:
results['error_analysis'].append({
'question': item['question'],
'model_answer': response.answer,
'correct_answer': item['answer'],
'error_type': self.classify_error(response)
})
return self.aggregate_results(results)8.2 评估指标体系
| 指标 | 描述 | 适用范围 |
|---|---|---|
| Accuracy | 答案正确率 | 所有基准 |
| Reasoning Accuracy | 推理链正确性 | 含标注的基准 |
| Step Coherence | 步骤连贯性 | CoT 基准 |
| Robustness Score | 鲁棒性评分 | 对抗基准 |
| Efficiency | 计算效率 | 实际应用 |
9. 基准发展趋势
9.1 当前趋势
- 真实性评估:排除文本泄漏,确保真正测试多模态能力
- 推理链评估:不仅评估答案,还评估推理过程
- 长上下文:视频、文档等长内容理解
- 专家级问题:大学水平、领域专业知识
9.2 未来方向
- 动态评估:根据模型能力自适应调整难度
- 交互式评估:多轮对话式评估
- 跨模态一致性:确保跨模态信息一致
- 实时评估:在线学习和持续评估
10. 模型选择指南
10.1 按任务类型选择
| 任务 | 推荐模型 | 原因 |
|---|---|---|
| 数学推理 | OpenAI o3 | 链式推理能力强 |
| 空间推理 | SpatialLLM | 专用空间表示 |
| 视频理解 | Gemini 1.5 | 长上下文支持 |
| 通用理解 | Claude 3.5 | 平衡能力强 |
10.2 按场景选择
| 场景 | 推荐基准 | 关键指标 |
|---|---|---|
| 研究评估 | MMMU-Pro | 真实性 |
| 数学能力 | MathVista | 数学正确率 |
| 空间应用 | OmniSpatial | 空间准确性 |
| 视频应用 | Video-MME | 时序理解 |