多模态推理评估基准

1. 概述

多模态推理评估基准是衡量多模态大型语言模型(MLLM)能力的重要工具。本专题系统梳理当前主流的评估基准,分析其设计特点、评估维度和模型表现。

2. 基准分类体系

2.1 按评估领域分类

类别代表基准评估重点
通用理解MMMU, MME多学科知识与推理
数学推理MathVista, MMMU-Math视觉数学问题求解
空间推理OmniSpatial, Spatial-DISE3D空间关系理解
视频理解Video-MME, MINERVA时序推理能力
具身智能ALFRED, BEHAVIOR动作规划能力

2.2 评估维度

维度描述
准确性答案正确率
推理链中间步骤的合理性
可解释性推理过程的透明性
鲁棒性对扰动的抵抗能力

3. MMMU 系列

3.1 MMMU (CVPR 2024)

全称:Massive Multidisciplinary Multimodal Understanding

规模:11,500+ 大学水平问题

3.1.1 数据构成

学科类别问题数量占比
艺术与设计1,20010.4%
商业2,50021.7%
科学3,00026.1%
健康与医学2,00017.4%
人文与社会科学1,80015.7%
其他1,0008.7%

3.1.2 问题类型

  1. 视觉问答:需要理解图像内容回答问题
  2. 图表分析:从图表中提取信息进行推理
  3. 多图像比较:跨图像的综合分析
  4. 学科应用:将学科知识应用于实际问题

3.1.3 评估结果

模型准确率
GPT-4V69.1%
Claude 3 Opus68.3%
Gemini 1.5 Pro71.2%
OpenAI o382.9%

3.2 MMMU-Pro (ACL 2025)

改进重点:解决文本泄漏问题

3.2.1 构建方法

  1. 问题筛选:移除可通过纯文本回答的问题
  2. 选项增强:确保所有选项都需要图像信息
  3. 视觉排他性:验证问题确实依赖视觉信息

3.2.2 三步过滤流程

原始问题 → Step 1: 文本可答性检测 → Step 2: 选项增强 → Step 3: 视觉验证

3.2.3 性能对比

模型MMMUMMMU-Pro下降幅度
GPT-4V69.1%51.3%-17.8%
Claude 368.3%48.7%-19.6%
Gemini 1.571.2%52.4%-18.8%
OpenAI o382.9%74.1%-8.8%

关键发现:顶级模型的视觉依赖度更真实。

4. MathVista:数学视觉推理

4.1 概述 (ICLR 2024 Oral)

规模:6,141 个数学视觉问题

特点:结合视觉理解与数学问题求解

4.2 问题类型分类

类型描述示例
几何计算几何图形面积、周长等计算三角形面积
图表分析从图表中提取数据读取柱状图数据
代数推理含视觉元素的代数问题方程中的图形表示
统计分析视觉化的统计问题读懂箱线图
数论含视觉表示的数论图形化计数

4.3 MathVista-COT 数据集

在 MathVista 基础上添加了链式思维标注:

# MathVista-COT 示例
{
    "question_id": "mv_001",
    "image": "path/to/image.png",
    "question": "图中圆的面积是多少?",
    "options": ["12.56", "25.12", "50.24", "100.48"],
    "answer": "50.24",
    "reasoning_chain": [
        "观察图像,圆的半径为4厘米",
        "面积公式为 πr²",
        "代入 r=4: π × 4² = π × 16 ≈ 50.24"
    ],
    "difficulty": "medium",
    "subject": "geometry"
}

4.4 评估结果

模型原生+ PoT+ CoT最高
GPT-4V49.9%52.3%51.8%52.3%
Gemini 1.553.2%55.1%54.6%55.1%
LLaVA-1.638.7%40.2%39.5%40.2%
OpenAI o386.8%--86.8%

5. 视频推理基准

5.1 Video-MME (CVPR 2025)

特点:首个综合视频分析基准

5.1.1 数据构成

视频类型数量时长范围
纪录类3005-30分钟
体育类2501-10分钟
电影片段2002-15分钟
日常活动4001-5分钟
航拍视频15030秒-5分钟

5.1.2 评估维度

  1. 时序理解:事件顺序、因果关系
  2. 多模态整合:视频+字幕+音频
  3. 长期依赖:跨越长时间的关系
  4. 动作识别:精细动作理解

5.2 MINERVA (ICCV 2025)

特点:关注推理过程的中间步骤

5.2.1 与普通基准的区别

方面普通基准MINERVA
输出仅答案答案 + 推理链
评估正确性正确性 + 推理质量
可解释性

5.2.2 推理质量评分

其中:

  • :步骤间的连贯性
  • :推理链的完整性

5.3 VRBench

焦点:叙事视频的多步推理

特点

  • 长视频理解(平均 20 分钟)
  • 因果推理
  • 事件预测

6. 空间推理基准

6.1 OmniSpatial (2025)

规模:8,000+ 空间推理问题

6.1.1 评估类型

类型问题数量描述
拓扑关系2,500包含、接触、分离
度量关系2,000距离、大小、角度
投影关系1,500不同视角的空间关系
动态关系2,000运动中的空间变换

6.2 Spatial-DISE (2025)

特点:统一的多类型空间推理基准

6.2.1 任务类型

{
    "task_types": [
        "spatial_relation_prediction",  # 预测空间关系
        "spatial_localization",         # 定位空间位置
        "spatial_transformation",        # 空间变换推理
        "spatial_reasoning_chain"        # 空间推理链
    ]
}

6.3 Spatial457 (2025)

焦点:6D 空间推理(3D位置 + 3D方向)

应用场景:机器人操作、自动驾驶

6.4 性能对比

模型OmniSpatialSpatial-DISESpatial457
GPT-4V52.3%48.7%35.2%
Gemini 1.558.1%54.4%42.8%
SpatialLLM78.5%72.3%68.4%

7. 通用多模态基准

7.1 MME (Multimodal Evaluation)

规模:12 个子任务,2,400 个问题

7.1.1 子任务分类

类别子任务示例
感知物体识别、计数”图中有什么?“
推理因果推理、逻辑”为什么发生?“
空间位置、大小”A在B的什么方向?“
文本OCR、文档理解”图片中的文字是什么?“

7.2 MEGA-Bench (ICLR 2025)

规模:505 个多模态任务

特点

  • 任务多样性最高
  • 数据来源广泛
  • 支持自动评估

8. 评估方法论

8.1 评估流程

class MultimodalBenchmark:
    def __init__(self, model, benchmark_name):
        self.model = model
        self.benchmark = self.load_benchmark(benchmark_name)
    
    def evaluate(self):
        results = {
            'accuracy': [],
            'reasoning_quality': [],
            'error_analysis': []
        }
        
        for item in self.benchmark:
            # 生成回答
            response = self.model.generate(
                image=item['image'],
                question=item['question']
            )
            
            # 评估准确性
            is_correct = self.check_answer(response, item['answer'])
            results['accuracy'].append(is_correct)
            
            # 评估推理质量
            if 'reasoning_chain' in item:
                reasoning_score = self.evaluate_reasoning(
                    response.reasoning,
                    item['reasoning_chain']
                )
                results['reasoning_quality'].append(reasoning_score)
            
            # 错误分析
            if not is_correct:
                results['error_analysis'].append({
                    'question': item['question'],
                    'model_answer': response.answer,
                    'correct_answer': item['answer'],
                    'error_type': self.classify_error(response)
                })
        
        return self.aggregate_results(results)

8.2 评估指标体系

指标描述适用范围
Accuracy答案正确率所有基准
Reasoning Accuracy推理链正确性含标注的基准
Step Coherence步骤连贯性CoT 基准
Robustness Score鲁棒性评分对抗基准
Efficiency计算效率实际应用

9. 基准发展趋势

9.1 当前趋势

  1. 真实性评估:排除文本泄漏,确保真正测试多模态能力
  2. 推理链评估:不仅评估答案,还评估推理过程
  3. 长上下文:视频、文档等长内容理解
  4. 专家级问题:大学水平、领域专业知识

9.2 未来方向

  1. 动态评估:根据模型能力自适应调整难度
  2. 交互式评估:多轮对话式评估
  3. 跨模态一致性:确保跨模态信息一致
  4. 实时评估:在线学习和持续评估

10. 模型选择指南

10.1 按任务类型选择

任务推荐模型原因
数学推理OpenAI o3链式推理能力强
空间推理SpatialLLM专用空间表示
视频理解Gemini 1.5长上下文支持
通用理解Claude 3.5平衡能力强

10.2 按场景选择

场景推荐基准关键指标
研究评估MMMU-Pro真实性
数学能力MathVista数学正确率
空间应用OmniSpatial空间准确性
视频应用Video-MME时序理解

11. 参考文献