多模态推理评估基准

1. 概述

多模态推理评估基准是衡量多模态大型语言模型（MLLM）能力的重要工具。本专题系统梳理当前主流的评估基准，分析其设计特点、评估维度和模型表现。

2. 基准分类体系

2.1 按评估领域分类

类别	代表基准	评估重点
通用理解	MMMU, MME	多学科知识与推理
数学推理	MathVista, MMMU-Math	视觉数学问题求解
空间推理	OmniSpatial, Spatial-DISE	3D空间关系理解
视频理解	Video-MME, MINERVA	时序推理能力
具身智能	ALFRED, BEHAVIOR	动作规划能力

2.2 评估维度

维度	描述
准确性	答案正确率
推理链	中间步骤的合理性
可解释性	推理过程的透明性
鲁棒性	对扰动的抵抗能力

3. MMMU 系列

3.1 MMMU (CVPR 2024)

全称：Massive Multidisciplinary Multimodal Understanding

规模：11,500+ 大学水平问题

3.1.1 数据构成

学科类别	问题数量	占比
艺术与设计	1,200	10.4%
商业	2,500	21.7%
科学	3,000	26.1%
健康与医学	2,000	17.4%
人文与社会科学	1,800	15.7%
其他	1,000	8.7%

3.1.2 问题类型

视觉问答：需要理解图像内容回答问题
图表分析：从图表中提取信息进行推理
多图像比较：跨图像的综合分析
学科应用：将学科知识应用于实际问题

3.1.3 评估结果

模型	准确率
GPT-4V	69.1%
Claude 3 Opus	68.3%
Gemini 1.5 Pro	71.2%
OpenAI o3	82.9%

3.2 MMMU-Pro (ACL 2025)

改进重点：解决文本泄漏问题

3.2.1 构建方法

问题筛选：移除可通过纯文本回答的问题
选项增强：确保所有选项都需要图像信息
视觉排他性：验证问题确实依赖视觉信息

3.2.2 三步过滤流程

原始问题 → Step 1: 文本可答性检测 → Step 2: 选项增强 → Step 3: 视觉验证

3.2.3 性能对比

模型	MMMU	MMMU-Pro	下降幅度
GPT-4V	69.1%	51.3%	-17.8%
Claude 3	68.3%	48.7%	-19.6%
Gemini 1.5	71.2%	52.4%	-18.8%
OpenAI o3	82.9%	74.1%	-8.8%

关键发现：顶级模型的视觉依赖度更真实。

4. MathVista：数学视觉推理

4.1 概述 (ICLR 2024 Oral)

规模：6,141 个数学视觉问题

特点：结合视觉理解与数学问题求解

4.2 问题类型分类

类型	描述	示例
几何计算	几何图形面积、周长等	计算三角形面积
图表分析	从图表中提取数据	读取柱状图数据
代数推理	含视觉元素的代数问题	方程中的图形表示
统计分析	视觉化的统计问题	读懂箱线图
数论	含视觉表示的数论	图形化计数

4.3 MathVista-COT 数据集

在 MathVista 基础上添加了链式思维标注：

# MathVista-COT 示例
{
    "question_id": "mv_001",
    "image": "path/to/image.png",
    "question": "图中圆的面积是多少？",
    "options": ["12.56", "25.12", "50.24", "100.48"],
    "answer": "50.24",
    "reasoning_chain": [
        "观察图像，圆的半径为4厘米",
        "面积公式为 πr²",
        "代入 r=4: π × 4² = π × 16 ≈ 50.24"
    ],
    "difficulty": "medium",
    "subject": "geometry"
}

4.4 评估结果

模型	原生	+ PoT	+ CoT	最高
GPT-4V	49.9%	52.3%	51.8%	52.3%
Gemini 1.5	53.2%	55.1%	54.6%	55.1%
LLaVA-1.6	38.7%	40.2%	39.5%	40.2%
OpenAI o3	86.8%	-	-	86.8%

5. 视频推理基准

5.1 Video-MME (CVPR 2025)

特点：首个综合视频分析基准

5.1.1 数据构成

视频类型	数量	时长范围
纪录类	300	5-30分钟
体育类	250	1-10分钟
电影片段	200	2-15分钟
日常活动	400	1-5分钟
航拍视频	150	30秒-5分钟

5.1.2 评估维度

时序理解：事件顺序、因果关系
多模态整合：视频+字幕+音频
长期依赖：跨越长时间的关系
动作识别：精细动作理解

5.2 MINERVA (ICCV 2025)

特点：关注推理过程的中间步骤

5.2.1 与普通基准的区别

方面	普通基准	MINERVA
输出	仅答案	答案 + 推理链
评估	正确性	正确性 + 推理质量
可解释性	低	高

5.2.2 推理质量评分

Score_{reasoning} = α \cdot Accuracy + β \cdot Cohension + γ \cdot Completeness

其中：

$Cohension$ ：步骤间的连贯性
$Completeness$ ：推理链的完整性

5.3 VRBench

焦点：叙事视频的多步推理

特点：

长视频理解（平均 20 分钟）
因果推理
事件预测

6. 空间推理基准

6.1 OmniSpatial (2025)

规模：8,000+ 空间推理问题

6.1.1 评估类型

类型	问题数量	描述
拓扑关系	2,500	包含、接触、分离
度量关系	2,000	距离、大小、角度
投影关系	1,500	不同视角的空间关系
动态关系	2,000	运动中的空间变换

6.2 Spatial-DISE (2025)

特点：统一的多类型空间推理基准

6.2.1 任务类型

{
    "task_types": [
        "spatial_relation_prediction",  # 预测空间关系
        "spatial_localization",         # 定位空间位置
        "spatial_transformation",        # 空间变换推理
        "spatial_reasoning_chain"        # 空间推理链
    ]
}

6.3 Spatial457 (2025)

焦点：6D 空间推理（3D位置 + 3D方向）

应用场景：机器人操作、自动驾驶

6.4 性能对比

模型	OmniSpatial	Spatial-DISE	Spatial457
GPT-4V	52.3%	48.7%	35.2%
Gemini 1.5	58.1%	54.4%	42.8%
SpatialLLM	78.5%	72.3%	68.4%

7. 通用多模态基准

7.1 MME (Multimodal Evaluation)

规模：12 个子任务，2,400 个问题

7.1.1 子任务分类

类别	子任务	示例
感知	物体识别、计数	”图中有什么？“
推理	因果推理、逻辑	”为什么发生？“
空间	位置、大小	”A在B的什么方向？“
文本	OCR、文档理解	”图片中的文字是什么？“

7.2 MEGA-Bench (ICLR 2025)

规模：505 个多模态任务

特点：

任务多样性最高
数据来源广泛
支持自动评估

8. 评估方法论

8.1 评估流程

class MultimodalBenchmark:
    def __init__(self, model, benchmark_name):
        self.model = model
        self.benchmark = self.load_benchmark(benchmark_name)
    
    def evaluate(self):
        results = {
            'accuracy': [],
            'reasoning_quality': [],
            'error_analysis': []
        }
        
        for item in self.benchmark:
            # 生成回答
            response = self.model.generate(
                image=item['image'],
                question=item['question']
            )
            
            # 评估准确性
            is_correct = self.check_answer(response, item['answer'])
            results['accuracy'].append(is_correct)
            
            # 评估推理质量
            if 'reasoning_chain' in item:
                reasoning_score = self.evaluate_reasoning(
                    response.reasoning,
                    item['reasoning_chain']
                )
                results['reasoning_quality'].append(reasoning_score)
            
            # 错误分析
            if not is_correct:
                results['error_analysis'].append({
                    'question': item['question'],
                    'model_answer': response.answer,
                    'correct_answer': item['answer'],
                    'error_type': self.classify_error(response)
                })
        
        return self.aggregate_results(results)

8.2 评估指标体系

指标	描述	适用范围
Accuracy	答案正确率	所有基准
Reasoning Accuracy	推理链正确性	含标注的基准
Step Coherence	步骤连贯性	CoT 基准
Robustness Score	鲁棒性评分	对抗基准
Efficiency	计算效率	实际应用

9. 基准发展趋势

9.1 当前趋势

真实性评估：排除文本泄漏，确保真正测试多模态能力
推理链评估：不仅评估答案，还评估推理过程
长上下文：视频、文档等长内容理解
专家级问题：大学水平、领域专业知识

9.2 未来方向

动态评估：根据模型能力自适应调整难度
交互式评估：多轮对话式评估
跨模态一致性：确保跨模态信息一致
实时评估：在线学习和持续评估

10. 模型选择指南

10.1 按任务类型选择

任务	推荐模型	原因
数学推理	OpenAI o3	链式推理能力强
空间推理	SpatialLLM	专用空间表示
视频理解	Gemini 1.5	长上下文支持
通用理解	Claude 3.5	平衡能力强

10.2 按场景选择

场景	推荐基准	关键指标
研究评估	MMMU-Pro	真实性
数学能力	MathVista	数学正确率
空间应用	OmniSpatial	空间准确性
视频应用	Video-MME	时序理解

Metaphor

探索

多模态推理评估基准

多模态推理评估基准

1. 概述

2. 基准分类体系

2.1 按评估领域分类

2.2 评估维度

3. MMMU 系列

3.1 MMMU (CVPR 2024)

3.1.1 数据构成

3.1.2 问题类型

3.1.3 评估结果

3.2 MMMU-Pro (ACL 2025)

3.2.1 构建方法

3.2.2 三步过滤流程

3.2.3 性能对比

4. MathVista：数学视觉推理

4.1 概述 (ICLR 2024 Oral)

4.2 问题类型分类

4.3 MathVista-COT 数据集

4.4 评估结果

5. 视频推理基准

5.1 Video-MME (CVPR 2025)

5.1.1 数据构成

5.1.2 评估维度

5.2 MINERVA (ICCV 2025)

5.2.1 与普通基准的区别

5.2.2 推理质量评分

5.3 VRBench

6. 空间推理基准

6.1 OmniSpatial (2025)

6.1.1 评估类型

6.2 Spatial-DISE (2025)

6.2.1 任务类型

6.3 Spatial457 (2025)

6.4 性能对比

7. 通用多模态基准

7.1 MME (Multimodal Evaluation)

7.1.1 子任务分类

7.2 MEGA-Bench (ICLR 2025)

8. 评估方法论

8.1 评估流程

8.2 评估指标体系

9. 基准发展趋势

9.1 当前趋势

9.2 未来方向

10. 模型选择指南

10.1 按任务类型选择

10.2 按场景选择

11. 参考文献

关系图谱

目录

反向链接