多模态评估基准

多模态评估基准（Multimodal Evaluation Benchmarks）是衡量视觉-语言模型（Vision-Language Models, VLM）能力的重要工具。随着 GPT-4V、Gemini、Claude 等多模态大模型的快速发展，如何全面、客观、科学地评估这些模型的能力成为关键问题。¹ 与单模态评估不同，多模态评估需要同时考虑视觉感知、语言理解、跨模态对齐以及复杂推理等多维度的能力。

1. 评估框架概述

1.1 VLM评估的挑战

视觉-语言模型的评估面临多重挑战：

数据层面的挑战

挑战	描述	影响
答案多样性	开放式问题存在多种合理答案	自动评估困难
视觉 grounding	答案需准确定位到图像区域	需要细粒度标注
外部知识依赖	某些问题需要世界知识	知识边界模糊
语言歧义	自然语言固有的歧义性	评判标准难以统一

评估层面的挑战

# VLM评估的典型问题类型
question_types = {
    "perception": ["目标检测", "属性识别", "计数", "位置"],      # 低层感知
    "understanding": ["图像描述", "意图理解", "情感分析"],        # 语义理解
    "reasoning": ["逻辑推理", "数学推理", "因果推断"],           # 推理能力
    "generation": ["图像生成", "代码生成", "问答生成"]            # 生成能力
}

1.2 评估维度

一个全面的 VLM 评估体系应涵盖以下维度：

评估维度	核心能力	代表任务	典型指标
感知（Perception）	视觉元素识别	目标检测、属性识别、OCR	Accuracy
理解（Understanding）	语义信息提取	图像描述、VQA、图文匹配	CIDEr, BLEU
推理（Reasoning）	逻辑与知识推理	数学推理、外部知识问答	Accuracy
生成（Generation）	多模态内容生成	图像生成描述、区域描述	SPICE, CLIPScore

1.3 评估方法分类

根据评估方式的不同，VLM 评估方法可分为：

自动化评估

选择题评估：提供固定选项，计算准确率
指标评估：使用 BLEU、CIDEr、SPICE 等自动指标
CLIPScore：利用 CLIP 模型评估图文一致性

人工评估

人类偏好评分：众包平台收集人类评分
专家评估：领域专家进行质量评判
成对比较：A/B 测试比较两个模型

2. 通用VLM评估基准

2.1 MME: Multimodal Multimodal Evaluator

MME 是由 FuxiVLAB 提出的综合评估基准，是首个从感知和认知两个层面全面评估多模态大模型的项目。²

数据集规模

类别	子任务数	问题数量	评估方式
感知	12	3,632	选择题
认知	12	3,636	选择题
总计	24	7,268	-

评估维度

感知能力评估
├── 存在性判断 (Existence)
├── 计数 (Count)
├── 位置关系 (Position)
├── 颜色识别 (Color)
├── 海报识别 (Poster)
├── 物种识别 (Celebrity)
└── 场景识别 (Scene)

认知能力评估
├── 属性比较 (Attribute Comparison)
├── 动作识别 (Action Recognition)
├── 性别识别 (Gender Recognition)
├── 职业识别 (Occupation)
├── 常见物体识别 (Common Object)
├── 艺术作品识别 (Artwork)
└── 谬误检测 (Fallacy Reasoning)

评估指标

Accuracy = \frac{正确预测数}{总预测数} \times 100%

2.2 MMBench: 多维度评估基准

MMBench 是上海人工智能实验室提出的多维度视觉-语言模型评估基准，覆盖 20+ 评估维度。³

核心特点

细粒度分类：将能力划分为多个独立维度
选择题格式：所有问题均为选择题，便于自动化评估
** CircularEval**：引入 CircularEval 评估协议，防止数据泄露

评估维度分类

能力大类	具体维度	示例问题
感知	目标识别、属性识别、位置关系、场景理解	”图中有几只猫？“
推理	逻辑推理、因果推理、比较推理	”如果A成立，B会怎样？“
知识	科学知识、文化知识、专业知识	”这是什么历史事件？“
数学	算术运算、几何推理、数学图表	”计算图中矩形的面积”

2.3 SEED-Bench: 自动化评估问题

SEED-Bench 包含 18,000+ 个自动化评估问题，覆盖 18 个评估维度。⁴

问题生成流水线

# SEED-Bench 问题生成示意
class SEEDQuestionGenerator:
    def __init__(self, vlm):
        self.vlm = vlm
    
    def generate_questions(self, image, annotations):
        questions = []
        # 基于图像标注自动生成问题-答案对
        for annotation in annotations:
            if annotation.type == "object":
                q = f"图中有几个{annotation.label}？"
                a = str(annotation.count)
                questions.append({"question": q, "answer": a})
            elif annotation.type == "attribute":
                q = f"{annotation.object}是什么颜色的？"
                a = annotation.color
                questions.append({"question": q, "answer": a})
        return questions

2.4 LVLM-eHub: 综合评估框架

LVLM-eHub 提供多角度评估，包括能力评估和人类偏好评估。⁵

评估框架设计

评估类型	评估内容	方法
能力评估	6 大核心能力	自动化选择题
人类偏好	回答质量对比	众包打分
涌现能力	特殊能力检测	专项测试

2.5 Q-Bench 与 A-Bench

Q-Bench 评估模型的感知能力，A-Bench 评估模型的认知能力，两者形成互补。⁶

基准	关注点	问题类型	难度
Q-Bench	低层感知	客观题	基础
A-Bench	高级认知	主观/客观	进阶

3. 视觉问答（VQA）评估

视觉问答是多模态理解的核心任务，要求模型根据图像内容回答自然语言问题。

3.1 VQAv2: 通用VQA基准

VQAv2 是最大规模的通用视觉问答数据集，是 VQAv1 的扩展版本。⁷

数据集统计

统计项	数值
图像数量	123,287 + 125,436 (测试)
问题数量	658,111
答案词汇量	6,141
问题类型	开放式

问题类型分布

question_types = {
    "what": 39.6%,    # 物体、动作、场景
    "where": 4.4%,    # 位置
    "when": 1.8%,     # 时间
    "who": 6.7%,      # 人物
    "why": 5.5%,      # 原因
    "how": 8.9%       # 方式
}

3.2 GQA: 推理导向VQA

GQA（Visual Reasoning）专注于视觉推理能力评估，所有问题都经过均衡分布设计以避免偏差。⁸

核心特点

结构化图像表示：使用 Scene Graph 描述图像
问题均衡设计：每个问题类型均衡分布在测试集中
推理链标注：提供完整的推理步骤

GQA 的推理类型

推理类型	描述	示例
属性查询	询问对象属性	”那是什么颜色的？“
关系推理	询问对象间关系	”猫在垫子左边吗？“
逻辑推理	组合逻辑条件	”红色的比蓝色的多吗？“
比较推理	比较多个对象	”哪个物体更大？“

3.3 OK-VQA: 外部知识VQA

OK-VQA（Outside Knowledge VQA）要求模型利用外部世界知识来回答问题。⁹

知识类别分布

知识类别	占比	示例问题
品牌/公司	8.7%	“这个产品的公司总部在哪？“
烹饪/食物	12.3%	“这道菜需要什么调料？“
交通工具	7.8%	“这是什么类型的飞机？“
地理	11.2%	“这个国家使用什么货币？“
科学	13.5%	“这种植物的学名是什么？“

3.4 A-OKVQA: 多选VQA

A-OKVQA 是 OK-VQA 的扩展，采用多选题格式，包含 22,000+ 问题。¹⁰

与 OK-VQA 的对比

特性	OK-VQA	A-OKVQA
格式	开放式	多选题
答案来源	众包生成	特定关系类型
评估方式	准确率	Top-1 准确率
难度	较高	中等偏高

4. 图像描述评估

图像描述（Image Captioning）任务要求模型生成准确、流畅、丰富的图像文本描述。

4.1 COCO Captioning

COCO Caption 是图像描述领域最权威的评估基准。¹¹

数据集规模

数据集划分	图像数量
训练集	113,287
验证集	5,000
测试集	5,000

评估方式：每张图像 5 个人工描述，模型生成描述与人工描述比较

4.2 NoCaps

NoCaps 评估模型对未见过的视觉概念的描述能力。¹²

评估场景

场景类型	描述	难度
In-Domain (ID)	COCO 训练过的概念	低
Near-Domain (ND)	相似的视觉概念	中
Out-of-Domain (OOD)	完全新奇的视觉概念	高

4.3 描述质量评估指标

图像描述的质量评估需要综合考虑多个维度：

BLEU

BLEU（Bilingual Evaluation Understudy）通过计算 n-gram 精确度评估生成文本与参考文本的相似度。¹³

BLEU_{n} = BP \cdot exp (n = 1 \sum N w_{n} lo g p_{n})

其中 $p_{n}$ 是 n-gram 精确度，BP 是简短惩罚因子。

ROUGE-L

ROUGE-L 通过计算最长公共子序列（LCS）评估文本相似度：

ROUGE-L = \frac{LCS ( C , R )}{max ( ∣ C ∣ , ∣ R ∣ )}

其中 $C$ 是候选描述， $R$ 是参考描述。

CIDEr

CIDEr（Consensus-based Image Description Evaluation）使用 TF-IDF 加权的 n-gram 匹配。¹⁴

CIDEr_{n} = \frac{1}{m} j \sum \frac{g ^{n} ( c _{j} ) \cdot g ^{n} ( s )}{∥ g ^{n} ( c _{j} ) ∥∥ g ^{n} ( s ) ∥}

SPICE

SPICE（Semantic Propositional Image Caption Evaluation）通过场景图匹配评估语义等价性。¹⁵

SPICE = \frac{F ( c , s )}{T ( c ) + T ( s ) - F ( c , s )}

其中 $F$ 是场景图中匹配的对象/关系/属性数量， $T$ 是总数量。

评估指标对比

指标	关注点	优点	缺点
BLEU	n-gram 精确度	简单高效	不关注语义
ROUGE-L	语序连贯性	考虑顺序	语义覆盖不足
CIDEr	共识性	针对图像描述优化	需要多参考
SPICE	语义完整性	场景图评估	计算复杂

5. 文本丰富图像理解评估

现实世界中的图像包含大量文字信息，如文档、图表、海报、公式等。

5.1 TextVQA: 文本问答

TextVQA 专注于图像中文字信息的阅读和理解。¹⁶

任务定义

输入：图像 I，问题 Q
输出：基于图像中文字的回答 A

示例：
Q: "图中电话号码是什么？"
I: [含有电话号码的图像]
A: "400-123-4567"

数据集特点

统计项	数值
图像数量	28,408
问题数量	17,028
涉及词汇	4,000+

5.2 DocVQA: 文档理解

DocVQA 评估模型对文档图像的理解能力。¹⁷

文档类型

文档类型	占比	示例
商业文档	35%	发票、合同
表格文档	25%	财务报表
表单	20%	申请表
其他	20%	手写信件、笔记

评估指标

ANLS（Average Normalized Levenshtein Similarity）：编辑距离的归一化版本
准确率：完全匹配率

5.3 OCR-VQA: 表格与公式理解

OCR-VQA 专注于包含大量结构化信息的图像理解。¹⁸

典型任务类型

ocr_tasks = {
    "table_understanding": {
        "description": "理解表格结构与内容",
        "example": "提取第3行第2列的数据"
    },
    "formula_recognition": {
        "description": "识别数学公式",
        "example": "将LaTeX公式转换为图像"
    },
    "chart_interpretation": {
        "description": "理解图表信息",
        "example": "图中最高点对应的数值是多少"
    }
}

6. 多模态推理评估

多模态推理评估模型在复杂场景下的逻辑推理和知识应用能力。

6.1 MMMU: 大学水平多学科推理

MMMU（Massive Multidisciplinary Multimodal Understanding）是目前最难的多模态推理基准之一。¹⁹

数据集规模

统计项	数值
学科数量	30+
问题总数	11,559
图像数量	13,000+
来源	大学考试、教科书

学科分布

学科类别	示例	难度
自然科学	物理、化学、生物	高
数学	微积分、线性代数	极高
社会科学	经济、心理、社会学	中高
工程	电子、机械、计算机	高
艺术	艺术史、设计原理	中

示例问题类型

问题：[图片展示一道物理题目]
      "如图所示，质量为m的物体在斜面上..."
选项：A. 摩擦力计算 B. 加速度求解 C. 能量分析
答案：A

6.2 MathVista: 数学视觉推理

MathVista 专注于数学问题的视觉理解和推理。²⁰

问题类型分类

类型	描述	示例
算术	基本数学运算	$2 + 3 = ?$
几何	平面/立体几何	计算三角形面积
图表	从图表提取信息	读取柱状图数据
应用题	情境数学问题	购物找零问题
证明	数学证明推理	逻辑推导

6.3 VizWiz: 视觉障碍辅助

VizWiz 数据集来自盲人用户拍摄的真实照片，用于评估视觉辅助系统。²¹

数据特点

特点	描述
来源	盲人用户使用手机拍摄
质量问题	大量模糊、遮挡、角度问题
需求	回答用户关于图像的问题
答案格式	自然语言回答

挑战

图像质量差，需要模型容忍度
问题直接来自用户实际需求
需要理解图像中的社会场景

6.4 AI2D: 科学图表理解

AI2D（AI2 Diagrams）专注于科学教育图表的理解。²²

图表类型

类型	占比	示例
流程图	30%	实验步骤
示意图	25%	物理/生物示意图
图表	20%	折线图、柱状图
地图	15%	地理/解剖图
其他	10%	表格、公式

7. 评估最佳实践

7.1 评估指标选择指南

选择合适的评估指标需要考虑任务特性和评估目的：

指标选择决策树

任务类型
├── 生成任务
│   ├── 短文本 → BLEU-1/2
│   ├── 描述生成 → CIDEr, SPICE
│   └── 多参考 → 集成多个指标
├── 分类任务
│   ├── 单选题 → Accuracy
│   ├── 多选题 → Top-K 准确率
│   └── 排序任务 → NDCG, MAP
└── 匹配任务
    ├── 图文检索 → Recall@K
    └── 相似度评估 → CLIPScore

多指标综合评估

单一指标难以全面反映模型能力，建议采用多指标组合：

Score_{overall} = w_{1} \cdot Accuracy + w_{2} \cdot BLEU + w_{3} \cdot CIDEr

7.2 避免数据泄露

数据泄露（Data Leakage）是评估中的严重问题，会导致评估结果不准确。²³

常见泄露类型

泄露类型	描述	解决方案
答案泄露	测试集答案出现在训练数据	数据清洗、去重
图像泄露	训练集包含测试图像	数据集划分
语义泄露	问题模板被记忆	随机化问题表述
知识泄露	LLM 已学得相关知识	使用外部知识问答

CircularEval 协议

MMBench 等基准采用 CircularEval 协议：

def circular_evaluate(dataset, model):
    """
    CircularEval: 评估样本不在训练集中出现
    """
    for sample in dataset:
        # 确保样本不被模型"见过"
        assert sample.id not in model.training_data
        result = model.predict(sample)
    return aggregate_results(results)

7.3 模型选择指南

根据不同的应用场景选择合适的评估基准：

选择建议

应用场景	推荐基准	关键指标
通用能力评估	MMBench, SEED-Bench	综合准确率
视觉感知能力	Q-Bench, MME-Perception	感知维度分数
知识问答能力	OK-VQA, A-OKVQA	准确率
数学推理能力	MathVista, MMMU	数学推理准确率
文档理解能力	DocVQA, OCR-VQA	ANLS、准确率
图像描述能力	COCO, NoCaps	CIDEr, SPICE

基准对比总览

主要评估基准对比

基准	发布时间	任务类型	数据规模	核心能力	评估方式
VQAv2	2017	VQA	658K Q&A	通用理解	开放
GQA	2019	VQA	1.7M Q&A	视觉推理	选择题
OK-VQA	2021	VQA	14K Q&A	外部知识	开放
TextVQA	2019	TextVQA	28K Q&A	OCR理解	开放
DocVQA	2021	DocVQA	50K Q&A	文档理解	ANLS
COCO	2015	Captioning	123K	图像描述	指标评估
NoCaps	2022	Captioning	6.4K	开放词汇	指标评估
MME	2023	综合	7.3K	感知+认知	选择题
MMBench	2023	综合	2.9K	20+维度	选择题
SEED-Bench	2023	综合	18K	18维度	自动化
MMMU	2024	推理	11.5K	大学推理	选择题
MathVista	2024	数学	6K	数学推理	选择题
VizWiz	2018	辅助	31K	视觉辅助	开放
AI2D	2018	科学图表	15K	图表理解	选择题

参考文献

Liu Y, Duan H, Zhang Y, et al. A Survey on Evaluation of Large Vision-Language Models[J]. arXiv preprint arXiv:2404.02101, 2024. ↩
Fu J, Li S, Bao Y, et al. MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models[J]. arXiv preprint arXiv:2306.13394, 2023. ↩
Liu C, Duan H, Zhang Y, et al. MMBench: Is Your Multi-modal Model an All-Aware Player?[J]. arXiv preprint arXiv:2307.01681, 2023. ↩
Li J, Li D, Savarese S, et al. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models[C]//International Conference on Machine Learning. PMLR, 2023: 19730-19742. ↩
Wang P, Bai S, Tan S H, et al. LVLM-eHub: A Comprehensive Evaluation Framework for Large Vision-Language Models[J]. arXiv preprint arXiv:2311.16036, 2023. ↩
Wu S, Zhang P, Chen D, et al. Q-Bench: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Perception to Cognition[J]. arXiv preprint arXiv:2310.18065, 2023. ↩
Goyal Y, Khot T, Summers-Stay D, et al. Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6904-6913. ↩
Hudson D A, Manning C D. GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6700-6709. ↩
Marino K, Rastegari M, Farhadi A, et al. OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 3195-3204. ↩
Schwenk D, Khandelwal A, Clark C, et al. A-OKVQA: A Benchmark for Visual Question Answering using Outside Knowledge[J]. arXiv preprint arXiv:2206.01718, 2022. ↩
Chen X, Fang H, Lin T Y, et al. Microsoft COCO Captions: Data Collection and Evaluation Server[J]. arXiv preprint arXiv:1504.00325, 2015. ↩
Agrawal H, Desai K, Wang Y, et al. Nocaps: Novel Object Captioning at Scale[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 8948-8957. ↩
Papineni K, Roukos S, Ward T, et al. Bleu: a Method for Automatic Evaluation of Machine Translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. 2002: 311-318. ↩
Vedantam R, Lawrence Zitnick C, Parikh D. CIDEr: Consensus-based Image Description Evaluation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 4566-4575. ↩
Anderson P, Fernando B, Johnson M, et al. SPICE: Semantic Propositional Image Caption Evaluation[C]//Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part V 14. Springer, 2016: 382-398. ↩
Singh A, Natarajan V, Shah R O, et al. Towards VQA Models That Can Read[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 8317-8326. ↩
Mathews A P, Xie L, He X. SMedBERT: A Knowledge-Enhanced Pretrained Language Model for Unified Medical Language Understanding[C]//Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2021: 1692-1702. ↩
Mishra A, Shekhar S, Singh A K, et al. OCR-VQA: Visual Question Answering by Reading Text in Images[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2019: 947-952. ↩
Zhang H, Li X, Bentley F, et al. MMMU: A Massive Multidisciplinary Multimodal Understanding Benchmark for Scientific Problem Solving[J]. arXiv preprint arXiv:2401.12504, 2024. ↩
Lu H, Liu W, Zhang Z, et al. MathVista: Evaluating Mathematical Reasoning in Visual Contexts with Multimodal Large Language Models[J]. arXiv preprint arXiv:2310.02255, 2023. ↩
Gurari D, Li Q, Stangl A J, et al. VizWiz Grand Challenge: Answering Visual Questions from Blind People[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 3608-3617. ↩
Kembhavi A, Salvato M, Kolve E, et al. A Diagram Is Worth a Dozen Images[C]//Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part IV 14. Springer, 2016: 235-251. ↩
Carlini N, Liu C, Erlingsson Ú, et al. The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks[C]//28th USENIX Security Symposium. 2019: 267-284. ↩

Metaphor

探索

多模态评估基准

多模态评估基准

1. 评估框架概述

1.1 VLM评估的挑战

1.2 评估维度

1.3 评估方法分类

2. 通用VLM评估基准

2.1 MME: Multimodal Multimodal Evaluator

2.2 MMBench: 多维度评估基准

2.3 SEED-Bench: 自动化评估问题

2.4 LVLM-eHub: 综合评估框架

2.5 Q-Bench 与 A-Bench

3. 视觉问答（VQA）评估

3.1 VQAv2: 通用VQA基准

3.2 GQA: 推理导向VQA

3.3 OK-VQA: 外部知识VQA

3.4 A-OKVQA: 多选VQA

4. 图像描述评估

4.1 COCO Captioning

4.2 NoCaps

4.3 描述质量评估指标

5. 文本丰富图像理解评估

5.1 TextVQA: 文本问答

5.2 DocVQA: 文档理解

5.3 OCR-VQA: 表格与公式理解

6. 多模态推理评估

6.1 MMMU: 大学水平多学科推理

6.2 MathVista: 数学视觉推理

6.3 VizWiz: 视觉障碍辅助

6.4 AI2D: 科学图表理解

7. 评估最佳实践

7.1 评估指标选择指南

7.2 避免数据泄露

7.3 模型选择指南

基准对比总览

主要评估基准对比

参考文献

Footnotes

关系图谱

目录

反向链接