多模态评估基准
多模态评估基准(Multimodal Evaluation Benchmarks)是衡量视觉-语言模型(Vision-Language Models, VLM)能力的重要工具。随着 GPT-4V、Gemini、Claude 等多模态大模型的快速发展,如何全面、客观、科学地评估这些模型的能力成为关键问题。1 与单模态评估不同,多模态评估需要同时考虑视觉感知、语言理解、跨模态对齐以及复杂推理等多维度的能力。
1. 评估框架概述
1.1 VLM评估的挑战
视觉-语言模型的评估面临多重挑战:
数据层面的挑战
| 挑战 | 描述 | 影响 |
|---|---|---|
| 答案多样性 | 开放式问题存在多种合理答案 | 自动评估困难 |
| 视觉 grounding | 答案需准确定位到图像区域 | 需要细粒度标注 |
| 外部知识依赖 | 某些问题需要世界知识 | 知识边界模糊 |
| 语言歧义 | 自然语言固有的歧义性 | 评判标准难以统一 |
评估层面的挑战
# VLM评估的典型问题类型
question_types = {
"perception": ["目标检测", "属性识别", "计数", "位置"], # 低层感知
"understanding": ["图像描述", "意图理解", "情感分析"], # 语义理解
"reasoning": ["逻辑推理", "数学推理", "因果推断"], # 推理能力
"generation": ["图像生成", "代码生成", "问答生成"] # 生成能力
}1.2 评估维度
一个全面的 VLM 评估体系应涵盖以下维度:
| 评估维度 | 核心能力 | 代表任务 | 典型指标 |
|---|---|---|---|
| 感知(Perception) | 视觉元素识别 | 目标检测、属性识别、OCR | Accuracy |
| 理解(Understanding) | 语义信息提取 | 图像描述、VQA、图文匹配 | CIDEr, BLEU |
| 推理(Reasoning) | 逻辑与知识推理 | 数学推理、外部知识问答 | Accuracy |
| 生成(Generation) | 多模态内容生成 | 图像生成描述、区域描述 | SPICE, CLIPScore |
1.3 评估方法分类
根据评估方式的不同,VLM 评估方法可分为:
自动化评估
- 选择题评估:提供固定选项,计算准确率
- 指标评估:使用 BLEU、CIDEr、SPICE 等自动指标
- CLIPScore:利用 CLIP 模型评估图文一致性
人工评估
- 人类偏好评分:众包平台收集人类评分
- 专家评估:领域专家进行质量评判
- 成对比较:A/B 测试比较两个模型
2. 通用VLM评估基准
2.1 MME: Multimodal Multimodal Evaluator
MME 是由 FuxiVLAB 提出的综合评估基准,是首个从感知和认知两个层面全面评估多模态大模型的项目。2
数据集规模
| 类别 | 子任务数 | 问题数量 | 评估方式 |
|---|---|---|---|
| 感知 | 12 | 3,632 | 选择题 |
| 认知 | 12 | 3,636 | 选择题 |
| 总计 | 24 | 7,268 | - |
评估维度
感知能力评估
├── 存在性判断 (Existence)
├── 计数 (Count)
├── 位置关系 (Position)
├── 颜色识别 (Color)
├── 海报识别 (Poster)
├── 物种识别 (Celebrity)
└── 场景识别 (Scene)
认知能力评估
├── 属性比较 (Attribute Comparison)
├── 动作识别 (Action Recognition)
├── 性别识别 (Gender Recognition)
├── 职业识别 (Occupation)
├── 常见物体识别 (Common Object)
├── 艺术作品识别 (Artwork)
└── 谬误检测 (Fallacy Reasoning)
评估指标
2.2 MMBench: 多维度评估基准
MMBench 是上海人工智能实验室提出的多维度视觉-语言模型评估基准,覆盖 20+ 评估维度。3
核心特点
- 细粒度分类:将能力划分为多个独立维度
- 选择题格式:所有问题均为选择题,便于自动化评估
- ** CircularEval**:引入 CircularEval 评估协议,防止数据泄露
评估维度分类
| 能力大类 | 具体维度 | 示例问题 |
|---|---|---|
| 感知 | 目标识别、属性识别、位置关系、场景理解 | ”图中有几只猫?“ |
| 推理 | 逻辑推理、因果推理、比较推理 | ”如果A成立,B会怎样?“ |
| 知识 | 科学知识、文化知识、专业知识 | ”这是什么历史事件?“ |
| 数学 | 算术运算、几何推理、数学图表 | ”计算图中矩形的面积” |
2.3 SEED-Bench: 自动化评估问题
SEED-Bench 包含 18,000+ 个自动化评估问题,覆盖 18 个评估维度。4
问题生成流水线
# SEED-Bench 问题生成示意
class SEEDQuestionGenerator:
def __init__(self, vlm):
self.vlm = vlm
def generate_questions(self, image, annotations):
questions = []
# 基于图像标注自动生成问题-答案对
for annotation in annotations:
if annotation.type == "object":
q = f"图中有几个{annotation.label}?"
a = str(annotation.count)
questions.append({"question": q, "answer": a})
elif annotation.type == "attribute":
q = f"{annotation.object}是什么颜色的?"
a = annotation.color
questions.append({"question": q, "answer": a})
return questions2.4 LVLM-eHub: 综合评估框架
LVLM-eHub 提供多角度评估,包括能力评估和人类偏好评估。5
评估框架设计
| 评估类型 | 评估内容 | 方法 |
|---|---|---|
| 能力评估 | 6 大核心能力 | 自动化选择题 |
| 人类偏好 | 回答质量对比 | 众包打分 |
| 涌现能力 | 特殊能力检测 | 专项测试 |
2.5 Q-Bench 与 A-Bench
Q-Bench 评估模型的感知能力,A-Bench 评估模型的认知能力,两者形成互补。6
| 基准 | 关注点 | 问题类型 | 难度 |
|---|---|---|---|
| Q-Bench | 低层感知 | 客观题 | 基础 |
| A-Bench | 高级认知 | 主观/客观 | 进阶 |
3. 视觉问答(VQA)评估
视觉问答是多模态理解的核心任务,要求模型根据图像内容回答自然语言问题。
3.1 VQAv2: 通用VQA基准
VQAv2 是最大规模的通用视觉问答数据集,是 VQAv1 的扩展版本。7
数据集统计
| 统计项 | 数值 |
|---|---|
| 图像数量 | 123,287 + 125,436 (测试) |
| 问题数量 | 658,111 |
| 答案词汇量 | 6,141 |
| 问题类型 | 开放式 |
问题类型分布
question_types = {
"what": 39.6%, # 物体、动作、场景
"where": 4.4%, # 位置
"when": 1.8%, # 时间
"who": 6.7%, # 人物
"why": 5.5%, # 原因
"how": 8.9% # 方式
}3.2 GQA: 推理导向VQA
GQA(Visual Reasoning)专注于视觉推理能力评估,所有问题都经过均衡分布设计以避免偏差。8
核心特点
- 结构化图像表示:使用 Scene Graph 描述图像
- 问题均衡设计:每个问题类型均衡分布在测试集中
- 推理链标注:提供完整的推理步骤
GQA 的推理类型
| 推理类型 | 描述 | 示例 |
|---|---|---|
| 属性查询 | 询问对象属性 | ”那是什么颜色的?“ |
| 关系推理 | 询问对象间关系 | ”猫在垫子左边吗?“ |
| 逻辑推理 | 组合逻辑条件 | ”红色的比蓝色的多吗?“ |
| 比较推理 | 比较多个对象 | ”哪个物体更大?“ |
3.3 OK-VQA: 外部知识VQA
OK-VQA(Outside Knowledge VQA)要求模型利用外部世界知识来回答问题。9
知识类别分布
| 知识类别 | 占比 | 示例问题 |
|---|---|---|
| 品牌/公司 | 8.7% | “这个产品的公司总部在哪?“ |
| 烹饪/食物 | 12.3% | “这道菜需要什么调料?“ |
| 交通工具 | 7.8% | “这是什么类型的飞机?“ |
| 地理 | 11.2% | “这个国家使用什么货币?“ |
| 科学 | 13.5% | “这种植物的学名是什么?“ |
3.4 A-OKVQA: 多选VQA
A-OKVQA 是 OK-VQA 的扩展,采用多选题格式,包含 22,000+ 问题。10
与 OK-VQA 的对比
| 特性 | OK-VQA | A-OKVQA |
|---|---|---|
| 格式 | 开放式 | 多选题 |
| 答案来源 | 众包生成 | 特定关系类型 |
| 评估方式 | 准确率 | Top-1 准确率 |
| 难度 | 较高 | 中等偏高 |
4. 图像描述评估
图像描述(Image Captioning)任务要求模型生成准确、流畅、丰富的图像文本描述。
4.1 COCO Captioning
COCO Caption 是图像描述领域最权威的评估基准。11
数据集规模
| 数据集划分 | 图像数量 |
|---|---|
| 训练集 | 113,287 |
| 验证集 | 5,000 |
| 测试集 | 5,000 |
评估方式:每张图像 5 个人工描述,模型生成描述与人工描述比较
4.2 NoCaps
NoCaps 评估模型对未见过的视觉概念的描述能力。12
评估场景
| 场景类型 | 描述 | 难度 |
|---|---|---|
| In-Domain (ID) | COCO 训练过的概念 | 低 |
| Near-Domain (ND) | 相似的视觉概念 | 中 |
| Out-of-Domain (OOD) | 完全新奇的视觉概念 | 高 |
4.3 描述质量评估指标
图像描述的质量评估需要综合考虑多个维度:
BLEU
BLEU(Bilingual Evaluation Understudy)通过计算 n-gram 精确度评估生成文本与参考文本的相似度。13
其中 是 n-gram 精确度,BP 是简短惩罚因子。
ROUGE-L
ROUGE-L 通过计算最长公共子序列(LCS)评估文本相似度:
其中 是候选描述, 是参考描述。
CIDEr
CIDEr(Consensus-based Image Description Evaluation)使用 TF-IDF 加权的 n-gram 匹配。14
SPICE
SPICE(Semantic Propositional Image Caption Evaluation)通过场景图匹配评估语义等价性。15
其中 是场景图中匹配的对象/关系/属性数量, 是总数量。
评估指标对比
| 指标 | 关注点 | 优点 | 缺点 |
|---|---|---|---|
| BLEU | n-gram 精确度 | 简单高效 | 不关注语义 |
| ROUGE-L | 语序连贯性 | 考虑顺序 | 语义覆盖不足 |
| CIDEr | 共识性 | 针对图像描述优化 | 需要多参考 |
| SPICE | 语义完整性 | 场景图评估 | 计算复杂 |
5. 文本丰富图像理解评估
现实世界中的图像包含大量文字信息,如文档、图表、海报、公式等。
5.1 TextVQA: 文本问答
TextVQA 专注于图像中文字信息的阅读和理解。16
任务定义
输入:图像 I,问题 Q
输出:基于图像中文字的回答 A
示例:
Q: "图中电话号码是什么?"
I: [含有电话号码的图像]
A: "400-123-4567"
数据集特点
| 统计项 | 数值 |
|---|---|
| 图像数量 | 28,408 |
| 问题数量 | 17,028 |
| 涉及词汇 | 4,000+ |
5.2 DocVQA: 文档理解
DocVQA 评估模型对文档图像的理解能力。17
文档类型
| 文档类型 | 占比 | 示例 |
|---|---|---|
| 商业文档 | 35% | 发票、合同 |
| 表格文档 | 25% | 财务报表 |
| 表单 | 20% | 申请表 |
| 其他 | 20% | 手写信件、笔记 |
评估指标
- ANLS(Average Normalized Levenshtein Similarity):编辑距离的归一化版本
- 准确率:完全匹配率
5.3 OCR-VQA: 表格与公式理解
OCR-VQA 专注于包含大量结构化信息的图像理解。18
典型任务类型
ocr_tasks = {
"table_understanding": {
"description": "理解表格结构与内容",
"example": "提取第3行第2列的数据"
},
"formula_recognition": {
"description": "识别数学公式",
"example": "将LaTeX公式转换为图像"
},
"chart_interpretation": {
"description": "理解图表信息",
"example": "图中最高点对应的数值是多少"
}
}6. 多模态推理评估
多模态推理评估模型在复杂场景下的逻辑推理和知识应用能力。
6.1 MMMU: 大学水平多学科推理
MMMU(Massive Multidisciplinary Multimodal Understanding)是目前最难的多模态推理基准之一。19
数据集规模
| 统计项 | 数值 |
|---|---|
| 学科数量 | 30+ |
| 问题总数 | 11,559 |
| 图像数量 | 13,000+ |
| 来源 | 大学考试、教科书 |
学科分布
| 学科类别 | 示例 | 难度 |
|---|---|---|
| 自然科学 | 物理、化学、生物 | 高 |
| 数学 | 微积分、线性代数 | 极高 |
| 社会科学 | 经济、心理、社会学 | 中高 |
| 工程 | 电子、机械、计算机 | 高 |
| 艺术 | 艺术史、设计原理 | 中 |
示例问题类型
问题:[图片展示一道物理题目]
"如图所示,质量为m的物体在斜面上..."
选项:A. 摩擦力计算 B. 加速度求解 C. 能量分析
答案:A
6.2 MathVista: 数学视觉推理
MathVista 专注于数学问题的视觉理解和推理。20
问题类型分类
| 类型 | 描述 | 示例 |
|---|---|---|
| 算术 | 基本数学运算 | |
| 几何 | 平面/立体几何 | 计算三角形面积 |
| 图表 | 从图表提取信息 | 读取柱状图数据 |
| 应用题 | 情境数学问题 | 购物找零问题 |
| 证明 | 数学证明推理 | 逻辑推导 |
6.3 VizWiz: 视觉障碍辅助
VizWiz 数据集来自盲人用户拍摄的真实照片,用于评估视觉辅助系统。21
数据特点
| 特点 | 描述 |
|---|---|
| 来源 | 盲人用户使用手机拍摄 |
| 质量问题 | 大量模糊、遮挡、角度问题 |
| 需求 | 回答用户关于图像的问题 |
| 答案格式 | 自然语言回答 |
挑战
- 图像质量差,需要模型容忍度
- 问题直接来自用户实际需求
- 需要理解图像中的社会场景
6.4 AI2D: 科学图表理解
AI2D(AI2 Diagrams)专注于科学教育图表的理解。22
图表类型
| 类型 | 占比 | 示例 |
|---|---|---|
| 流程图 | 30% | 实验步骤 |
| 示意图 | 25% | 物理/生物示意图 |
| 图表 | 20% | 折线图、柱状图 |
| 地图 | 15% | 地理/解剖图 |
| 其他 | 10% | 表格、公式 |
7. 评估最佳实践
7.1 评估指标选择指南
选择合适的评估指标需要考虑任务特性和评估目的:
指标选择决策树
任务类型
├── 生成任务
│ ├── 短文本 → BLEU-1/2
│ ├── 描述生成 → CIDEr, SPICE
│ └── 多参考 → 集成多个指标
├── 分类任务
│ ├── 单选题 → Accuracy
│ ├── 多选题 → Top-K 准确率
│ └── 排序任务 → NDCG, MAP
└── 匹配任务
├── 图文检索 → Recall@K
└── 相似度评估 → CLIPScore
多指标综合评估
单一指标难以全面反映模型能力,建议采用多指标组合:
7.2 避免数据泄露
数据泄露(Data Leakage)是评估中的严重问题,会导致评估结果不准确。23
常见泄露类型
| 泄露类型 | 描述 | 解决方案 |
|---|---|---|
| 答案泄露 | 测试集答案出现在训练数据 | 数据清洗、去重 |
| 图像泄露 | 训练集包含测试图像 | 数据集划分 |
| 语义泄露 | 问题模板被记忆 | 随机化问题表述 |
| 知识泄露 | LLM 已学得相关知识 | 使用外部知识问答 |
CircularEval 协议
MMBench 等基准采用 CircularEval 协议:
def circular_evaluate(dataset, model):
"""
CircularEval: 评估样本不在训练集中出现
"""
for sample in dataset:
# 确保样本不被模型"见过"
assert sample.id not in model.training_data
result = model.predict(sample)
return aggregate_results(results)7.3 模型选择指南
根据不同的应用场景选择合适的评估基准:
选择建议
| 应用场景 | 推荐基准 | 关键指标 |
|---|---|---|
| 通用能力评估 | MMBench, SEED-Bench | 综合准确率 |
| 视觉感知能力 | Q-Bench, MME-Perception | 感知维度分数 |
| 知识问答能力 | OK-VQA, A-OKVQA | 准确率 |
| 数学推理能力 | MathVista, MMMU | 数学推理准确率 |
| 文档理解能力 | DocVQA, OCR-VQA | ANLS、准确率 |
| 图像描述能力 | COCO, NoCaps | CIDEr, SPICE |
基准对比总览
主要评估基准对比
| 基准 | 发布时间 | 任务类型 | 数据规模 | 核心能力 | 评估方式 |
|---|---|---|---|---|---|
| VQAv2 | 2017 | VQA | 658K Q&A | 通用理解 | 开放 |
| GQA | 2019 | VQA | 1.7M Q&A | 视觉推理 | 选择题 |
| OK-VQA | 2021 | VQA | 14K Q&A | 外部知识 | 开放 |
| TextVQA | 2019 | TextVQA | 28K Q&A | OCR理解 | 开放 |
| DocVQA | 2021 | DocVQA | 50K Q&A | 文档理解 | ANLS |
| COCO | 2015 | Captioning | 123K | 图像描述 | 指标评估 |
| NoCaps | 2022 | Captioning | 6.4K | 开放词汇 | 指标评估 |
| MME | 2023 | 综合 | 7.3K | 感知+认知 | 选择题 |
| MMBench | 2023 | 综合 | 2.9K | 20+维度 | 选择题 |
| SEED-Bench | 2023 | 综合 | 18K | 18维度 | 自动化 |
| MMMU | 2024 | 推理 | 11.5K | 大学推理 | 选择题 |
| MathVista | 2024 | 数学 | 6K | 数学推理 | 选择题 |
| VizWiz | 2018 | 辅助 | 31K | 视觉辅助 | 开放 |
| AI2D | 2018 | 科学图表 | 15K | 图表理解 | 选择题 |
参考文献
Footnotes
-
Liu Y, Duan H, Zhang Y, et al. A Survey on Evaluation of Large Vision-Language Models[J]. arXiv preprint arXiv:2404.02101, 2024. ↩
-
Fu J, Li S, Bao Y, et al. MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models[J]. arXiv preprint arXiv:2306.13394, 2023. ↩
-
Liu C, Duan H, Zhang Y, et al. MMBench: Is Your Multi-modal Model an All-Aware Player?[J]. arXiv preprint arXiv:2307.01681, 2023. ↩
-
Li J, Li D, Savarese S, et al. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models[C]//International Conference on Machine Learning. PMLR, 2023: 19730-19742. ↩
-
Wang P, Bai S, Tan S H, et al. LVLM-eHub: A Comprehensive Evaluation Framework for Large Vision-Language Models[J]. arXiv preprint arXiv:2311.16036, 2023. ↩
-
Wu S, Zhang P, Chen D, et al. Q-Bench: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Perception to Cognition[J]. arXiv preprint arXiv:2310.18065, 2023. ↩
-
Goyal Y, Khot T, Summers-Stay D, et al. Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6904-6913. ↩
-
Hudson D A, Manning C D. GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6700-6709. ↩
-
Marino K, Rastegari M, Farhadi A, et al. OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 3195-3204. ↩
-
Schwenk D, Khandelwal A, Clark C, et al. A-OKVQA: A Benchmark for Visual Question Answering using Outside Knowledge[J]. arXiv preprint arXiv:2206.01718, 2022. ↩
-
Chen X, Fang H, Lin T Y, et al. Microsoft COCO Captions: Data Collection and Evaluation Server[J]. arXiv preprint arXiv:1504.00325, 2015. ↩
-
Agrawal H, Desai K, Wang Y, et al. Nocaps: Novel Object Captioning at Scale[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 8948-8957. ↩
-
Papineni K, Roukos S, Ward T, et al. Bleu: a Method for Automatic Evaluation of Machine Translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. 2002: 311-318. ↩
-
Vedantam R, Lawrence Zitnick C, Parikh D. CIDEr: Consensus-based Image Description Evaluation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 4566-4575. ↩
-
Anderson P, Fernando B, Johnson M, et al. SPICE: Semantic Propositional Image Caption Evaluation[C]//Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part V 14. Springer, 2016: 382-398. ↩
-
Singh A, Natarajan V, Shah R O, et al. Towards VQA Models That Can Read[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 8317-8326. ↩
-
Mathews A P, Xie L, He X. SMedBERT: A Knowledge-Enhanced Pretrained Language Model for Unified Medical Language Understanding[C]//Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2021: 1692-1702. ↩
-
Mishra A, Shekhar S, Singh A K, et al. OCR-VQA: Visual Question Answering by Reading Text in Images[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2019: 947-952. ↩
-
Zhang H, Li X, Bentley F, et al. MMMU: A Massive Multidisciplinary Multimodal Understanding Benchmark for Scientific Problem Solving[J]. arXiv preprint arXiv:2401.12504, 2024. ↩
-
Lu H, Liu W, Zhang Z, et al. MathVista: Evaluating Mathematical Reasoning in Visual Contexts with Multimodal Large Language Models[J]. arXiv preprint arXiv:2310.02255, 2023. ↩
-
Gurari D, Li Q, Stangl A J, et al. VizWiz Grand Challenge: Answering Visual Questions from Blind People[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 3608-3617. ↩
-
Kembhavi A, Salvato M, Kolve E, et al. A Diagram Is Worth a Dozen Images[C]//Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part IV 14. Springer, 2016: 235-251. ↩
-
Carlini N, Liu C, Erlingsson Ú, et al. The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks[C]//28th USENIX Security Symposium. 2019: 267-284. ↩