多模态评估基准

多模态评估基准(Multimodal Evaluation Benchmarks)是衡量视觉-语言模型(Vision-Language Models, VLM)能力的重要工具。随着 GPT-4V、Gemini、Claude 等多模态大模型的快速发展,如何全面、客观、科学地评估这些模型的能力成为关键问题。1 与单模态评估不同,多模态评估需要同时考虑视觉感知、语言理解、跨模态对齐以及复杂推理等多维度的能力。


1. 评估框架概述

1.1 VLM评估的挑战

视觉-语言模型的评估面临多重挑战:

数据层面的挑战

挑战描述影响
答案多样性开放式问题存在多种合理答案自动评估困难
视觉 grounding答案需准确定位到图像区域需要细粒度标注
外部知识依赖某些问题需要世界知识知识边界模糊
语言歧义自然语言固有的歧义性评判标准难以统一

评估层面的挑战

# VLM评估的典型问题类型
question_types = {
    "perception": ["目标检测", "属性识别", "计数", "位置"],      # 低层感知
    "understanding": ["图像描述", "意图理解", "情感分析"],        # 语义理解
    "reasoning": ["逻辑推理", "数学推理", "因果推断"],           # 推理能力
    "generation": ["图像生成", "代码生成", "问答生成"]            # 生成能力
}

1.2 评估维度

一个全面的 VLM 评估体系应涵盖以下维度:

评估维度核心能力代表任务典型指标
感知(Perception)视觉元素识别目标检测、属性识别、OCRAccuracy
理解(Understanding)语义信息提取图像描述、VQA、图文匹配CIDEr, BLEU
推理(Reasoning)逻辑与知识推理数学推理、外部知识问答Accuracy
生成(Generation)多模态内容生成图像生成描述、区域描述SPICE, CLIPScore

1.3 评估方法分类

根据评估方式的不同,VLM 评估方法可分为:

自动化评估

  • 选择题评估:提供固定选项,计算准确率
  • 指标评估:使用 BLEU、CIDEr、SPICE 等自动指标
  • CLIPScore:利用 CLIP 模型评估图文一致性

人工评估

  • 人类偏好评分:众包平台收集人类评分
  • 专家评估:领域专家进行质量评判
  • 成对比较:A/B 测试比较两个模型

2. 通用VLM评估基准

2.1 MME: Multimodal Multimodal Evaluator

MME 是由 FuxiVLAB 提出的综合评估基准,是首个从感知和认知两个层面全面评估多模态大模型的项目。2

数据集规模

类别子任务数问题数量评估方式
感知123,632选择题
认知123,636选择题
总计247,268-

评估维度

感知能力评估
├── 存在性判断 (Existence)
├── 计数 (Count)
├── 位置关系 (Position)
├── 颜色识别 (Color)
├── 海报识别 (Poster)
├── 物种识别 (Celebrity)
└── 场景识别 (Scene)

认知能力评估
├── 属性比较 (Attribute Comparison)
├── 动作识别 (Action Recognition)
├── 性别识别 (Gender Recognition)
├── 职业识别 (Occupation)
├── 常见物体识别 (Common Object)
├── 艺术作品识别 (Artwork)
└── 谬误检测 (Fallacy Reasoning)

评估指标

2.2 MMBench: 多维度评估基准

MMBench 是上海人工智能实验室提出的多维度视觉-语言模型评估基准,覆盖 20+ 评估维度。3

核心特点

  • 细粒度分类:将能力划分为多个独立维度
  • 选择题格式:所有问题均为选择题,便于自动化评估
  • ** CircularEval**:引入 CircularEval 评估协议,防止数据泄露

评估维度分类

能力大类具体维度示例问题
感知目标识别、属性识别、位置关系、场景理解”图中有几只猫?“
推理逻辑推理、因果推理、比较推理”如果A成立,B会怎样?“
知识科学知识、文化知识、专业知识”这是什么历史事件?“
数学算术运算、几何推理、数学图表”计算图中矩形的面积”

2.3 SEED-Bench: 自动化评估问题

SEED-Bench 包含 18,000+ 个自动化评估问题,覆盖 18 个评估维度。4

问题生成流水线

# SEED-Bench 问题生成示意
class SEEDQuestionGenerator:
    def __init__(self, vlm):
        self.vlm = vlm
    
    def generate_questions(self, image, annotations):
        questions = []
        # 基于图像标注自动生成问题-答案对
        for annotation in annotations:
            if annotation.type == "object":
                q = f"图中有几个{annotation.label}?"
                a = str(annotation.count)
                questions.append({"question": q, "answer": a})
            elif annotation.type == "attribute":
                q = f"{annotation.object}是什么颜色的?"
                a = annotation.color
                questions.append({"question": q, "answer": a})
        return questions

2.4 LVLM-eHub: 综合评估框架

LVLM-eHub 提供多角度评估,包括能力评估和人类偏好评估。5

评估框架设计

评估类型评估内容方法
能力评估6 大核心能力自动化选择题
人类偏好回答质量对比众包打分
涌现能力特殊能力检测专项测试

2.5 Q-Bench 与 A-Bench

Q-Bench 评估模型的感知能力,A-Bench 评估模型的认知能力,两者形成互补。6

基准关注点问题类型难度
Q-Bench低层感知客观题基础
A-Bench高级认知主观/客观进阶

3. 视觉问答(VQA)评估

视觉问答是多模态理解的核心任务,要求模型根据图像内容回答自然语言问题。

3.1 VQAv2: 通用VQA基准

VQAv2 是最大规模的通用视觉问答数据集,是 VQAv1 的扩展版本。7

数据集统计

统计项数值
图像数量123,287 + 125,436 (测试)
问题数量658,111
答案词汇量6,141
问题类型开放式

问题类型分布

question_types = {
    "what": 39.6%,    # 物体、动作、场景
    "where": 4.4%,    # 位置
    "when": 1.8%,     # 时间
    "who": 6.7%,      # 人物
    "why": 5.5%,      # 原因
    "how": 8.9%       # 方式
}

3.2 GQA: 推理导向VQA

GQA(Visual Reasoning)专注于视觉推理能力评估,所有问题都经过均衡分布设计以避免偏差。8

核心特点

  • 结构化图像表示:使用 Scene Graph 描述图像
  • 问题均衡设计:每个问题类型均衡分布在测试集中
  • 推理链标注:提供完整的推理步骤

GQA 的推理类型

推理类型描述示例
属性查询询问对象属性”那是什么颜色的?“
关系推理询问对象间关系”猫在垫子左边吗?“
逻辑推理组合逻辑条件”红色的比蓝色的多吗?“
比较推理比较多个对象”哪个物体更大?“

3.3 OK-VQA: 外部知识VQA

OK-VQA(Outside Knowledge VQA)要求模型利用外部世界知识来回答问题。9

知识类别分布

知识类别占比示例问题
品牌/公司8.7%“这个产品的公司总部在哪?“
烹饪/食物12.3%“这道菜需要什么调料?“
交通工具7.8%“这是什么类型的飞机?“
地理11.2%“这个国家使用什么货币?“
科学13.5%“这种植物的学名是什么?“

3.4 A-OKVQA: 多选VQA

A-OKVQA 是 OK-VQA 的扩展,采用多选题格式,包含 22,000+ 问题。10

与 OK-VQA 的对比

特性OK-VQAA-OKVQA
格式开放式多选题
答案来源众包生成特定关系类型
评估方式准确率Top-1 准确率
难度较高中等偏高

4. 图像描述评估

图像描述(Image Captioning)任务要求模型生成准确、流畅、丰富的图像文本描述。

4.1 COCO Captioning

COCO Caption 是图像描述领域最权威的评估基准。11

数据集规模

数据集划分图像数量
训练集113,287
验证集5,000
测试集5,000

评估方式:每张图像 5 个人工描述,模型生成描述与人工描述比较

4.2 NoCaps

NoCaps 评估模型对未见过的视觉概念的描述能力。12

评估场景

场景类型描述难度
In-Domain (ID)COCO 训练过的概念
Near-Domain (ND)相似的视觉概念
Out-of-Domain (OOD)完全新奇的视觉概念

4.3 描述质量评估指标

图像描述的质量评估需要综合考虑多个维度:

BLEU

BLEU(Bilingual Evaluation Understudy)通过计算 n-gram 精确度评估生成文本与参考文本的相似度。13

其中 是 n-gram 精确度,BP 是简短惩罚因子。

ROUGE-L

ROUGE-L 通过计算最长公共子序列(LCS)评估文本相似度:

其中 是候选描述, 是参考描述。

CIDEr

CIDEr(Consensus-based Image Description Evaluation)使用 TF-IDF 加权的 n-gram 匹配。14

SPICE

SPICE(Semantic Propositional Image Caption Evaluation)通过场景图匹配评估语义等价性。15

其中 是场景图中匹配的对象/关系/属性数量, 是总数量。

评估指标对比

指标关注点优点缺点
BLEUn-gram 精确度简单高效不关注语义
ROUGE-L语序连贯性考虑顺序语义覆盖不足
CIDEr共识性针对图像描述优化需要多参考
SPICE语义完整性场景图评估计算复杂

5. 文本丰富图像理解评估

现实世界中的图像包含大量文字信息,如文档、图表、海报、公式等。

5.1 TextVQA: 文本问答

TextVQA 专注于图像中文字信息的阅读和理解。16

任务定义

输入:图像 I,问题 Q
输出:基于图像中文字的回答 A

示例:
Q: "图中电话号码是什么?"
I: [含有电话号码的图像]
A: "400-123-4567"

数据集特点

统计项数值
图像数量28,408
问题数量17,028
涉及词汇4,000+

5.2 DocVQA: 文档理解

DocVQA 评估模型对文档图像的理解能力。17

文档类型

文档类型占比示例
商业文档35%发票、合同
表格文档25%财务报表
表单20%申请表
其他20%手写信件、笔记

评估指标

  • ANLS(Average Normalized Levenshtein Similarity):编辑距离的归一化版本
  • 准确率:完全匹配率

5.3 OCR-VQA: 表格与公式理解

OCR-VQA 专注于包含大量结构化信息的图像理解。18

典型任务类型

ocr_tasks = {
    "table_understanding": {
        "description": "理解表格结构与内容",
        "example": "提取第3行第2列的数据"
    },
    "formula_recognition": {
        "description": "识别数学公式",
        "example": "将LaTeX公式转换为图像"
    },
    "chart_interpretation": {
        "description": "理解图表信息",
        "example": "图中最高点对应的数值是多少"
    }
}

6. 多模态推理评估

多模态推理评估模型在复杂场景下的逻辑推理和知识应用能力。

6.1 MMMU: 大学水平多学科推理

MMMU(Massive Multidisciplinary Multimodal Understanding)是目前最难的多模态推理基准之一。19

数据集规模

统计项数值
学科数量30+
问题总数11,559
图像数量13,000+
来源大学考试、教科书

学科分布

学科类别示例难度
自然科学物理、化学、生物
数学微积分、线性代数极高
社会科学经济、心理、社会学中高
工程电子、机械、计算机
艺术艺术史、设计原理

示例问题类型

问题:[图片展示一道物理题目]
      "如图所示,质量为m的物体在斜面上..."
选项:A. 摩擦力计算 B. 加速度求解 C. 能量分析
答案:A

6.2 MathVista: 数学视觉推理

MathVista 专注于数学问题的视觉理解和推理。20

问题类型分类

类型描述示例
算术基本数学运算
几何平面/立体几何计算三角形面积
图表从图表提取信息读取柱状图数据
应用题情境数学问题购物找零问题
证明数学证明推理逻辑推导

6.3 VizWiz: 视觉障碍辅助

VizWiz 数据集来自盲人用户拍摄的真实照片,用于评估视觉辅助系统。21

数据特点

特点描述
来源盲人用户使用手机拍摄
质量问题大量模糊、遮挡、角度问题
需求回答用户关于图像的问题
答案格式自然语言回答

挑战

  • 图像质量差,需要模型容忍度
  • 问题直接来自用户实际需求
  • 需要理解图像中的社会场景

6.4 AI2D: 科学图表理解

AI2D(AI2 Diagrams)专注于科学教育图表的理解。22

图表类型

类型占比示例
流程图30%实验步骤
示意图25%物理/生物示意图
图表20%折线图、柱状图
地图15%地理/解剖图
其他10%表格、公式

7. 评估最佳实践

7.1 评估指标选择指南

选择合适的评估指标需要考虑任务特性和评估目的:

指标选择决策树

任务类型
├── 生成任务
│   ├── 短文本 → BLEU-1/2
│   ├── 描述生成 → CIDEr, SPICE
│   └── 多参考 → 集成多个指标
├── 分类任务
│   ├── 单选题 → Accuracy
│   ├── 多选题 → Top-K 准确率
│   └── 排序任务 → NDCG, MAP
└── 匹配任务
    ├── 图文检索 → Recall@K
    └── 相似度评估 → CLIPScore

多指标综合评估

单一指标难以全面反映模型能力,建议采用多指标组合:

7.2 避免数据泄露

数据泄露(Data Leakage)是评估中的严重问题,会导致评估结果不准确。23

常见泄露类型

泄露类型描述解决方案
答案泄露测试集答案出现在训练数据数据清洗、去重
图像泄露训练集包含测试图像数据集划分
语义泄露问题模板被记忆随机化问题表述
知识泄露LLM 已学得相关知识使用外部知识问答

CircularEval 协议

MMBench 等基准采用 CircularEval 协议:

def circular_evaluate(dataset, model):
    """
    CircularEval: 评估样本不在训练集中出现
    """
    for sample in dataset:
        # 确保样本不被模型"见过"
        assert sample.id not in model.training_data
        result = model.predict(sample)
    return aggregate_results(results)

7.3 模型选择指南

根据不同的应用场景选择合适的评估基准:

选择建议

应用场景推荐基准关键指标
通用能力评估MMBench, SEED-Bench综合准确率
视觉感知能力Q-Bench, MME-Perception感知维度分数
知识问答能力OK-VQA, A-OKVQA准确率
数学推理能力MathVista, MMMU数学推理准确率
文档理解能力DocVQA, OCR-VQAANLS、准确率
图像描述能力COCO, NoCapsCIDEr, SPICE

基准对比总览

主要评估基准对比

基准发布时间任务类型数据规模核心能力评估方式
VQAv22017VQA658K Q&A通用理解开放
GQA2019VQA1.7M Q&A视觉推理选择题
OK-VQA2021VQA14K Q&A外部知识开放
TextVQA2019TextVQA28K Q&AOCR理解开放
DocVQA2021DocVQA50K Q&A文档理解ANLS
COCO2015Captioning123K图像描述指标评估
NoCaps2022Captioning6.4K开放词汇指标评估
MME2023综合7.3K感知+认知选择题
MMBench2023综合2.9K20+维度选择题
SEED-Bench2023综合18K18维度自动化
MMMU2024推理11.5K大学推理选择题
MathVista2024数学6K数学推理选择题
VizWiz2018辅助31K视觉辅助开放
AI2D2018科学图表15K图表理解选择题

参考文献

Footnotes

  1. Liu Y, Duan H, Zhang Y, et al. A Survey on Evaluation of Large Vision-Language Models[J]. arXiv preprint arXiv:2404.02101, 2024.

  2. Fu J, Li S, Bao Y, et al. MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models[J]. arXiv preprint arXiv:2306.13394, 2023.

  3. Liu C, Duan H, Zhang Y, et al. MMBench: Is Your Multi-modal Model an All-Aware Player?[J]. arXiv preprint arXiv:2307.01681, 2023.

  4. Li J, Li D, Savarese S, et al. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models[C]//International Conference on Machine Learning. PMLR, 2023: 19730-19742.

  5. Wang P, Bai S, Tan S H, et al. LVLM-eHub: A Comprehensive Evaluation Framework for Large Vision-Language Models[J]. arXiv preprint arXiv:2311.16036, 2023.

  6. Wu S, Zhang P, Chen D, et al. Q-Bench: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Perception to Cognition[J]. arXiv preprint arXiv:2310.18065, 2023.

  7. Goyal Y, Khot T, Summers-Stay D, et al. Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6904-6913.

  8. Hudson D A, Manning C D. GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6700-6709.

  9. Marino K, Rastegari M, Farhadi A, et al. OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 3195-3204.

  10. Schwenk D, Khandelwal A, Clark C, et al. A-OKVQA: A Benchmark for Visual Question Answering using Outside Knowledge[J]. arXiv preprint arXiv:2206.01718, 2022.

  11. Chen X, Fang H, Lin T Y, et al. Microsoft COCO Captions: Data Collection and Evaluation Server[J]. arXiv preprint arXiv:1504.00325, 2015.

  12. Agrawal H, Desai K, Wang Y, et al. Nocaps: Novel Object Captioning at Scale[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 8948-8957.

  13. Papineni K, Roukos S, Ward T, et al. Bleu: a Method for Automatic Evaluation of Machine Translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. 2002: 311-318.

  14. Vedantam R, Lawrence Zitnick C, Parikh D. CIDEr: Consensus-based Image Description Evaluation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 4566-4575.

  15. Anderson P, Fernando B, Johnson M, et al. SPICE: Semantic Propositional Image Caption Evaluation[C]//Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part V 14. Springer, 2016: 382-398.

  16. Singh A, Natarajan V, Shah R O, et al. Towards VQA Models That Can Read[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 8317-8326.

  17. Mathews A P, Xie L, He X. SMedBERT: A Knowledge-Enhanced Pretrained Language Model for Unified Medical Language Understanding[C]//Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2021: 1692-1702.

  18. Mishra A, Shekhar S, Singh A K, et al. OCR-VQA: Visual Question Answering by Reading Text in Images[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2019: 947-952.

  19. Zhang H, Li X, Bentley F, et al. MMMU: A Massive Multidisciplinary Multimodal Understanding Benchmark for Scientific Problem Solving[J]. arXiv preprint arXiv:2401.12504, 2024.

  20. Lu H, Liu W, Zhang Z, et al. MathVista: Evaluating Mathematical Reasoning in Visual Contexts with Multimodal Large Language Models[J]. arXiv preprint arXiv:2310.02255, 2023.

  21. Gurari D, Li Q, Stangl A J, et al. VizWiz Grand Challenge: Answering Visual Questions from Blind People[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 3608-3617.

  22. Kembhavi A, Salvato M, Kolve E, et al. A Diagram Is Worth a Dozen Images[C]//Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part IV 14. Springer, 2016: 235-251.

  23. Carlini N, Liu C, Erlingsson Ú, et al. The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks[C]//28th USENIX Security Symposium. 2019: 267-284.