因果LLM评估基准
概述
评估大型语言模型的因果推理能力需要精心设计的基准测试。由于因果推理涉及多个层次(关联、干预、反事实),且问题形式多样(因果发现、因果效应估计、反事实推理),单一基准难以全面覆盖。本文档介绍当前主流的因果LLM评估基准及其设计特点。1
评估维度分类
因果推理能力层次
根据Pearl因果层级:
| 层级 | 名称 | 评估重点 | 难度 |
|---|---|---|---|
| L1 | 关联 | 条件概率 | ★☆☆ |
| L2 | 干预 | do算子 | ★★☆ |
| L3 | 反事实 | 反事实概率 | ★★★ |
问题类型
| 类型 | 描述 | 示例 |
|---|---|---|
| 因→果 | 预测干预效果 | 服用药物后,康复概率? |
| 果→因 | 推断原因 | 观察到症状,可能的病因? |
| 干预+因果 | 带条件的因果 | 控制Z后,X→Y关系? |
| 反事实 | 假设推理 | 如果没吃药,结果会不同吗? |
CausalBench
CausalBench2是首个四维度综合评估基准:
设计理念
- 多领域覆盖:文本、数学、编程问题
- 四维度评估:每个问题都需要正确回答四个维度
- 防猜测设计:必须同时答对所有维度才能得分
数据集结构
# CausalBench问题示例
{
"id": "cb_001",
"domain": "medical",
"question": "某新药对治疗疾病D的效果如何?",
"context": "试验组100人服用新药,60人康复;对照组100人服用安慰剂,40人康复。",
"dimensions": {
"cause_to_effect": "新药是否有效?(A有效 B无效)",
"effect_to_cause": "康复可能的其他原因?(A自然康复 B药物作用)",
"cause_with_intervention": "若所有人服药,康复率?(A50% B60%)",
"effect_with_intervention": "若不服药但有其他治疗?(A40% B50%)"
},
"ground_truth": {
"cause_to_effect": "A",
"effect_to_cause": "B",
"cause_with_intervention": "B",
"effect_with_intervention": "B"
}
}评估指标
维度准确率
| 维度 | GPT-4 | Claude-3 | Gemini |
|---|---|---|---|
| 因→果 | 78.2% | 76.5% | 72.1% |
| 果→因 | 65.4% | 62.8% | 58.9% |
| 因+干预 | 58.7% | 55.3% | 51.2% |
| 果+干预 | 45.3% | 42.1% | 38.7% |
全维度通过率
只有所有维度都答对才算通过:
当前最佳:GPT-4达到32.1%,远低于人类水平(85%+)。
幻觉关联分析
关键发现:因果推理能力与幻觉倾向呈负相关:
| 模型 | 因果准确率 | 幻觉率 |
|---|---|---|
| GPT-4 | 62.4% | 12.3% |
| Claude-3 | 59.2% | 15.8% |
| Gemini | 54.8% | 18.2% |
| Llama-2 | 45.6% | 24.5% |
CausalGraphBench
CausalGraphBench3专注于因果图发现能力:
基准设计
- 35个因果图:从公开库和学术论文收集
- 元数据丰富:包含变量描述、领域背景
- 规模多样:从小规模(5节点)到大规模(50+节点)
因果图示例
# Asia医疗诊断网络
{
"name": "Asia",
"variables": {
"S": {"name": "Visit to Asia", "domain": [True, False]},
"T": {"name": "Tuberculosis", "domain": [True, False]},
"L": {"name": "Lung Cancer", "domain": [True, False]},
"B": {"name": "Bronchitis", "domain": [True, False]},
"X": {"name": "XRay Result", "domain": ["Positive", "Negative"]},
"D": {"name": "Dyspnea", "domain": [True, False]}
},
"structure": "S→T→X, L→X, T→D, B→D, T←S",
"description": "医疗诊断中的因果关系"
}评估方法
边精度
结构汉明距离(SHD)
关键发现
- 全图上下文方法优于穷举方法
- 性能随图规模下降
- 数据污染影响显著
规模影响分析
| 图规模 | 边精度 | SHD | 边方向准确率 |
|---|---|---|---|
| 5-10节点 | 84.2% | 2.3 | 78.5% |
| 11-20节点 | 71.8% | 5.7 | 65.2% |
| 21-50节点 | 58.4% | 12.3 | 52.1% |
| 50+节点 | 42.3% | 21.8 | 38.7% |
CauSciBench
CauSciBench4评估LLM在科学研究中的因果推理能力:
任务设计
覆盖完整因果分析流程:
问题描述 → 变量选择 → 方法选择 → 统计实现 → 结果解释
↓ ↓ ↓ ↓ ↓
评估1 评估2 评估3 评估4 评估5
领域覆盖
| 领域 | 任务数 | 示例问题 |
|---|---|---|
| 医学 | 58 | 药物效果评估 |
| 经济学 | 47 | 政策效果分析 |
| 环境科学 | 42 | 污染源追溯 |
| 生物学 | 38 | 基因调控网络 |
| 社会学 | 35 | 干预效果评估 |
| 心理学 | 32 | 认知因素分析 |
| 材料科学 | 28 | 合成条件优化 |
| 农学 | 25 | 产量影响因素 |
| 天文学 | 18 | 天体物理因果 |
评估指标
相对误差(MRE)
测试时扩展技术
评估CoT、PoT、ReAct的效果:
| 模型+方法 | 平均MRE | 改进 |
|---|---|---|
| GPT-4 (baseline) | 62.3% | - |
| GPT-4 + CoT | 54.8% | +7.5% |
| GPT-4 + PoT | 51.2% | +11.1% |
| GPT-4 + ReAct | 53.7% | +8.6% |
| o3 + CoT | 48.96% | +13.34% |
关键发现
- o3达到最佳性能:测试时计算扩展有效
- 编程能力重要:PoT(Program of Thought)表现优于CoT
- 长程因果推理困难:多跳因果路径推断准确率低
CausalGraph2LLM
CausalGraph2LLM5评估LLM处理因果图查询的能力:
任务类型
图级查询
- “这个图中,X的最长因果路径是什么?”
- “哪些变量是X的后代?“
节点级查询
- “给定Y,X的条件概率是多少?”
- “干预Z后,X和Y的相关性如何变化?“
编码敏感性实验
关键发现:LLM对图的编码方式高度敏感:
| 编码方式 | 图级准确率 | 节点级准确率 |
|---|---|---|
| 邻接矩阵 | 72.3% | 68.5% |
| 边列表 | 68.9% | 64.2% |
| 自然语言 | 75.8% | 71.3% |
| DOT语言 | 71.2% | 67.8% |
敏感性差距:约60%的性能差异来自编码方式选择。
干预敏感性
| 模型 | 干预前准确率 | 干预后准确率 | 下降 |
|---|---|---|---|
| GPT-4 | 75.2% | 61.3% | -13.9% |
| Claude-3 | 72.8% | 58.7% | -14.1% |
| Gemini-1.5 | 68.4% | 54.2% | -14.2% |
ExpliCa:显式因果推理
ExpliCa6专注于显式表达的因果关系:
数据集特点
- 因果+时序关系:同时包含两种关系
- 显式连接词:使用”因为”、“导致”等词汇
- 人类标注:包含人类接受率
示例
文本:自从他开始服用这种药物后,血压明显下降了。
问题:
1. 药物和血压之间是什么关系?
2. 时间顺序说明了什么?
3. 如果停止服药,血压会如何?
人类接受率:
- 因果解释:0.87
- 时序解释:0.82
- 混合解释:0.91
模型评估结果
| 模型 | 因果准确率 | 时序准确率 | 混淆程度 |
|---|---|---|---|
| GPT-4 | 0.78 | 0.81 | 0.12 |
| Claude-3 | 0.74 | 0.78 | 0.15 |
| Llama-3 | 0.65 | 0.71 | 0.22 |
| Gemini | 0.71 | 0.74 | 0.18 |
发现:模型容易混淆时序关系和因果关系。
组合因果推理评估
Compositional Causal Reasoning (CCR)7评估组合因果推理:
任务设计
定义组合因果量:
平均处理效应(ATE)
必要性充分性(PNS)
复杂度层级
| 复杂度 | 路径数 | 混杂数量 | 干预数 |
|---|---|---|---|
| Level 1 | 1 | 0 | 0 |
| Level 2 | 1-2 | 1 | 1 |
| Level 3 | 2-3 | 2 | 1-2 |
| Level 4 | 3+ | 2+ | 2+ |
模型对比
| 模型 | Level 1 | Level 2 | Level 3 | Level 4 |
|---|---|---|---|---|
| GPT-4 | 89% | 72% | 51% | 28% |
| Claude-3 | 86% | 69% | 48% | 25% |
| o1 | 92% | 85% | 71% | 52% |
关键发现:o1在复杂因果推理上显著优于其他模型。
评估实践指南
如何选择基准
| 评估目标 | 推荐基准 |
|---|---|
| 通用因果推理 | CausalBench |
| 因果图发现 | CausalGraphBench |
| 科学应用 | CauSciBench |
| 因果图查询 | CausalGraph2LLM |
| 组合推理 | CCR |
评估注意事项
- 多维度评估:不仅看准确率,还看置信度校准
- 对抗性测试:设计容易被模型忽略的因果陷阱
- 解释质量:评估因果推理的可解释性
提升因果能力的建议
# CoT Prompt for 因果推理
CAUSAL_COT_PROMPT = """
请逐步分析以下因果问题:
问题:{question}
推理步骤:
1. 识别相关变量:{variables}
2. 画出因果图(或描述因果关系)
3. 确定需要回答的因果量
4. 应用因果推断规则:
- 如果需要,估计P(Y|do(X))
- 如果需要,使用反事实推理
5. 给出结论和置信度
注意:
- 因果关系需要方向
- 混杂因素需要控制
- 相关性不等于因果性
"""相关内容
参考文献
Footnotes
-
IJCAI 2025, “Large Language Models for Causal Discovery: Current Landscape and Future” ↩
-
OpenReview 2025, “CausalBench: A Comprehensive Benchmark for Evaluating Causal Reasoning Capabilities of LLMs” ↩
-
ACL 2025 SRW, “CausalGraphBench: A Benchmark for Evaluating LLM Capabilities of Causal Graph Discovery” ↩
-
ICLR 2026 Under Review, “CauSciBench: A Comprehensive Benchmark on End-to-End Causal Inference for Scientific Research” ↩
-
NAACL 2025 Findings, “CausalGraph2LLM: Evaluating LLMs for Causal Queries” ↩
-
ACL 2025 Findings, “ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models” ↩
-
ICML 2025, “Compositional Causal Reasoning Evaluation in Language Models” ↩