因果LLM评估基准

概述

评估大型语言模型的因果推理能力需要精心设计的基准测试。由于因果推理涉及多个层次（关联、干预、反事实），且问题形式多样（因果发现、因果效应估计、反事实推理），单一基准难以全面覆盖。本文档介绍当前主流的因果LLM评估基准及其设计特点。¹

评估维度分类

因果推理能力层次

根据Pearl因果层级：

层级	名称	评估重点	难度
L1	关联	条件概率 $P (Y ∥ X)$	★☆☆
L2	干预	do算子 $P (Y ∥ d o (X))$	★★☆
L3	反事实	反事实概率 $P (Y_{x} ∥ X = x^{'}, Y = y^{'})$	★★★

问题类型

类型	描述	示例
因→果	预测干预效果	服用药物后，康复概率？
果→因	推断原因	观察到症状，可能的病因？
干预+因果	带条件的因果	控制Z后，X→Y关系？
反事实	假设推理	如果没吃药，结果会不同吗？

CausalBench

CausalBench²是首个四维度综合评估基准：

设计理念

多领域覆盖：文本、数学、编程问题
四维度评估：每个问题都需要正确回答四个维度
防猜测设计：必须同时答对所有维度才能得分

数据集结构

# CausalBench问题示例
{
    "id": "cb_001",
    "domain": "medical",
    "question": "某新药对治疗疾病D的效果如何？",
    "context": "试验组100人服用新药，60人康复；对照组100人服用安慰剂，40人康复。",
    
    "dimensions": {
        "cause_to_effect": "新药是否有效？（A有效 B无效）",
        "effect_to_cause": "康复可能的其他原因？（A自然康复 B药物作用）",
        "cause_with_intervention": "若所有人服药，康复率？（A50% B60%）",
        "effect_with_intervention": "若不服药但有其他治疗？（A40% B50%）"
    },
    
    "ground_truth": {
        "cause_to_effect": "A",
        "effect_to_cause": "B",
        "cause_with_intervention": "B",
        "effect_with_intervention": "B"
    }
}

评估指标

维度准确率

维度	GPT-4	Claude-3	Gemini
因→果	78.2%	76.5%	72.1%
果→因	65.4%	62.8%	58.9%
因+干预	58.7%	55.3%	51.2%
果+干预	45.3%	42.1%	38.7%

全维度通过率

只有所有维度都答对才算通过：

pass_rate = \frac{1}{N} i = 1 \sum N 1 [all_dims_correct (i)]

当前最佳：GPT-4达到32.1%，远低于人类水平（85%+）。

幻觉关联分析

关键发现：因果推理能力与幻觉倾向呈负相关：

模型	因果准确率	幻觉率
GPT-4	62.4%	12.3%
Claude-3	59.2%	15.8%
Gemini	54.8%	18.2%
Llama-2	45.6%	24.5%

CausalGraphBench

CausalGraphBench³专注于因果图发现能力：

基准设计

35个因果图：从公开库和学术论文收集
元数据丰富：包含变量描述、领域背景
规模多样：从小规模（5节点）到大规模（50+节点）

因果图示例

# Asia医疗诊断网络
{
    "name": "Asia",
    "variables": {
        "S": {"name": "Visit to Asia", "domain": [True, False]},
        "T": {"name": "Tuberculosis", "domain": [True, False]},
        "L": {"name": "Lung Cancer", "domain": [True, False]},
        "B": {"name": "Bronchitis", "domain": [True, False]},
        "X": {"name": "XRay Result", "domain": ["Positive", "Negative"]},
        "D": {"name": "Dyspnea", "domain": [True, False]}
    },
    "structure": "S→T→X, L→X, T→D, B→D, T←S",
    "description": "医疗诊断中的因果关系"
}

评估方法

边精度

Edge Accuracy = \frac{TP}{TP + FP + FN}

结构汉明距离（SHD）

SHD = ∣ E_{pred} △ E_{true} ∣

关键发现

全图上下文方法优于穷举方法
性能随图规模下降
数据污染影响显著

规模影响分析

图规模	边精度	SHD	边方向准确率
5-10节点	84.2%	2.3	78.5%
11-20节点	71.8%	5.7	65.2%
21-50节点	58.4%	12.3	52.1%
50+节点	42.3%	21.8	38.7%

CauSciBench

CauSciBench⁴评估LLM在科学研究中的因果推理能力：

任务设计

覆盖完整因果分析流程：

问题描述 → 变量选择 → 方法选择 → 统计实现 → 结果解释
    ↓           ↓           ↓           ↓           ↓
  评估1        评估2       评估3       评估4       评估5

领域覆盖

领域	任务数	示例问题
医学	58	药物效果评估
经济学	47	政策效果分析
环境科学	42	污染源追溯
生物学	38	基因调控网络
社会学	35	干预效果评估
心理学	32	认知因素分析
材料科学	28	合成条件优化
农学	25	产量影响因素
天文学	18	天体物理因果

评估指标

相对误差（MRE）

MRE = \frac{1}{N} i = 1 \sum N \frac{∣ y ^ _{i} - y _{i} ∣}{∣ y _{i} ∣}

测试时扩展技术

评估CoT、PoT、ReAct的效果：

模型+方法	平均MRE	改进
GPT-4 (baseline)	62.3%	-
GPT-4 + CoT	54.8%	+7.5%
GPT-4 + PoT	51.2%	+11.1%
GPT-4 + ReAct	53.7%	+8.6%
o3 + CoT	48.96%	+13.34%

关键发现

o3达到最佳性能：测试时计算扩展有效
编程能力重要：PoT（Program of Thought）表现优于CoT
长程因果推理困难：多跳因果路径推断准确率低

CausalGraph2LLM

CausalGraph2LLM⁵评估LLM处理因果图查询的能力：

任务类型

图级查询

“这个图中，X的最长因果路径是什么？”
“哪些变量是X的后代？“

节点级查询

“给定Y，X的条件概率是多少？”
“干预Z后，X和Y的相关性如何变化？“

编码敏感性实验

关键发现：LLM对图的编码方式高度敏感：

编码方式	图级准确率	节点级准确率
邻接矩阵	72.3%	68.5%
边列表	68.9%	64.2%
自然语言	75.8%	71.3%
DOT语言	71.2%	67.8%

敏感性差距：约60%的性能差异来自编码方式选择。

干预敏感性

模型	干预前准确率	干预后准确率	下降
GPT-4	75.2%	61.3%	-13.9%
Claude-3	72.8%	58.7%	-14.1%
Gemini-1.5	68.4%	54.2%	-14.2%

ExpliCa：显式因果推理

ExpliCa⁶专注于显式表达的因果关系：

数据集特点

因果+时序关系：同时包含两种关系
显式连接词：使用”因为”、“导致”等词汇
人类标注：包含人类接受率

示例

文本：自从他开始服用这种药物后，血压明显下降了。

问题：
1. 药物和血压之间是什么关系？
2. 时间顺序说明了什么？
3. 如果停止服药，血压会如何？

人类接受率：
- 因果解释：0.87
- 时序解释：0.82
- 混合解释：0.91

模型评估结果

模型	因果准确率	时序准确率	混淆程度
GPT-4	0.78	0.81	0.12
Claude-3	0.74	0.78	0.15
Llama-3	0.65	0.71	0.22
Gemini	0.71	0.74	0.18

发现：模型容易混淆时序关系和因果关系。

组合因果推理评估

Compositional Causal Reasoning (CCR)⁷评估组合因果推理：

任务设计

定义组合因果量：

平均处理效应（ATE）

ATE = E [Y_{1} - Y_{0}]

必要性充分性（PNS）

PNS = P (Y_{0} = 1∣ Y_{1} = 0)

复杂度层级

复杂度	路径数	混杂数量	干预数
Level 1	1	0	0
Level 2	1-2	1	1
Level 3	2-3	2	1-2
Level 4	3+	2+	2+

模型对比

模型	Level 1	Level 2	Level 3	Level 4
GPT-4	89%	72%	51%	28%
Claude-3	86%	69%	48%	25%
o1	92%	85%	71%	52%

关键发现：o1在复杂因果推理上显著优于其他模型。

评估实践指南

如何选择基准

评估目标	推荐基准
通用因果推理	CausalBench
因果图发现	CausalGraphBench
科学应用	CauSciBench
因果图查询	CausalGraph2LLM
组合推理	CCR

评估注意事项

多维度评估：不仅看准确率，还看置信度校准
对抗性测试：设计容易被模型忽略的因果陷阱
解释质量：评估因果推理的可解释性

提升因果能力的建议

# CoT Prompt for 因果推理
CAUSAL_COT_PROMPT = """
请逐步分析以下因果问题：
 
问题：{question}
 
推理步骤：
1. 识别相关变量：{variables}
2. 画出因果图（或描述因果关系）
3. 确定需要回答的因果量
4. 应用因果推断规则：
   - 如果需要，估计P(Y|do(X))
   - 如果需要，使用反事实推理
5. 给出结论和置信度
 
注意：
- 因果关系需要方向
- 混杂因素需要控制
- 相关性不等于因果性
"""

参考文献

IJCAI 2025, “Large Language Models for Causal Discovery: Current Landscape and Future” ↩
OpenReview 2025, “CausalBench: A Comprehensive Benchmark for Evaluating Causal Reasoning Capabilities of LLMs” ↩
ACL 2025 SRW, “CausalGraphBench: A Benchmark for Evaluating LLM Capabilities of Causal Graph Discovery” ↩
ICLR 2026 Under Review, “CauSciBench: A Comprehensive Benchmark on End-to-End Causal Inference for Scientific Research” ↩
NAACL 2025 Findings, “CausalGraph2LLM: Evaluating LLMs for Causal Queries” ↩
ACL 2025 Findings, “ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models” ↩
ICML 2025, “Compositional Causal Reasoning Evaluation in Language Models” ↩

Metaphor

探索

因果LLM评估基准

因果LLM评估基准

概述

评估维度分类

因果推理能力层次

问题类型

CausalBench

设计理念

数据集结构

评估指标

维度准确率

全维度通过率

幻觉关联分析

CausalGraphBench

基准设计

因果图示例

评估方法

边精度

结构汉明距离（SHD）

关键发现

规模影响分析

CauSciBench

任务设计

领域覆盖

评估指标

相对误差（MRE）

测试时扩展技术

关键发现

CausalGraph2LLM

任务类型

图级查询

节点级查询

编码敏感性实验

干预敏感性

ExpliCa：显式因果推理

数据集特点

示例

模型评估结果

组合因果推理评估

任务设计

平均处理效应（ATE）

必要性充分性（PNS）

复杂度层级

模型对比

评估实践指南

如何选择基准

评估注意事项

提升因果能力的建议

相关内容

参考文献

Footnotes

关系图谱

目录

反向链接