因果LLM评估基准

概述

评估大型语言模型的因果推理能力需要精心设计的基准测试。由于因果推理涉及多个层次(关联、干预、反事实),且问题形式多样(因果发现、因果效应估计、反事实推理),单一基准难以全面覆盖。本文档介绍当前主流的因果LLM评估基准及其设计特点。1


评估维度分类

因果推理能力层次

根据Pearl因果层级:

层级名称评估重点难度
L1关联条件概率 ★☆☆
L2干预do算子 ★★☆
L3反事实反事实概率 ★★★

问题类型

类型描述示例
因→果预测干预效果服用药物后,康复概率?
果→因推断原因观察到症状,可能的病因?
干预+因果带条件的因果控制Z后,X→Y关系?
反事实假设推理如果没吃药,结果会不同吗?

CausalBench

CausalBench2是首个四维度综合评估基准:

设计理念

  1. 多领域覆盖:文本、数学、编程问题
  2. 四维度评估:每个问题都需要正确回答四个维度
  3. 防猜测设计:必须同时答对所有维度才能得分

数据集结构

# CausalBench问题示例
{
    "id": "cb_001",
    "domain": "medical",
    "question": "某新药对治疗疾病D的效果如何?",
    "context": "试验组100人服用新药,60人康复;对照组100人服用安慰剂,40人康复。",
    
    "dimensions": {
        "cause_to_effect": "新药是否有效?(A有效 B无效)",
        "effect_to_cause": "康复可能的其他原因?(A自然康复 B药物作用)",
        "cause_with_intervention": "若所有人服药,康复率?(A50% B60%)",
        "effect_with_intervention": "若不服药但有其他治疗?(A40% B50%)"
    },
    
    "ground_truth": {
        "cause_to_effect": "A",
        "effect_to_cause": "B",
        "cause_with_intervention": "B",
        "effect_with_intervention": "B"
    }
}

评估指标

维度准确率

维度GPT-4Claude-3Gemini
因→果78.2%76.5%72.1%
果→因65.4%62.8%58.9%
因+干预58.7%55.3%51.2%
果+干预45.3%42.1%38.7%

全维度通过率

只有所有维度都答对才算通过:

当前最佳:GPT-4达到32.1%,远低于人类水平(85%+)。

幻觉关联分析

关键发现:因果推理能力与幻觉倾向呈负相关:

模型因果准确率幻觉率
GPT-462.4%12.3%
Claude-359.2%15.8%
Gemini54.8%18.2%
Llama-245.6%24.5%

CausalGraphBench

CausalGraphBench3专注于因果图发现能力:

基准设计

  • 35个因果图:从公开库和学术论文收集
  • 元数据丰富:包含变量描述、领域背景
  • 规模多样:从小规模(5节点)到大规模(50+节点)

因果图示例

# Asia医疗诊断网络
{
    "name": "Asia",
    "variables": {
        "S": {"name": "Visit to Asia", "domain": [True, False]},
        "T": {"name": "Tuberculosis", "domain": [True, False]},
        "L": {"name": "Lung Cancer", "domain": [True, False]},
        "B": {"name": "Bronchitis", "domain": [True, False]},
        "X": {"name": "XRay Result", "domain": ["Positive", "Negative"]},
        "D": {"name": "Dyspnea", "domain": [True, False]}
    },
    "structure": "S→T→X, L→X, T→D, B→D, T←S",
    "description": "医疗诊断中的因果关系"
}

评估方法

边精度

结构汉明距离(SHD)

关键发现

  1. 全图上下文方法优于穷举方法
  2. 性能随图规模下降
  3. 数据污染影响显著

规模影响分析

图规模边精度SHD边方向准确率
5-10节点84.2%2.378.5%
11-20节点71.8%5.765.2%
21-50节点58.4%12.352.1%
50+节点42.3%21.838.7%

CauSciBench

CauSciBench4评估LLM在科学研究中的因果推理能力:

任务设计

覆盖完整因果分析流程

问题描述 → 变量选择 → 方法选择 → 统计实现 → 结果解释
    ↓           ↓           ↓           ↓           ↓
  评估1        评估2       评估3       评估4       评估5

领域覆盖

领域任务数示例问题
医学58药物效果评估
经济学47政策效果分析
环境科学42污染源追溯
生物学38基因调控网络
社会学35干预效果评估
心理学32认知因素分析
材料科学28合成条件优化
农学25产量影响因素
天文学18天体物理因果

评估指标

相对误差(MRE)

测试时扩展技术

评估CoT、PoT、ReAct的效果:

模型+方法平均MRE改进
GPT-4 (baseline)62.3%-
GPT-4 + CoT54.8%+7.5%
GPT-4 + PoT51.2%+11.1%
GPT-4 + ReAct53.7%+8.6%
o3 + CoT48.96%+13.34%

关键发现

  1. o3达到最佳性能:测试时计算扩展有效
  2. 编程能力重要:PoT(Program of Thought)表现优于CoT
  3. 长程因果推理困难:多跳因果路径推断准确率低

CausalGraph2LLM

CausalGraph2LLM5评估LLM处理因果图查询的能力:

任务类型

图级查询

  • “这个图中,X的最长因果路径是什么?”
  • “哪些变量是X的后代?“

节点级查询

  • “给定Y,X的条件概率是多少?”
  • “干预Z后,X和Y的相关性如何变化?“

编码敏感性实验

关键发现:LLM对图的编码方式高度敏感

编码方式图级准确率节点级准确率
邻接矩阵72.3%68.5%
边列表68.9%64.2%
自然语言75.8%71.3%
DOT语言71.2%67.8%

敏感性差距:约60%的性能差异来自编码方式选择。

干预敏感性

模型干预前准确率干预后准确率下降
GPT-475.2%61.3%-13.9%
Claude-372.8%58.7%-14.1%
Gemini-1.568.4%54.2%-14.2%

ExpliCa:显式因果推理

ExpliCa6专注于显式表达的因果关系

数据集特点

  1. 因果+时序关系:同时包含两种关系
  2. 显式连接词:使用”因为”、“导致”等词汇
  3. 人类标注:包含人类接受率

示例

文本:自从他开始服用这种药物后,血压明显下降了。

问题:
1. 药物和血压之间是什么关系?
2. 时间顺序说明了什么?
3. 如果停止服药,血压会如何?

人类接受率:
- 因果解释:0.87
- 时序解释:0.82
- 混合解释:0.91

模型评估结果

模型因果准确率时序准确率混淆程度
GPT-40.780.810.12
Claude-30.740.780.15
Llama-30.650.710.22
Gemini0.710.740.18

发现:模型容易混淆时序关系和因果关系。


组合因果推理评估

Compositional Causal Reasoning (CCR)7评估组合因果推理

任务设计

定义组合因果量:

平均处理效应(ATE)

必要性充分性(PNS)

复杂度层级

复杂度路径数混杂数量干预数
Level 1100
Level 21-211
Level 32-321-2
Level 43+2+2+

模型对比

模型Level 1Level 2Level 3Level 4
GPT-489%72%51%28%
Claude-386%69%48%25%
o192%85%71%52%

关键发现:o1在复杂因果推理上显著优于其他模型。


评估实践指南

如何选择基准

评估目标推荐基准
通用因果推理CausalBench
因果图发现CausalGraphBench
科学应用CauSciBench
因果图查询CausalGraph2LLM
组合推理CCR

评估注意事项

  1. 多维度评估:不仅看准确率,还看置信度校准
  2. 对抗性测试:设计容易被模型忽略的因果陷阱
  3. 解释质量:评估因果推理的可解释性

提升因果能力的建议

# CoT Prompt for 因果推理
CAUSAL_COT_PROMPT = """
请逐步分析以下因果问题:
 
问题:{question}
 
推理步骤:
1. 识别相关变量:{variables}
2. 画出因果图(或描述因果关系)
3. 确定需要回答的因果量
4. 应用因果推断规则:
   - 如果需要,估计P(Y|do(X))
   - 如果需要,使用反事实推理
5. 给出结论和置信度
 
注意:
- 因果关系需要方向
- 混杂因素需要控制
- 相关性不等于因果性
"""

相关内容


参考文献

Footnotes

  1. IJCAI 2025, “Large Language Models for Causal Discovery: Current Landscape and Future”

  2. OpenReview 2025, “CausalBench: A Comprehensive Benchmark for Evaluating Causal Reasoning Capabilities of LLMs”

  3. ACL 2025 SRW, “CausalGraphBench: A Benchmark for Evaluating LLM Capabilities of Causal Graph Discovery”

  4. ICLR 2026 Under Review, “CauSciBench: A Comprehensive Benchmark on End-to-End Causal Inference for Scientific Research”

  5. NAACL 2025 Findings, “CausalGraph2LLM: Evaluating LLMs for Causal Queries”

  6. ACL 2025 Findings, “ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models”

  7. ICML 2025, “Compositional Causal Reasoning Evaluation in Language Models”