一、引言

1.1 传统强化学习的局限性

传统强化学习(Reinforcement Learning, RL)虽然在游戏、机器人控制等领域取得了显著成就,但在实际应用中仍面临诸多根本性挑战1

关联驱动决策的缺陷:标准RL算法依赖关联性模式进行决策,缺乏对环境因果机制的理解。当奖励函数受到训练过程中未学习到的因素影响时,智能体可能捕获虚假相关性(spurious correlations),导致在新环境中泛化失败2。例如,在自动驾驶训练中,智能体可能学习到”蓝色天空→安全加速”的虚假关联,而在多云天气中性能急剧下降。

分布偏移敏感性:传统RL对分布偏移极为脆弱。当环境发生变化(如光照改变、传感器噪声增加)时,基于统计关联的策略往往表现不佳。此外,未观察到的混杂变量(confounders)会同时影响动作选择和奖励估计,导致价值函数出现系统性偏差3

离线策略评估的困境:在离线RL场景中,行为策略与目标策略之间的分布偏移使得标准Off-Policy Evaluation(OPE)方法难以准确估计策略性能。特别是在存在混杂偏置的情况下,理论上的不可能结果已被证明4

1.2 因果强化学习的优势

因果强化学习(Causal Reinforcement Learning, CRL)通过将因果推断与强化学习相结合,为上述问题提供了原则性解决方案12

能力传统RL因果RL
决策基础统计关联因果机制
泛化能力分布内有效跨环境鲁棒
反事实推理不支持支持
解释性黑盒模型因果解释
样本效率较低较高

因果推断的核心工具——do-算子、反事实推理、调整公式——能够修正混杂偏置、估计干预效果,从而实现更可靠的策略评估与更鲁棒的策略学习2


二、因果强化学习框架

2.1 因果图与MDP的结合

传统MDP定义为元组 ,其中状态转移概率 和奖励 通过统计方式估计,但未考虑潜在的因果结构1

因果MDP(Causal MDP) 将MDP扩展为包含隐混杂变量 的结构因果模型:

其中 表示同时影响动作、奖励和转移的隐混杂变量。这种形式化明确区分了:

  • 观测分布 —— 包含混杂效应
  • 干预分布 —— 反映真实因果效应5

时,传统RL方法产生有偏估计。

2.2 因果转移模型 vs 马尔可夫转移模型

特性马尔可夫转移模型因果转移模型
依赖关系$P(s’s, a)$
泛化能力受限于训练分布跨环境稳定(因果机制不变)
干预处理无法处理通过do-算子自然表达
计算复杂度较低较高(需结构学习)

因果转移模型利用因果不变性(Causal Invariance)原理:真正的因果机制在环境间保持稳定。如果智能体仅依赖因果预测因子构建策略,该策略对分布偏移具有内在鲁棒性6


三、CRL分类体系

根据da Costa Cunha等人(2025)的综述,因果强化学习可分为五个主要分支1

3.1 因果表征学习(Causal Representation Learning)

目标:从高维观测中学习因果因子化的状态表示,使智能体能够区分真实因果特征与虚假相关因素。

核心方法

  • 因果信息瓶颈(Causal Information Bottleneck, CIB):压缩变量集以维持对目标变量的因果控制,生成最优因果变量抽象7
  • 因果发现 + RL:在无先验因果知识的情况下,通过结构学习算法发现状态-动作-奖励间的因果图
  • 因果不变表征:构建跨环境不变的表示 ,满足 6

应用:去除图像观测中的背景干扰,使策略专注于物体交互的因果特征。

3.2 反事实策略优化(Counterfactual Policy Optimization)

目标:利用反事实推理改进信用分配和探索效率。

核心思想:智能体不仅评估”发生了什么”,还追问”如果采取不同动作会发生什么”。这种能力使智能体能够:

  • 更准确地估计动作的因果效应
  • 在稀疏奖励环境中更高效地探索
  • 改进离线数据中的策略评估

典型框架

即使动作 在数据中罕见,反事实估计仍能提供可靠的因果价值评估1

3.3 离线因果强化学习(Offline Causal RL)

挑战:离线RL中行为策略与目标策略的分布偏移导致标准OPE方法失效。

解决方案:利用因果推断修正混杂偏置:

  • 代理调整因果估计(Proxy-Adjusted Causal Estimation, PACE):在存在混杂变量时,使用代理变量调整价值估计,在混杂场景下实现65%的奖励提升1
  • 因果离线策略评估:通过do-算子表达”如果我们干预使策略为 ,将获得多少累积奖励”这一反事实查询

核心公式

3.4 因果迁移学习(Causal Transfer Learning)

目标:利用跨任务的因果不变性实现高效迁移。

方法论

  • 不变策略优化(Invariant Policy Optimization, IPO):识别并利用跨环境不变的因果预测因子构建可迁移策略8
  • 因果不变表征学习:学习在源任务和目标任务间保持不变的因果结构
  • 因果图结构约束:确保智能体仅依赖奖励和转移的真正因果祖先,减少对无关特征的敏感性

优势:在源环境中学习的因果知识可直接应用于目标环境,大幅减少目标任务的样本需求。

3.5 因果可解释性(Causal Explainability)

目标:为RL决策提供因果层面的解释,增强透明度和可信度。

方法

  • 基于SCM的解释生成(ExplainableSCM):利用结构因果模型生成因果依赖解释,提供82%更稳定的解释,同时实现接近完美的动力学预测1
  • 因果图可视化:展示状态-动作-奖励间的因果关系链
  • 反事实解释:回答”如果采取不同动作,结果会怎样”

应用场景:医疗决策支持、金融交易审计、自动驾驶事故分析等高风险领域。


四、核心算法

4.1 CausalMBPO

Causal Model-Based Policy Optimization (C-MBPO) 是将因果推断与模型预测相结合的代表性算法9

核心思想:传统MBRL学习 的预测模型,但忽视因果结构;CausalMBPO学习因果结构模型(Causal Structural Model)

  1. 因果图估计:对奖励和转移分别估计局部因果图
  2. SCM建模:基于估计的因果图建立结构方程模型
  3. 反事实Rollout:利用学习的SCM执行 步反事实推演

算法流程

// CausalMBPO伪代码
Initialize policy πψ, CBN (𝒢r,s′, Φ), replay buffer 𝒟env
for T steps do:
    // 数据收集
    Collect data under πψ; add to 𝒟env
    
    // 因果结构学习
    Estimate local CGMs 𝒢r(s,a) and 𝒢s′(s,a)
    Initialize SCM models pθ(x^j | pa(x^j))
    
    for E epochs do:
        for N steps do:
            // SCM训练
            Train SCM models using 𝒟env
            // 交互
            a ~ πψ(s); add transition to 𝒟env
            
            for M model rollouts do:
                // 反事实推演
                Sample past states from 𝒟env
                Use SCM for h-step counterfactual rollout
                Add to 𝒟model
            
            // 策略更新
            Update πψ using 𝒟model

优势:因果模型对分布偏移具有鲁棒性,因为真实因果机制在不同环境中保持稳定。

4.2 Causal Reflection框架

Causal Reflection 是一种将因果推理嵌入策略学习过程的框架:

  1. 因果识别:识别状态、动作、奖励间的因果关系
  2. 反事实推理:对历史轨迹进行反事实分析,评估”如果采取不同动作”
  3. 策略调整:基于反事实结果调整策略参数

该框架特别适用于需要理解干预效果的场景,如医疗治疗优化。

4.3 因果奖励塑造(Causal Reward Shaping)

原理:利用因果知识设计更有效的奖励函数:

  • 因果归因:将奖励变化归因于特定的因果因素
  • 反事实奖励:评估未采取动作的反事实奖励
  • 不变性增强:设计利用因果不变性的奖励结构

方法

其中 表示在干预 下从因果因子 到奖励 的因果信息量。

4.4 CausalGDP

CausalGDP: Causality-Guided Diffusion Policies for Reinforcement Learning(2026)是首个将显式因果推理整合到扩散策略中的方法10

动机:现有扩散策略主要依赖统计关联,未能显式建模状态、动作、奖励间的因果关系。

核心贡献

  • 因果引导的扩散模型:在扩散过程中融入因果约束
  • 反事实生成:能够生成反事实动作轨迹
  • 鲁棒性提升:因果结构使策略对环境变化更具适应性

4.5 Causal Information Prioritization

Causal Information Bottleneck for RL 提出利用因果信息优先级提升样本效率7

问题:现有因果方法缺乏对奖励导向的因果理解的建模,限制了目标导向学习的效率。

方法:将因果信息瓶颈与信息优先级结合,使智能体能够:

  • 识别与奖励因果相关的状态特征
  • 优先探索具有高因果信息量的区域
  • 更高效地学习目标导向行为

五、挑战与开放问题

5.1 因果发现 + RL的难点

计算复杂度:在连续状态-动作空间中学习因果结构是NP难问题。现有方法多采用:

  • 约束施加:利用领域知识减少搜索空间
  • 近似方法:牺牲准确性换取计算可行性
  • 混合策略:在线因果发现与离线因果知识的结合

部分可观测性:在POMDP设置下,智能体仅能观测部分状态,增加了因果发现的难度。

在线 vs 离线权衡

设置优势挑战
在线因果发现可主动干预验证因果假设样本效率低,风险高
离线因果发现利用历史数据混杂偏置,难以验证

5.2 干预识别(Intervention Identification)

核心问题:在给定的状态-动作-奖励空间上,智能体应学习哪些干预?

挑战

  • 干预空间爆炸:连续空间中的干预选择问题
  • 干预效果估计:估计干预的因果效应需要反事实推理
  • 安全干预约束:确保干预不会导致危险结果

研究前沿

  • 基于信息论的干预选择准则
  • 安全探索框架下的因果干预
  • 多智能体场景中的干预协调

5.3 可识别性条件(Identifiability Conditions)

定义:可识别性指从观测数据中唯一确定因果效应的条件。

关键结果

  • 在无混杂的情况下,干预效果可直接识别
  • 存在混杂时,需要额外的识别条件(如后门调整、前门调整)
  • 在RL设置中,策略干预下的可识别性条件仍需深入研究5

开放问题

  • 部分可观测下的可识别性:POMDP设置下的因果效应识别
  • 非线性SCM的可识别性:超越线性高斯假设的因果发现
  • 多智能体可识别性:联合干预下的因果效应分解

5.4 其他开放问题

问题描述
因果强化学习的基准需要标准化的评估环境和指标
大规模因果RL将因果方法扩展到高维图像输入和复杂任务
因果探索利用因果结构指导高效探索
因果安全RL在安全关键应用中保证因果推理的正确性
因果多智能体RL建模多智能体间的因果交互

六、应用场景

6.1 机器人控制

挑战:机器人在非结构化环境中面临分布偏移、感知噪声等挑战。

因果RL贡献

  • 鲁棒控制:利用因果不变性应对环境变化
  • 技能迁移:学习可迁移的因果技能库
  • 故障诊断:通过反事实推理分析故障原因

案例:利用CausalMBPO学习机械臂操控策略,在光照变化、物体位置偏移等场景下保持鲁棒性能9

6.2 医疗决策

挑战:医疗数据常存在混杂偏置(如医生根据患者未观测特征选择治疗方案)。

因果RL贡献

  • 治疗策略优化:利用因果推断修正混杂,估计真实治疗效果
  • 反事实治疗评估:评估”如果采用不同治疗方案,结果会如何”
  • 个性化医疗:学习患者特定的因果响应模型

案例:ICU中的治疗决策支持系统,利用离线因果RL从历史治疗数据中学习最优治疗策略1

6.3 自动驾驶

挑战:需要处理复杂动态环境、罕见场景、安全关键决策。

因果RL贡献

  • 场景理解:区分真实因果因素(如道路曲率)与虚假相关(如天空颜色)
  • 反事实模拟:评估”如果行人行为不同,事故是否会避免”
  • 长尾场景处理:通过因果迁移处理罕见但危险的场景

案例:利用因果表示学习去除传感器数据中的无关背景干扰,专注于驾驶相关的因果特征。

6.4 其他应用

  • 推荐系统:建模用户行为的因果机制,处理选择偏置
  • 金融交易:识别市场变化的因果驱动因素
  • 教育系统:优化个性化学习路径

七、参考资料

Footnotes

  1. da Costa Cunha, C., Liu, W., French, T., & Mian, A. (2025). Unifying Causal Reinforcement Learning: Survey, Taxonomy, Algorithms and Applications. arXiv:2512.18135. https://arxiv.org/abs/2512.18135 2 3 4 5 6 7 8

  2. Deng, Z., Jiang, J., Long, G., & Zhang, C. (2023). Causal Reinforcement Learning: A Survey. Transactions on Machine Learning Research. https://openreview.net/forum?id=qqnttX9LPo 2 3

  3. Schölkopf, B., et al. (2021). Towards causal representation learning. arXiv:2102.11107. https://arxiv.org/abs/2102.11107

  4. Kausik, K., et al. (2024). Theoretical impossibility results for confounded MDPs. NeurIPS 2024.

  5. Bareinboim, E., & Pearl, J. (2015). Causal inference and the data-fusion problem. PNAS, 113(27), 7345-7352. 2

  6. Zhang, J., et al. (2020). Invariant policy optimization: Towards causal generalization. arXiv:2006.11497. 2

  7. Simoes, F. N. F. Q., et al. (2024). The Causal Information Bottleneck and Optimal Causal Variable Abstractions. arXiv:2410.00535. https://arxiv.org/abs/2410.00535 2

  8. Sonar, A., et al. (2021). Invariant policy optimization. ICLR 2021.

  9. Caron, A., Mavroudis, V., & Hicks, C. (2025). Towards Causal Model-Based Policy Optimization. arXiv:2503.09719. https://arxiv.org/abs/2503.09719 2

  10. Xiao, X., Hu, X., Ye, Y., & Yue, X. (2026). CausalGDP: Causality-Guided Diffusion Policies for Reinforcement Learning. arXiv:2602.09207. https://arxiv.org/abs/2602.09207