一、引言
1.1 传统强化学习的局限性
传统强化学习(Reinforcement Learning, RL)虽然在游戏、机器人控制等领域取得了显著成就,但在实际应用中仍面临诸多根本性挑战1。
关联驱动决策的缺陷:标准RL算法依赖关联性模式进行决策,缺乏对环境因果机制的理解。当奖励函数受到训练过程中未学习到的因素影响时,智能体可能捕获虚假相关性(spurious correlations),导致在新环境中泛化失败2。例如,在自动驾驶训练中,智能体可能学习到”蓝色天空→安全加速”的虚假关联,而在多云天气中性能急剧下降。
分布偏移敏感性:传统RL对分布偏移极为脆弱。当环境发生变化(如光照改变、传感器噪声增加)时,基于统计关联的策略往往表现不佳。此外,未观察到的混杂变量(confounders)会同时影响动作选择和奖励估计,导致价值函数出现系统性偏差3。
离线策略评估的困境:在离线RL场景中,行为策略与目标策略之间的分布偏移使得标准Off-Policy Evaluation(OPE)方法难以准确估计策略性能。特别是在存在混杂偏置的情况下,理论上的不可能结果已被证明4。
1.2 因果强化学习的优势
因果强化学习(Causal Reinforcement Learning, CRL)通过将因果推断与强化学习相结合,为上述问题提供了原则性解决方案12:
| 能力 | 传统RL | 因果RL |
|---|---|---|
| 决策基础 | 统计关联 | 因果机制 |
| 泛化能力 | 分布内有效 | 跨环境鲁棒 |
| 反事实推理 | 不支持 | 支持 |
| 解释性 | 黑盒模型 | 因果解释 |
| 样本效率 | 较低 | 较高 |
因果推断的核心工具——do-算子、反事实推理、调整公式——能够修正混杂偏置、估计干预效果,从而实现更可靠的策略评估与更鲁棒的策略学习2。
二、因果强化学习框架
2.1 因果图与MDP的结合
传统MDP定义为元组 ,其中状态转移概率 和奖励 通过统计方式估计,但未考虑潜在的因果结构1。
因果MDP(Causal MDP) 将MDP扩展为包含隐混杂变量 的结构因果模型:
其中 表示同时影响动作、奖励和转移的隐混杂变量。这种形式化明确区分了:
- 观测分布: —— 包含混杂效应
- 干预分布: —— 反映真实因果效应5
当 时,传统RL方法产生有偏估计。
2.2 因果转移模型 vs 马尔可夫转移模型
| 特性 | 马尔可夫转移模型 | 因果转移模型 |
|---|---|---|
| 依赖关系 | $P(s’ | s, a)$ |
| 泛化能力 | 受限于训练分布 | 跨环境稳定(因果机制不变) |
| 干预处理 | 无法处理 | 通过do-算子自然表达 |
| 计算复杂度 | 较低 | 较高(需结构学习) |
因果转移模型利用因果不变性(Causal Invariance)原理:真正的因果机制在环境间保持稳定。如果智能体仅依赖因果预测因子构建策略,该策略对分布偏移具有内在鲁棒性6。
三、CRL分类体系
根据da Costa Cunha等人(2025)的综述,因果强化学习可分为五个主要分支1:
3.1 因果表征学习(Causal Representation Learning)
目标:从高维观测中学习因果因子化的状态表示,使智能体能够区分真实因果特征与虚假相关因素。
核心方法:
- 因果信息瓶颈(Causal Information Bottleneck, CIB):压缩变量集以维持对目标变量的因果控制,生成最优因果变量抽象7
- 因果发现 + RL:在无先验因果知识的情况下,通过结构学习算法发现状态-动作-奖励间的因果图
- 因果不变表征:构建跨环境不变的表示 ,满足 6
应用:去除图像观测中的背景干扰,使策略专注于物体交互的因果特征。
3.2 反事实策略优化(Counterfactual Policy Optimization)
目标:利用反事实推理改进信用分配和探索效率。
核心思想:智能体不仅评估”发生了什么”,还追问”如果采取不同动作会发生什么”。这种能力使智能体能够:
- 更准确地估计动作的因果效应
- 在稀疏奖励环境中更高效地探索
- 改进离线数据中的策略评估
典型框架:
即使动作 在数据中罕见,反事实估计仍能提供可靠的因果价值评估1。
3.3 离线因果强化学习(Offline Causal RL)
挑战:离线RL中行为策略与目标策略的分布偏移导致标准OPE方法失效。
解决方案:利用因果推断修正混杂偏置:
- 代理调整因果估计(Proxy-Adjusted Causal Estimation, PACE):在存在混杂变量时,使用代理变量调整价值估计,在混杂场景下实现65%的奖励提升1
- 因果离线策略评估:通过do-算子表达”如果我们干预使策略为 ,将获得多少累积奖励”这一反事实查询
核心公式:
3.4 因果迁移学习(Causal Transfer Learning)
目标:利用跨任务的因果不变性实现高效迁移。
方法论:
- 不变策略优化(Invariant Policy Optimization, IPO):识别并利用跨环境不变的因果预测因子构建可迁移策略8
- 因果不变表征学习:学习在源任务和目标任务间保持不变的因果结构
- 因果图结构约束:确保智能体仅依赖奖励和转移的真正因果祖先,减少对无关特征的敏感性
优势:在源环境中学习的因果知识可直接应用于目标环境,大幅减少目标任务的样本需求。
3.5 因果可解释性(Causal Explainability)
目标:为RL决策提供因果层面的解释,增强透明度和可信度。
方法:
- 基于SCM的解释生成(ExplainableSCM):利用结构因果模型生成因果依赖解释,提供82%更稳定的解释,同时实现接近完美的动力学预测1
- 因果图可视化:展示状态-动作-奖励间的因果关系链
- 反事实解释:回答”如果采取不同动作,结果会怎样”
应用场景:医疗决策支持、金融交易审计、自动驾驶事故分析等高风险领域。
四、核心算法
4.1 CausalMBPO
Causal Model-Based Policy Optimization (C-MBPO) 是将因果推断与模型预测相结合的代表性算法9:
核心思想:传统MBRL学习 的预测模型,但忽视因果结构;CausalMBPO学习因果结构模型(Causal Structural Model):
- 因果图估计:对奖励和转移分别估计局部因果图 和
- SCM建模:基于估计的因果图建立结构方程模型
- 反事实Rollout:利用学习的SCM执行 步反事实推演
算法流程:
// CausalMBPO伪代码
Initialize policy πψ, CBN (𝒢r,s′, Φ), replay buffer 𝒟env
for T steps do:
// 数据收集
Collect data under πψ; add to 𝒟env
// 因果结构学习
Estimate local CGMs 𝒢r(s,a) and 𝒢s′(s,a)
Initialize SCM models pθ(x^j | pa(x^j))
for E epochs do:
for N steps do:
// SCM训练
Train SCM models using 𝒟env
// 交互
a ~ πψ(s); add transition to 𝒟env
for M model rollouts do:
// 反事实推演
Sample past states from 𝒟env
Use SCM for h-step counterfactual rollout
Add to 𝒟model
// 策略更新
Update πψ using 𝒟model优势:因果模型对分布偏移具有鲁棒性,因为真实因果机制在不同环境中保持稳定。
4.2 Causal Reflection框架
Causal Reflection 是一种将因果推理嵌入策略学习过程的框架:
- 因果识别:识别状态、动作、奖励间的因果关系
- 反事实推理:对历史轨迹进行反事实分析,评估”如果采取不同动作”
- 策略调整:基于反事实结果调整策略参数
该框架特别适用于需要理解干预效果的场景,如医疗治疗优化。
4.3 因果奖励塑造(Causal Reward Shaping)
原理:利用因果知识设计更有效的奖励函数:
- 因果归因:将奖励变化归因于特定的因果因素
- 反事实奖励:评估未采取动作的反事实奖励
- 不变性增强:设计利用因果不变性的奖励结构
方法:
其中 表示在干预 下从因果因子 到奖励 的因果信息量。
4.4 CausalGDP
CausalGDP: Causality-Guided Diffusion Policies for Reinforcement Learning(2026)是首个将显式因果推理整合到扩散策略中的方法10:
动机:现有扩散策略主要依赖统计关联,未能显式建模状态、动作、奖励间的因果关系。
核心贡献:
- 因果引导的扩散模型:在扩散过程中融入因果约束
- 反事实生成:能够生成反事实动作轨迹
- 鲁棒性提升:因果结构使策略对环境变化更具适应性
4.5 Causal Information Prioritization
Causal Information Bottleneck for RL 提出利用因果信息优先级提升样本效率7:
问题:现有因果方法缺乏对奖励导向的因果理解的建模,限制了目标导向学习的效率。
方法:将因果信息瓶颈与信息优先级结合,使智能体能够:
- 识别与奖励因果相关的状态特征
- 优先探索具有高因果信息量的区域
- 更高效地学习目标导向行为
五、挑战与开放问题
5.1 因果发现 + RL的难点
计算复杂度:在连续状态-动作空间中学习因果结构是NP难问题。现有方法多采用:
- 约束施加:利用领域知识减少搜索空间
- 近似方法:牺牲准确性换取计算可行性
- 混合策略:在线因果发现与离线因果知识的结合
部分可观测性:在POMDP设置下,智能体仅能观测部分状态,增加了因果发现的难度。
在线 vs 离线权衡:
| 设置 | 优势 | 挑战 |
|---|---|---|
| 在线因果发现 | 可主动干预验证因果假设 | 样本效率低,风险高 |
| 离线因果发现 | 利用历史数据 | 混杂偏置,难以验证 |
5.2 干预识别(Intervention Identification)
核心问题:在给定的状态-动作-奖励空间上,智能体应学习哪些干预?
挑战:
- 干预空间爆炸:连续空间中的干预选择问题
- 干预效果估计:估计干预的因果效应需要反事实推理
- 安全干预约束:确保干预不会导致危险结果
研究前沿:
- 基于信息论的干预选择准则
- 安全探索框架下的因果干预
- 多智能体场景中的干预协调
5.3 可识别性条件(Identifiability Conditions)
定义:可识别性指从观测数据中唯一确定因果效应的条件。
关键结果:
- 在无混杂的情况下,干预效果可直接识别
- 存在混杂时,需要额外的识别条件(如后门调整、前门调整)
- 在RL设置中,策略干预下的可识别性条件仍需深入研究5
开放问题:
- 部分可观测下的可识别性:POMDP设置下的因果效应识别
- 非线性SCM的可识别性:超越线性高斯假设的因果发现
- 多智能体可识别性:联合干预下的因果效应分解
5.4 其他开放问题
| 问题 | 描述 |
|---|---|
| 因果强化学习的基准 | 需要标准化的评估环境和指标 |
| 大规模因果RL | 将因果方法扩展到高维图像输入和复杂任务 |
| 因果探索 | 利用因果结构指导高效探索 |
| 因果安全RL | 在安全关键应用中保证因果推理的正确性 |
| 因果多智能体RL | 建模多智能体间的因果交互 |
六、应用场景
6.1 机器人控制
挑战:机器人在非结构化环境中面临分布偏移、感知噪声等挑战。
因果RL贡献:
- 鲁棒控制:利用因果不变性应对环境变化
- 技能迁移:学习可迁移的因果技能库
- 故障诊断:通过反事实推理分析故障原因
案例:利用CausalMBPO学习机械臂操控策略,在光照变化、物体位置偏移等场景下保持鲁棒性能9。
6.2 医疗决策
挑战:医疗数据常存在混杂偏置(如医生根据患者未观测特征选择治疗方案)。
因果RL贡献:
- 治疗策略优化:利用因果推断修正混杂,估计真实治疗效果
- 反事实治疗评估:评估”如果采用不同治疗方案,结果会如何”
- 个性化医疗:学习患者特定的因果响应模型
案例:ICU中的治疗决策支持系统,利用离线因果RL从历史治疗数据中学习最优治疗策略1。
6.3 自动驾驶
挑战:需要处理复杂动态环境、罕见场景、安全关键决策。
因果RL贡献:
- 场景理解:区分真实因果因素(如道路曲率)与虚假相关(如天空颜色)
- 反事实模拟:评估”如果行人行为不同,事故是否会避免”
- 长尾场景处理:通过因果迁移处理罕见但危险的场景
案例:利用因果表示学习去除传感器数据中的无关背景干扰,专注于驾驶相关的因果特征。
6.4 其他应用
- 推荐系统:建模用户行为的因果机制,处理选择偏置
- 金融交易:识别市场变化的因果驱动因素
- 教育系统:优化个性化学习路径
七、参考资料
Footnotes
-
da Costa Cunha, C., Liu, W., French, T., & Mian, A. (2025). Unifying Causal Reinforcement Learning: Survey, Taxonomy, Algorithms and Applications. arXiv:2512.18135. https://arxiv.org/abs/2512.18135 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8
-
Deng, Z., Jiang, J., Long, G., & Zhang, C. (2023). Causal Reinforcement Learning: A Survey. Transactions on Machine Learning Research. https://openreview.net/forum?id=qqnttX9LPo ↩ ↩2 ↩3
-
Schölkopf, B., et al. (2021). Towards causal representation learning. arXiv:2102.11107. https://arxiv.org/abs/2102.11107 ↩
-
Kausik, K., et al. (2024). Theoretical impossibility results for confounded MDPs. NeurIPS 2024. ↩
-
Bareinboim, E., & Pearl, J. (2015). Causal inference and the data-fusion problem. PNAS, 113(27), 7345-7352. ↩ ↩2
-
Zhang, J., et al. (2020). Invariant policy optimization: Towards causal generalization. arXiv:2006.11497. ↩ ↩2
-
Simoes, F. N. F. Q., et al. (2024). The Causal Information Bottleneck and Optimal Causal Variable Abstractions. arXiv:2410.00535. https://arxiv.org/abs/2410.00535 ↩ ↩2
-
Sonar, A., et al. (2021). Invariant policy optimization. ICLR 2021. ↩
-
Caron, A., Mavroudis, V., & Hicks, C. (2025). Towards Causal Model-Based Policy Optimization. arXiv:2503.09719. https://arxiv.org/abs/2503.09719 ↩ ↩2
-
Xiao, X., Hu, X., Ye, Y., & Yue, X. (2026). CausalGDP: Causality-Guided Diffusion Policies for Reinforcement Learning. arXiv:2602.09207. https://arxiv.org/abs/2602.09207 ↩