因果强化学习（Causal Reinforcement Learning）

一、引言

1.1 传统强化学习的局限性

传统强化学习（Reinforcement Learning, RL）虽然在游戏、机器人控制等领域取得了显著成就，但在实际应用中仍面临诸多根本性挑战¹。

关联驱动决策的缺陷：标准RL算法依赖关联性模式进行决策，缺乏对环境因果机制的理解。当奖励函数受到训练过程中未学习到的因素影响时，智能体可能捕获虚假相关性（spurious correlations），导致在新环境中泛化失败²。例如，在自动驾驶训练中，智能体可能学习到”蓝色天空→安全加速”的虚假关联，而在多云天气中性能急剧下降。

分布偏移敏感性：传统RL对分布偏移极为脆弱。当环境发生变化（如光照改变、传感器噪声增加）时，基于统计关联的策略往往表现不佳。此外，未观察到的混杂变量（confounders）会同时影响动作选择和奖励估计，导致价值函数出现系统性偏差³。

离线策略评估的困境：在离线RL场景中，行为策略与目标策略之间的分布偏移使得标准Off-Policy Evaluation（OPE）方法难以准确估计策略性能。特别是在存在混杂偏置的情况下，理论上的不可能结果已被证明⁴。

1.2 因果强化学习的优势

因果强化学习（Causal Reinforcement Learning, CRL）通过将因果推断与强化学习相结合，为上述问题提供了原则性解决方案¹²：

能力	传统RL	因果RL
决策基础	统计关联	因果机制
泛化能力	分布内有效	跨环境鲁棒
反事实推理	不支持	支持
解释性	黑盒模型	因果解释
样本效率	较低	较高

因果推断的核心工具——do-算子、反事实推理、调整公式——能够修正混杂偏置、估计干预效果，从而实现更可靠的策略评估与更鲁棒的策略学习²。

二、因果强化学习框架

2.1 因果图与MDP的结合

传统MDP定义为元组 $(S, A, P, R, γ)$ ，其中状态转移概率 $P (s^{'} ∣ s, a)$ 和奖励 $R (s, a)$ 通过统计方式估计，但未考虑潜在的因果结构¹。

因果MDP（Causal MDP） 将MDP扩展为包含隐混杂变量 $U_{t}$ 的结构因果模型：

A_{t} = f_{A} (S_{t}, U_{t}), R_{t} = f_{R} (S_{t}, A_{t}, U_{t}), S_{t + 1} = f_{S} (S_{t}, A_{t}, U_{t})

其中 $U_{t}$ 表示同时影响动作、奖励和转移的隐混杂变量。这种形式化明确区分了：

观测分布： $P (S_{t + 1}, R_{t} ∣ S_{t}, A_{t} = a)$ —— 包含混杂效应
干预分布： $P (S_{t + 1}, R_{t} ∣ S_{t}, d o (A_{t} = a))$ —— 反映真实因果效应⁵

当 $P (u ∣ s, a) \neq = P (u ∣ s)$ 时，传统RL方法产生有偏估计。

2.2 因果转移模型 vs 马尔可夫转移模型

特性	马尔可夫转移模型	因果转移模型
依赖关系	$P(s’	s, a)$
泛化能力	受限于训练分布	跨环境稳定（因果机制不变）
干预处理	无法处理	通过do-算子自然表达
计算复杂度	较低	较高（需结构学习）

因果转移模型利用因果不变性（Causal Invariance）原理：真正的因果机制在环境间保持稳定。如果智能体仅依赖因果预测因子构建策略，该策略对分布偏移具有内在鲁棒性⁶。

三、CRL分类体系

根据da Costa Cunha等人（2025）的综述，因果强化学习可分为五个主要分支¹：

3.1 因果表征学习（Causal Representation Learning）

目标：从高维观测中学习因果因子化的状态表示，使智能体能够区分真实因果特征与虚假相关因素。

核心方法：

因果信息瓶颈（Causal Information Bottleneck, CIB）：压缩变量集以维持对目标变量的因果控制，生成最优因果变量抽象⁷
因果发现 + RL：在无先验因果知识的情况下，通过结构学习算法发现状态-动作-奖励间的因果图
因果不变表征：构建跨环境不变的表示 $ϕ (s)$ ，满足 $P_{e} (R ∣ ϕ (S), A) = P_{e^{'}} (R ∣ ϕ (S), A), \forall e, e^{'} \in E$ ⁶

应用：去除图像观测中的背景干扰，使策略专注于物体交互的因果特征。

3.2 反事实策略优化（Counterfactual Policy Optimization）

目标：利用反事实推理改进信用分配和探索效率。

核心思想：智能体不仅评估”发生了什么”，还追问”如果采取不同动作会发生什么”。这种能力使智能体能够：

更准确地估计动作的因果效应
在稀疏奖励环境中更高效地探索
改进离线数据中的策略评估

典型框架：

Q (s, a) = E [R + γV (S^{'}) ∣ S = s, d o (A = a)]

即使动作 $a$ 在数据中罕见，反事实估计仍能提供可靠的因果价值评估¹。

3.3 离线因果强化学习（Offline Causal RL）

挑战：离线RL中行为策略与目标策略的分布偏移导致标准OPE方法失效。

解决方案：利用因果推断修正混杂偏置：

代理调整因果估计（Proxy-Adjusted Causal Estimation, PACE）：在存在混杂变量时，使用代理变量调整价值估计，在混杂场景下实现65%的奖励提升¹
因果离线策略评估：通过do-算子表达”如果我们干预使策略为 $π$ ，将获得多少累积奖励”这一反事实查询

核心公式：

V^{π} = E [t \sum γ^{t} R_{t} d o (A_{t} = π (S_{t}))]

3.4 因果迁移学习（Causal Transfer Learning）

目标：利用跨任务的因果不变性实现高效迁移。

方法论：

不变策略优化（Invariant Policy Optimization, IPO）：识别并利用跨环境不变的因果预测因子构建可迁移策略⁸
因果不变表征学习：学习在源任务和目标任务间保持不变的因果结构
因果图结构约束：确保智能体仅依赖奖励和转移的真正因果祖先，减少对无关特征的敏感性

优势：在源环境中学习的因果知识可直接应用于目标环境，大幅减少目标任务的样本需求。

3.5 因果可解释性（Causal Explainability）

目标：为RL决策提供因果层面的解释，增强透明度和可信度。

方法：

基于SCM的解释生成（ExplainableSCM）：利用结构因果模型生成因果依赖解释，提供82%更稳定的解释，同时实现接近完美的动力学预测¹
因果图可视化：展示状态-动作-奖励间的因果关系链
反事实解释：回答”如果采取不同动作，结果会怎样”

应用场景：医疗决策支持、金融交易审计、自动驾驶事故分析等高风险领域。

四、核心算法

4.1 CausalMBPO

Causal Model-Based Policy Optimization (C-MBPO) 是将因果推断与模型预测相结合的代表性算法⁹：

核心思想：传统MBRL学习 $P (s^{'} ∣ s, a)$ 的预测模型，但忽视因果结构；CausalMBPO学习因果结构模型（Causal Structural Model）：

因果图估计：对奖励和转移分别估计局部因果图 $G_{r} (s, a)$ 和 $G_{s^{'}} (s, a)$
SCM建模：基于估计的因果图建立结构方程模型 $p_{θ} (x^{j} ∣ p a (x^{j}))$
反事实Rollout：利用学习的SCM执行 $h$ 步反事实推演

算法流程：

// CausalMBPO伪代码
Initialize policy πψ, CBN (𝒢r,s′, Φ), replay buffer 𝒟env
for T steps do:
    // 数据收集
    Collect data under πψ; add to 𝒟env
    
    // 因果结构学习
    Estimate local CGMs 𝒢r(s,a) and 𝒢s′(s,a)
    Initialize SCM models pθ(x^j | pa(x^j))
    
    for E epochs do:
        for N steps do:
            // SCM训练
            Train SCM models using 𝒟env
            // 交互
            a ~ πψ(s); add transition to 𝒟env
            
            for M model rollouts do:
                // 反事实推演
                Sample past states from 𝒟env
                Use SCM for h-step counterfactual rollout
                Add to 𝒟model
            
            // 策略更新
            Update πψ using 𝒟model

优势：因果模型对分布偏移具有鲁棒性，因为真实因果机制在不同环境中保持稳定。

4.2 Causal Reflection框架

Causal Reflection 是一种将因果推理嵌入策略学习过程的框架：

因果识别：识别状态、动作、奖励间的因果关系
反事实推理：对历史轨迹进行反事实分析，评估”如果采取不同动作”
策略调整：基于反事实结果调整策略参数

该框架特别适用于需要理解干预效果的场景，如医疗治疗优化。

4.3 因果奖励塑造（Causal Reward Shaping）

原理：利用因果知识设计更有效的奖励函数：

因果归因：将奖励变化归因于特定的因果因素
反事实奖励：评估未采取动作的反事实奖励
不变性增强：设计利用因果不变性的奖励结构

方法：

R_{c a u s a l} (s, a, s^{'}) = R (s, a, s^{'}) + λ \cdot I (C \to R ∣ d o (A = a))

其中 $I (C \to R ∣ d o (A = a))$ 表示在干预 $d o (A = a)$ 下从因果因子 $C$ 到奖励 $R$ 的因果信息量。

4.4 CausalGDP

CausalGDP: Causality-Guided Diffusion Policies for Reinforcement Learning（2026）是首个将显式因果推理整合到扩散策略中的方法¹⁰：

动机：现有扩散策略主要依赖统计关联，未能显式建模状态、动作、奖励间的因果关系。

核心贡献：

因果引导的扩散模型：在扩散过程中融入因果约束
反事实生成：能够生成反事实动作轨迹
鲁棒性提升：因果结构使策略对环境变化更具适应性

4.5 Causal Information Prioritization

Causal Information Bottleneck for RL 提出利用因果信息优先级提升样本效率⁷：

问题：现有因果方法缺乏对奖励导向的因果理解的建模，限制了目标导向学习的效率。

方法：将因果信息瓶颈与信息优先级结合，使智能体能够：

识别与奖励因果相关的状态特征
优先探索具有高因果信息量的区域
更高效地学习目标导向行为

五、挑战与开放问题

5.1 因果发现 + RL的难点

计算复杂度：在连续状态-动作空间中学习因果结构是NP难问题。现有方法多采用：

约束施加：利用领域知识减少搜索空间
近似方法：牺牲准确性换取计算可行性
混合策略：在线因果发现与离线因果知识的结合

部分可观测性：在POMDP设置下，智能体仅能观测部分状态，增加了因果发现的难度。

在线 vs 离线权衡：

设置	优势	挑战
在线因果发现	可主动干预验证因果假设	样本效率低，风险高
离线因果发现	利用历史数据	混杂偏置，难以验证

5.2 干预识别（Intervention Identification）

核心问题：在给定的状态-动作-奖励空间上，智能体应学习哪些干预？

挑战：

干预空间爆炸：连续空间中的干预选择问题
干预效果估计：估计干预的因果效应需要反事实推理
安全干预约束：确保干预不会导致危险结果

研究前沿：

基于信息论的干预选择准则
安全探索框架下的因果干预
多智能体场景中的干预协调

5.3 可识别性条件（Identifiability Conditions）

定义：可识别性指从观测数据中唯一确定因果效应的条件。

关键结果：

在无混杂的情况下，干预效果可直接识别
存在混杂时，需要额外的识别条件（如后门调整、前门调整）
在RL设置中，策略干预下的可识别性条件仍需深入研究⁵

开放问题：

部分可观测下的可识别性：POMDP设置下的因果效应识别
非线性SCM的可识别性：超越线性高斯假设的因果发现
多智能体可识别性：联合干预下的因果效应分解

5.4 其他开放问题

问题	描述
因果强化学习的基准	需要标准化的评估环境和指标
大规模因果RL	将因果方法扩展到高维图像输入和复杂任务
因果探索	利用因果结构指导高效探索
因果安全RL	在安全关键应用中保证因果推理的正确性
因果多智能体RL	建模多智能体间的因果交互

六、应用场景

6.1 机器人控制

挑战：机器人在非结构化环境中面临分布偏移、感知噪声等挑战。

因果RL贡献：

鲁棒控制：利用因果不变性应对环境变化
技能迁移：学习可迁移的因果技能库
故障诊断：通过反事实推理分析故障原因

案例：利用CausalMBPO学习机械臂操控策略，在光照变化、物体位置偏移等场景下保持鲁棒性能⁹。

6.2 医疗决策

挑战：医疗数据常存在混杂偏置（如医生根据患者未观测特征选择治疗方案）。

因果RL贡献：

治疗策略优化：利用因果推断修正混杂，估计真实治疗效果
反事实治疗评估：评估”如果采用不同治疗方案，结果会如何”
个性化医疗：学习患者特定的因果响应模型

案例：ICU中的治疗决策支持系统，利用离线因果RL从历史治疗数据中学习最优治疗策略¹。

6.3 自动驾驶

挑战：需要处理复杂动态环境、罕见场景、安全关键决策。

因果RL贡献：

场景理解：区分真实因果因素（如道路曲率）与虚假相关（如天空颜色）
反事实模拟：评估”如果行人行为不同，事故是否会避免”
长尾场景处理：通过因果迁移处理罕见但危险的场景

案例：利用因果表示学习去除传感器数据中的无关背景干扰，专注于驾驶相关的因果特征。

6.4 其他应用

推荐系统：建模用户行为的因果机制，处理选择偏置
金融交易：识别市场变化的因果驱动因素
教育系统：优化个性化学习路径

七、参考资料

da Costa Cunha, C., Liu, W., French, T., & Mian, A. (2025). Unifying Causal Reinforcement Learning: Survey, Taxonomy, Algorithms and Applications. arXiv:2512.18135. https://arxiv.org/abs/2512.18135 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
Deng, Z., Jiang, J., Long, G., & Zhang, C. (2023). Causal Reinforcement Learning: A Survey. Transactions on Machine Learning Research. https://openreview.net/forum?id=qqnttX9LPo ↩ ↩² ↩³
Schölkopf, B., et al. (2021). Towards causal representation learning. arXiv:2102.11107. https://arxiv.org/abs/2102.11107 ↩
Kausik, K., et al. (2024). Theoretical impossibility results for confounded MDPs. NeurIPS 2024. ↩
Bareinboim, E., & Pearl, J. (2015). Causal inference and the data-fusion problem. PNAS, 113(27), 7345-7352. ↩ ↩²
Zhang, J., et al. (2020). Invariant policy optimization: Towards causal generalization. arXiv:2006.11497. ↩ ↩²
Simoes, F. N. F. Q., et al. (2024). The Causal Information Bottleneck and Optimal Causal Variable Abstractions. arXiv:2410.00535. https://arxiv.org/abs/2410.00535 ↩ ↩²
Sonar, A., et al. (2021). Invariant policy optimization. ICLR 2021. ↩
Caron, A., Mavroudis, V., & Hicks, C. (2025). Towards Causal Model-Based Policy Optimization. arXiv:2503.09719. https://arxiv.org/abs/2503.09719 ↩ ↩²
Xiao, X., Hu, X., Ye, Y., & Yue, X. (2026). CausalGDP: Causality-Guided Diffusion Policies for Reinforcement Learning. arXiv:2602.09207. https://arxiv.org/abs/2602.09207 ↩

Metaphor

探索

因果强化学习（Causal Reinforcement Learning）

一、引言

1.1 传统强化学习的局限性

1.2 因果强化学习的优势

二、因果强化学习框架

2.1 因果图与MDP的结合

2.2 因果转移模型 vs 马尔可夫转移模型

三、CRL分类体系

3.1 因果表征学习（Causal Representation Learning）

3.2 反事实策略优化（Counterfactual Policy Optimization）

3.3 离线因果强化学习（Offline Causal RL）

3.4 因果迁移学习（Causal Transfer Learning）

3.5 因果可解释性（Causal Explainability）

四、核心算法

4.1 CausalMBPO

4.2 Causal Reflection框架

4.3 因果奖励塑造（Causal Reward Shaping）

4.4 CausalGDP

4.5 Causal Information Prioritization

五、挑战与开放问题

5.1 因果发现 + RL的难点

5.2 干预识别（Intervention Identification）

5.3 可识别性条件（Identifiability Conditions）

5.4 其他开放问题

六、应用场景

6.1 机器人控制

6.2 医疗决策

6.3 自动驾驶

6.4 其他应用

七、参考资料

关系图谱

目录

Metaphor

探索

因果强化学习（Causal Reinforcement Learning）

一、引言

1.1 传统强化学习的局限性

1.2 因果强化学习的优势

二、因果强化学习框架

2.1 因果图与MDP的结合

2.2 因果转移模型 vs 马尔可夫转移模型

三、CRL分类体系

3.1 因果表征学习（Causal Representation Learning）

3.2 反事实策略优化（Counterfactual Policy Optimization）

3.3 离线因果强化学习（Offline Causal RL）

3.4 因果迁移学习（Causal Transfer Learning）

3.5 因果可解释性（Causal Explainability）

四、核心算法

4.1 CausalMBPO

4.2 Causal Reflection框架

4.3 因果奖励塑造（Causal Reward Shaping）

4.4 CausalGDP

4.5 Causal Information Prioritization

五、挑战与开放问题

5.1 因果发现 + RL的难点

5.2 干预识别（Intervention Identification）

5.3 可识别性条件（Identifiability Conditions）

5.4 其他开放问题

六、应用场景

6.1 机器人控制

6.2 医疗决策

6.3 自动驾驶

6.4 其他应用

七、参考资料

Footnotes

关系图谱

目录