因果强化学习专题索引


专题概述

因果强化学习(Causal Reinforcement Learning, CRL)是将因果推断强化学习深度融合的新兴研究领域,旨在解决传统RL面临的三大核心挑战:

挑战传统RL因果RL
可解释性黑盒决策因果链条透明
鲁棒性分布偏移敏感跨环境泛化
泛化能力相关性驱动因果机制迁移

本专题系统梳理因果强化学习的理论基础、核心算法与前沿应用。


核心内容导航

基础理论

文档内容概览
因果强化学习基础CRL核心动机、因果马尔可夫假设、do-calculus在RL中的应用
因果MDP与CMDPCausal MDP、因果动作空间、因果POMDP的数学框架

核心算法

文档内容概览
因果探索策略因果效应探索、反事实奖励设计、因果感知探索
因果逆RL与约束推断Constraint Inference、因果偏好学习、ICRL算法

前沿应用

文档内容概览
因果世界模型因果世界模型构建、因果规划、跨环境迁移

学习路径建议

入门路径(推荐)

1. crl-fundamentals  → 2. causal-mdp-cmdp  → 3. causal-exploration

进阶路径

1. crl-fundamentals  → 2. causal-mdp-cmdp  → 3. causal-irl-constraint-inference  → 4. causal-world-models

实践路径

1. causal-mdp-cmdp  → 2. causal-exploration  → 3. causal-world-models

与其他专题的关联

相关专题

专题关联内容
强化学习基础MDP框架、价值函数、策略优化
因果推断do-calculus、因果图、干预效应
世界模型与规划World Model驱动模拟推理
Agentic AI因果推理增强的Agent决策

交叉引用

- 因果强化学习 ← 强化学习(基础框架)
- 因果强化学习 ← 因果推断(理论基础)
- 因果强化学习 → Agent安全(安全约束推断)
- 因果强化学习 → 世界模型(因果世界建模)

关键论文与参考文献

经典论文

  1. Causal Reinforcement Learning: A Primer - CRL Tutorial, crl.causalai.net
  2. Unifying Causal Reinforcement Learning: Survey, Taxonomy, Algorithms (arXiv:2512.18135, 2025)
  3. Causal Discovery and Inference through Next-Token Prediction (NeurIPS 2025)

进阶论文

  1. Inverse Reinforcement Learning with Just Classification (arXiv:2509.21172, 2025)
  2. AgentRL: Scaling Agentic RL (arXiv:2510.04206, 2025)
  3. Constrained IRL (arXiv:2409.07569, 2025)

实践资源

代码库

开源环境

  • CausalBandits - 因果多臂老虎机环境
  • CausalGym - 因果强化学习基准

最后更新: 2026-05-14