强化学习理论索引
本文档提供强化学习理论基础系列文档的导航索引,帮助读者系统学习RL理论。
1. 内容导航
1.1 MDP与动态规划
| 文档 | 描述 | 难度 |
|---|---|---|
| MDP数学基础 | MDP定义、策略、值函数、最优性 | ⭐ |
| Bellman方程与算子理论 | Bellman方程、压缩映射、策略/值迭代 | ⭐⭐ |
| 值函数近似理论 | TD学习、函数近似、收敛性分析 | ⭐⭐⭐ |
1.2 策略梯度方法
| 文档 | 描述 | 难度 |
|---|---|---|
| 策略梯度定理 | 策略梯度推导、REINFORCE、方差缩减 | ⭐⭐ |
| 无折扣策略梯度 | γ=1设置、瞬态访问测度、LLM微调 | ⭐⭐⭐ |
| REINFORCE任意学习率收敛 | 恒定学习率收敛、SPG条件 | ⭐⭐⭐ |
1.3 PPO理论深化
| 文档 | 描述 | 难度 |
|---|---|---|
| PPO全局收敛性 | 全局最优性、非渐近收敛、铰链损失视角 | ⭐⭐⭐ |
| PPO Fisher-Rao几何 | 信息几何、统计流形、自然梯度 | ⭐⭐⭐⭐ |
| PPO近似上升理论 | 多epoch更新、GAE修正、偏差分析 | ⭐⭐⭐⭐ |
1.4 离线强化学习
| 文档 | 描述 | 难度 |
|---|---|---|
| 离线RL统计复杂度 | Minimax下界、增强拉格朗日、无集中性假设 | ⭐⭐⭐⭐ |
1.5 多智能体RL
| 文档 | 描述 | 难度 |
|---|---|---|
| 均衡选择理论 | 均衡分类、势博弈、Pareto最优 | ⭐⭐⭐ |
| NePPO一般和博弈 | 势函数学习、Nash均衡近似 | ⭐⭐⭐⭐ |
2. 学习路径建议
2.1 入门路径
适合RL初学者:
1. [[mdp-mathematical-foundations|MDP数学基础]]
↓
2. [[bellman-equations-operator-theory|Bellman方程与算子理论]]
↓
3. [[value-function-approximation-theory|值函数近似理论]]
↓
4. [[policy-gradient-theorem|策略梯度定理]]
预计时间:2-3周
2.2 进阶路径
适合有一定RL基础的读者:
1. 入门路径
↓
2. [[ppo-global-convergence-theory|PPO全局收敛性]]
↓
3. [[ppo-fisher-rao-geometry|PPO Fisher-Rao几何]]
↓
4. [[undiscounted-policy-gradient|无折扣策略梯度]]
预计时间:3-4周
2.3 理论深化路径
适合研究RL理论的读者:
1. 进阶路径
↓
2. [[reinforce-any-learning-rate|REINFORCE任意学习率收敛]]
↓
3. [[ppo-approximate-ascent-theory|PPO近似上升理论]]
↓
4. [[offline-rl-statistical-complexity-2025|离线RL统计复杂度]]
↓
5. [[marl-equilibrium-selection|均衡选择理论]]
↓
6. [[neppo-general-sum-games|NePPO一般和博弈]]
预计时间:4-6周
2.4 实践导向路径
适合希望应用RL的工程师:
1. [[mdp-mathematical-foundations|MDP数学基础]]
↓
2. [[policy-gradient-theorem|策略梯度定理]] (重点看代码)
↓
3. [[ppo-global-convergence-theory|PPO全局收敛性]] (重点看实现)
↓
4. 实际项目实践
预计时间:2-4周
3. 核心公式速查
3.1 MDP基础
| 概念 | 公式 |
|---|---|
| MDP五元组 | |
| 折扣回报 | |
| 状态值函数 | |
| 动作值函数 | |
| 优势函数 |
3.2 Bellman方程
| 方程 | 公式 |
|---|---|
| 策略值函数 | |
| 最优值函数 | |
| Bellman算子压缩 |
3.3 策略梯度
| 公式 | 描述 |
|---|---|
| 策略梯度定理 | |
| PPO目标 |
3.4 Fisher-Rao几何
| 概念 | 公式 |
|---|---|
| Fisher信息矩阵 | |
| 自然梯度 |
3.5 收敛速率
| 方法 | 收敛速率 |
|---|---|
| 表格TD | |
| PPO-Clip | |
| PPO (前向KL) | (线性) |
4. 主题关联图
┌─────────────────┐
│ MDP基础 │
│ [[mdp-mathematical-│
│ foundations]] │
└────────┬────────┘
│
▼
┌─────────────────┐
│ Bellman方程 │
│ [[bellman-equations│
│ -operator-theory]]│
└────────┬────────┘
│
┌─────────────┼─────────────┐
▼ ▼ ▼
┌────────────┐ ┌────────────┐ ┌────────────┐
│值函数近似 │ │策略梯度 │ │策略迭代 │
│[[value- │ │[[policy- │ │[[policy- │
│function- │ │gradient- │ │iteration]] │
│approxima- │ │theorem]] │ │ │
│tion-theory]]│ └─────┬──────┘ └────────────┘
└────────────┘ │
┌───────────┼───────────┐
▼ ▼ ▼
┌────────────┐ ┌────────────┐ ┌────────────┐
│ 无折扣PG │ │ PPO理论 │ │ REINFORCE │
│[[undiscount│ │[[ppo- │ │ [[reinforce│
│ed-policy- │ │global- │ │-any-lr]] │
│gradient]] │ │convergenc│ │
└────────────┘ │e-theory]]│ └────────────┘
└─────┬─────┘
│
┌────────────────┼────────────────┐
▼ ▼ ▼
┌────────────┐ ┌────────────┐ ┌────────────┐
│Fisher-Rao │ │近似上升 │ │离线RL │
│几何 │ │[[ppo- │ │[[offline- │
│[[ppo- │ │approximat│ │rl- │
│fisher- │ │e-ascent]]│ │statistical│
│rao- │ └────────────┘ │-complexity│
│geometry]] │ └─────┬─────┘
└────────────┘ │
▼
┌────────────┐
│多智能体RL │
│[[marl- │
│equilibrium │
│-selection]]│
│[[neppo- │
│general- │
│sum-games]]│
└────────────┘
5. 参考文献
经典教材
2025-2026年理论进展
6. 相关主题链接
深度学习理论
优化理论
因果推断
多智能体系统
最后更新:2026-06-20