强化学习理论索引

本文档提供强化学习理论基础系列文档的导航索引,帮助读者系统学习RL理论。


1. 内容导航

1.1 MDP与动态规划

文档描述难度
MDP数学基础MDP定义、策略、值函数、最优性
Bellman方程与算子理论Bellman方程、压缩映射、策略/值迭代⭐⭐
值函数近似理论TD学习、函数近似、收敛性分析⭐⭐⭐

1.2 策略梯度方法

文档描述难度
策略梯度定理策略梯度推导、REINFORCE、方差缩减⭐⭐
无折扣策略梯度γ=1设置、瞬态访问测度、LLM微调⭐⭐⭐
REINFORCE任意学习率收敛恒定学习率收敛、SPG条件⭐⭐⭐

1.3 PPO理论深化

文档描述难度
PPO全局收敛性全局最优性、非渐近收敛、铰链损失视角⭐⭐⭐
PPO Fisher-Rao几何信息几何、统计流形、自然梯度⭐⭐⭐⭐
PPO近似上升理论多epoch更新、GAE修正、偏差分析⭐⭐⭐⭐

1.4 离线强化学习

文档描述难度
离线RL统计复杂度Minimax下界、增强拉格朗日、无集中性假设⭐⭐⭐⭐

1.5 多智能体RL

文档描述难度
均衡选择理论均衡分类、势博弈、Pareto最优⭐⭐⭐
NePPO一般和博弈势函数学习、Nash均衡近似⭐⭐⭐⭐

2. 学习路径建议

2.1 入门路径

适合RL初学者:

1. [[mdp-mathematical-foundations|MDP数学基础]]
   ↓
2. [[bellman-equations-operator-theory|Bellman方程与算子理论]]
   ↓
3. [[value-function-approximation-theory|值函数近似理论]]
   ↓
4. [[policy-gradient-theorem|策略梯度定理]]

预计时间:2-3周

2.2 进阶路径

适合有一定RL基础的读者:

1. 入门路径
   ↓
2. [[ppo-global-convergence-theory|PPO全局收敛性]]
   ↓
3. [[ppo-fisher-rao-geometry|PPO Fisher-Rao几何]]
   ↓
4. [[undiscounted-policy-gradient|无折扣策略梯度]]

预计时间:3-4周

2.3 理论深化路径

适合研究RL理论的读者:

1. 进阶路径
   ↓
2. [[reinforce-any-learning-rate|REINFORCE任意学习率收敛]]
   ↓
3. [[ppo-approximate-ascent-theory|PPO近似上升理论]]
   ↓
4. [[offline-rl-statistical-complexity-2025|离线RL统计复杂度]]
   ↓
5. [[marl-equilibrium-selection|均衡选择理论]]
   ↓
6. [[neppo-general-sum-games|NePPO一般和博弈]]

预计时间:4-6周

2.4 实践导向路径

适合希望应用RL的工程师:

1. [[mdp-mathematical-foundations|MDP数学基础]]
   ↓
2. [[policy-gradient-theorem|策略梯度定理]] (重点看代码)
   ↓
3. [[ppo-global-convergence-theory|PPO全局收敛性]] (重点看实现)
   ↓
4. 实际项目实践

预计时间:2-4周


3. 核心公式速查

3.1 MDP基础

概念公式
MDP五元组
折扣回报
状态值函数
动作值函数
优势函数

3.2 Bellman方程

方程公式
策略值函数
最优值函数
Bellman算子压缩

3.3 策略梯度

公式描述
策略梯度定理
PPO目标

3.4 Fisher-Rao几何

概念公式
Fisher信息矩阵
自然梯度

3.5 收敛速率

方法收敛速率
表格TD
PPO-Clip
PPO (前向KL) (线性)

4. 主题关联图

                         ┌─────────────────┐
                         │   MDP基础       │
                         │ [[mdp-mathematical-│
                         │   foundations]]  │
                         └────────┬────────┘
                                  │
                                  ▼
                         ┌─────────────────┐
                         │ Bellman方程     │
                         │ [[bellman-equations│
                         │ -operator-theory]]│
                         └────────┬────────┘
                                  │
                    ┌─────────────┼─────────────┐
                    ▼             ▼             ▼
           ┌────────────┐ ┌────────────┐ ┌────────────┐
           │值函数近似  │ │策略梯度    │ │策略迭代   │
           │[[value-    │ │[[policy-   │ │[[policy-   │
           │function-    │ │gradient-    │ │iteration]] │
           │approxima-   │ │theorem]]   │ │           │
           │tion-theory]]│ └─────┬──────┘ └────────────┘
           └────────────┘       │
                    ┌───────────┼───────────┐
                    ▼           ▼           ▼
           ┌────────────┐ ┌────────────┐ ┌────────────┐
           │ 无折扣PG   │ │ PPO理论   │ │ REINFORCE │
           │[[undiscount│ │[[ppo-     │ │ [[reinforce│
           │ed-policy-  │ │global-    │ │-any-lr]] │
           │gradient]]  │ │convergenc│ │
           └────────────┘ │e-theory]]│ └────────────┘
                          └─────┬─────┘
                                │
               ┌────────────────┼────────────────┐
               ▼                ▼                ▼
      ┌────────────┐   ┌────────────┐   ┌────────────┐
      │Fisher-Rao │   │近似上升   │   │离线RL     │
      │几何      │   │[[ppo-     │   │[[offline-  │
      │[[ppo-     │   │approximat│   │rl-        │
      │fisher-    │   │e-ascent]]│   │statistical│
      │rao-       │   └────────────┘   │-complexity│
      │geometry]] │                    └─────┬─────┘
      └────────────┘                          │
                                             ▼
                                    ┌────────────┐
                                    │多智能体RL  │
                                    │[[marl-    │
                                    │equilibrium │
                                    │-selection]]│
                                    │[[neppo-   │
                                    │general-   │
                                    │sum-games]]│
                                    └────────────┘

5. 参考文献

经典教材

2025-2026年理论进展


6. 相关主题链接

深度学习理论

优化理论

因果推断

多智能体系统


最后更新:2026-06-20