强化学习理论索引

本文档提供强化学习理论基础系列文档的导航索引，帮助读者系统学习RL理论。

1. 内容导航

1.1 MDP与动态规划

文档	描述	难度
MDP数学基础	MDP定义、策略、值函数、最优性	⭐
Bellman方程与算子理论	Bellman方程、压缩映射、策略/值迭代	⭐⭐
值函数近似理论	TD学习、函数近似、收敛性分析	⭐⭐⭐

1.2 策略梯度方法

文档	描述	难度
策略梯度定理	策略梯度推导、REINFORCE、方差缩减	⭐⭐
无折扣策略梯度	γ=1设置、瞬态访问测度、LLM微调	⭐⭐⭐
REINFORCE任意学习率收敛	恒定学习率收敛、SPG条件	⭐⭐⭐

1.3 PPO理论深化

文档	描述	难度
PPO全局收敛性	全局最优性、非渐近收敛、铰链损失视角	⭐⭐⭐
PPO Fisher-Rao几何	信息几何、统计流形、自然梯度	⭐⭐⭐⭐
PPO近似上升理论	多epoch更新、GAE修正、偏差分析	⭐⭐⭐⭐

1.4 离线强化学习

文档	描述	难度
离线RL统计复杂度	Minimax下界、增强拉格朗日、无集中性假设	⭐⭐⭐⭐

1.5 多智能体RL

文档	描述	难度
均衡选择理论	均衡分类、势博弈、Pareto最优	⭐⭐⭐
NePPO一般和博弈	势函数学习、Nash均衡近似	⭐⭐⭐⭐

2. 学习路径建议

2.1 入门路径

适合RL初学者：

1. [[mdp-mathematical-foundations|MDP数学基础]]
   ↓
2. [[bellman-equations-operator-theory|Bellman方程与算子理论]]
   ↓
3. [[value-function-approximation-theory|值函数近似理论]]
   ↓
4. [[policy-gradient-theorem|策略梯度定理]]

预计时间：2-3周

2.2 进阶路径

适合有一定RL基础的读者：

1. 入门路径
   ↓
2. [[ppo-global-convergence-theory|PPO全局收敛性]]
   ↓
3. [[ppo-fisher-rao-geometry|PPO Fisher-Rao几何]]
   ↓
4. [[undiscounted-policy-gradient|无折扣策略梯度]]

预计时间：3-4周

2.3 理论深化路径

适合研究RL理论的读者：

1. 进阶路径
   ↓
2. [[reinforce-any-learning-rate|REINFORCE任意学习率收敛]]
   ↓
3. [[ppo-approximate-ascent-theory|PPO近似上升理论]]
   ↓
4. [[offline-rl-statistical-complexity-2025|离线RL统计复杂度]]
   ↓
5. [[marl-equilibrium-selection|均衡选择理论]]
   ↓
6. [[neppo-general-sum-games|NePPO一般和博弈]]

预计时间：4-6周

2.4 实践导向路径

适合希望应用RL的工程师：

1. [[mdp-mathematical-foundations|MDP数学基础]]
   ↓
2. [[policy-gradient-theorem|策略梯度定理]] (重点看代码)
   ↓
3. [[ppo-global-convergence-theory|PPO全局收敛性]] (重点看实现)
   ↓
4. 实际项目实践

预计时间：2-4周

3. 核心公式速查

3.1 MDP基础

概念	公式
MDP五元组	$(S, A, T, r, γ)$
折扣回报	$G_{t} = \sum_{k = 0}^{\infty} γ^{k} R_{t + k + 1}$
状态值函数	$V^{π} (s) = E_{π} [G_{t} ∥ S_{t} = s]$
动作值函数	$Q^{π} (s, a) = E_{π} [G_{t} ∥ S_{t} = s, A_{t} = a]$
优势函数	$A^{π} (s, a) = Q^{π} (s, a) - V^{π} (s)$

3.2 Bellman方程

方程	公式
策略值函数	$V^{π} = r^{π} + γ P^{π} V^{π}$
最优值函数	$V^{} = max_{π} (r^{π} + γ P^{π} V^{})$
Bellman算子压缩	$∥ T^{π} V - T^{π} \overset{ˉ}{V} ∥_{\infty} \leq γ ∥ V - \overset{ˉ}{V} ∥_{\infty}$

3.3 策略梯度

公式	描述
$\nabla_{θ} J = E [\nabla_{θ} lo g π_{θ} \cdot A]$	策略梯度定理
$L^{C L I P} (θ) = E [min (r_{t} A_{t}, clip (r_{t}, 1 - ϵ, 1 + ϵ) A_{t})]$	PPO目标

3.4 Fisher-Rao几何

概念	公式
Fisher信息矩阵	$G (θ) = E [\nabla lo g π \cdot \nabla lo g π^{T}]$
自然梯度	$\tilde{\nabla} L = G^{- 1} \nabla L$

3.5 收敛速率

方法	收敛速率
表格TD	$O (1/ T)$
PPO-Clip	$O (1/ T)$
PPO (前向KL)	$O (γ^{k})$ (线性)

4. 主题关联图

                         ┌─────────────────┐
                         │   MDP基础       │
                         │ [[mdp-mathematical-│
                         │   foundations]]  │
                         └────────┬────────┘
                                  │
                                  ▼
                         ┌─────────────────┐
                         │ Bellman方程     │
                         │ [[bellman-equations│
                         │ -operator-theory]]│
                         └────────┬────────┘
                                  │
                    ┌─────────────┼─────────────┐
                    ▼             ▼             ▼
           ┌────────────┐ ┌────────────┐ ┌────────────┐
           │值函数近似  │ │策略梯度    │ │策略迭代   │
           │[[value-    │ │[[policy-   │ │[[policy-   │
           │function-    │ │gradient-    │ │iteration]] │
           │approxima-   │ │theorem]]   │ │           │
           │tion-theory]]│ └─────┬──────┘ └────────────┘
           └────────────┘       │
                    ┌───────────┼───────────┐
                    ▼           ▼           ▼
           ┌────────────┐ ┌────────────┐ ┌────────────┐
           │ 无折扣PG   │ │ PPO理论   │ │ REINFORCE │
           │[[undiscount│ │[[ppo-     │ │ [[reinforce│
           │ed-policy-  │ │global-    │ │-any-lr]] │
           │gradient]]  │ │convergenc│ │
           └────────────┘ │e-theory]]│ └────────────┘
                          └─────┬─────┘
                                │
               ┌────────────────┼────────────────┐
               ▼                ▼                ▼
      ┌────────────┐   ┌────────────┐   ┌────────────┐
      │Fisher-Rao │   │近似上升   │   │离线RL     │
      │几何      │   │[[ppo-     │   │[[offline-  │
      │[[ppo-     │   │approximat│   │rl-        │
      │fisher-    │   │e-ascent]]│   │statistical│
      │rao-       │   └────────────┘   │-complexity│
      │geometry]] │                    └─────┬─────┘
      └────────────┘                          │
                                             ▼
                                    ┌────────────┐
                                    │多智能体RL  │
                                    │[[marl-    │
                                    │equilibrium │
                                    │-selection]]│
                                    │[[neppo-   │
                                    │general-   │
                                    │sum-games]]│
                                    └────────────┘

5. 参考文献

经典教材

2025-2026年理论进展

6. 相关主题链接

深度学习理论

优化理论

因果推断

因果强化学习

多智能体系统

最后更新：2026-06-20

Metaphor

探索

强化学习理论索引

强化学习理论索引

1. 内容导航

1.1 MDP与动态规划

1.2 策略梯度方法

1.3 PPO理论深化

1.4 离线强化学习

1.5 多智能体RL

2. 学习路径建议

2.1 入门路径

2.2 进阶路径

2.3 理论深化路径

2.4 实践导向路径

3. 核心公式速查

3.1 MDP基础

3.2 Bellman方程

3.3 策略梯度

3.4 Fisher-Rao几何

3.5 收敛速率

4. 主题关联图

5. 参考文献

经典教材

2025-2026年理论进展

6. 相关主题链接

深度学习理论

优化理论

因果推断

多智能体系统

关系图谱

目录