强化学习专题索引
欢迎来到强化学习(Reinforcement Learning,RL)专题。本专题系统整理了从基础理论到前沿应用的完整知识体系。
专题内容导航
| 类别 | 内容 |
|---|---|
| MDP、贝尔曼方程、价值函数 | |
| Value-Based、Policy Gradient、Actor-Critic | |
| 离线RL、多智能体RL、最大熵RL | |
| RLHF、对齐技术、PPO/DPO/GRPO | |
| 深度学习、优化理论、世界模型 |
学习路径推荐
入门路线
│
├─→ 1. 数学基础
│ ├─→ [[mdp-basics|MDP基础]]
│ ├─→ [[bellman-equations|贝尔曼方程]]
│ └─→ [[dynamic-programming|动态规划]]
│
├─→ 2. 经典算法
│ ├─→ [[q-learning|Q-Learning]]
│ ├─→ [[dqn|DQN]]
│ └─→ [[policy-gradient|策略梯度]]
│
├─→ 3. 现代方法
│ ├─→ [[actor-critic|Actor-Critic框架]]
│ ├─→ [[ppo|PPO]]
│ └─→ [[soft-actor-critic|SAC]]
│
└─→ 4. 前沿应用
├─→ [[rlhf|RLHF]]
└─→ [[../offline-reinforcement-learning/offline-rl-introduction|离线强化学习]]
核心概念
马尔可夫决策过程(MDP)
强化学习的数学基础是马尔可夫决策过程(Markov Decision Process)。智能体在环境中执行动作,环境根据状态转移概率 给出下一状态和即时奖励 。
| 核心组件 | 说明 |
|---|---|
| 状态 | 环境的当前描述 |
| 动作 | 智能体的决策 |
| 奖励 | 环境对动作的反馈信号 |
| 策略 | 状态到动作的映射 |
| 价值函数 或 | 长期累积奖励的期望 |
探索与利用
智能体面临**探索(Exploration)与利用(Exploitation)**的权衡:
- 探索:尝试新动作以发现潜在的高奖励策略
- 利用:选择已知最优动作以最大化即时奖励
常见方法包括 ‑greedy、UCB、内在奖励驱动等。1
Bandit与在线学习
核心算法
Value-Based方法
学习价值函数( 或 ),通过价值最大化来间接得到策略。
| 算法 | 特点 | 适用场景 |
|---|---|---|
| Q-Learning | 离线策略、表格方法 | 离散动作、小状态空间 |
| DQN | 深度神经网络逼近Q函数 | 高维状态空间 |
| 分布式DQN | IQN、QR-DQN、Rainbow | 分布返回值估计 |
Policy Gradient方法
直接优化策略函数 ,通过梯度上升最大化期望累积奖励。
代表算法:
Actor-Critic方法
结合价值函数(Critic)和策略函数(Actor)的优势,减少方差:
┌─────────────┐
│ Actor │ ←── 策略 π(a|s)
│ (策略网络) │
└──────┬──────┘
│ 更新策略
▼
┌─────────────┐
│ Critic │ ←── 价值估计 V(s) 或 Q(s,a)
│ (价值网络) │
└─────────────┘
代表算法:
策略优化理论
Policy Mirror Descent(PMD)统一了多种策略优化方法,提供更一般的收敛性分析:
相关资源:
- PMD统一框架 — 放宽Bellman完备性的ICML 2025突破
- PPO收敛性理论 — 早期理论分析
- PPO Fisher-Rao几何理论 — 2025年Fisher-Rao几何视角与全局收敛证明
- 策略梯度全局收敛理论 — 平均奖励MDP与GURL统一框架
- GPG — 广义策略梯度定理
- 自然梯度与K-FAC — Fisher信息矩阵近似
高级主题
离线强化学习(Offline RL)
从固定数据集中学习策略,避免在线交互的高成本和风险。
相关资源:
- 离线RL入门
- 算法分类体系
- Decision Transformer
- 2025年理论进展
- 统计复杂度理论 — Minimax下界与样本复杂度
多智能体强化学习(MARL)
多个智能体同时学习,存在合作、竞争或混合关系。
相关资源:
最大熵RL
在目标中加入熵正则项,鼓励策略的探索:
相关资源:
分布式RL
利用分布式架构并行采集经验,加速训练。
相关资源:
- 分布式RL算法 — IMPALA、GAE、R2D2、Rainbow等
与LLM的结合
模仿学习与逆向强化学习
基于模型的RL
| 文件 | 描述 |
|---|---|
| 基于模型RL理论 | PETS、Dreamer、SimPLe |
| World Models与规划 | Dreamer系列、MuZero、AlphaZero |
元强化学习与约束RL
RLHF基础
人类反馈强化学习(Reinforcement Learning from Human Feedback)是微调大语言模型的核心技术。
相关资源:
- RLHF基础
- Reward Modeling进展
- RLHF奖励建模最新进展 — Constitutional AI、PET、Iterated RLHF过优化分析
- GRPO理论基础 — GRPO数学推导、与DPO联系、成功放大机制
- DAPO — 离散策略优化
PPO/DPO/GRPO对比
| 方法 | 类型 | 特点 |
|---|---|---|
| PPO | 在线RL | 稳定可靠,工业标准 |
| FR-PPO | 在线RL | Fisher-Rao几何理论,2025突破 |
| ORPO | 直接优化 | 无参照模型,简化流程 |
| GRPO | 在线RL | DeepSeek采用,无需critic |
| KTO | 直接优化 | 考虑人类效用 |
对齐技术
将大模型与人类意图、价值观对齐:
- Constitutional AI
- 推理-行动对齐
- 智能体安全对齐
- 过程奖励模型(PRM)
- 测试时计算缩放 — o1/DeepSeek-R1推理模型
- Offline RL统计复杂度 — Minimax下界与Clean Slate框架
相关领域链接
深度学习基础
强化学习深度应用的根基:
优化理论
RL训练涉及大量优化问题:
世界模型
智能体对环境的学习和模拟:
附录
核心公式速查
| 名称 | 公式 |
|---|---|
| 贝尔曼期望方程 | |
| Q函数 | |
| TD目标 | |
| 策略梯度 |
术语表
| 英文 | 中文 |
|---|---|
| Agent | 智能体 |
| Environment | 环境 |
| State (s) | 状态 |
| Action (a) | 动作 |
| Reward (r) | 奖励 |
| Policy (π) | 策略 |
| Value Function | 价值函数 |
| Discount Factor (γ) | 折扣因子 |
| On-policy | 在线策略 |
| Off-policy | 离线策略 |
参考
Footnotes
-
Sutton & Barto, “Reinforcement Learning: An Introduction”, 2nd Edition, 2018 ↩