强化学习专题索引

欢迎来到强化学习(Reinforcement Learning,RL)专题。本专题系统整理了从基础理论到前沿应用的完整知识体系。

专题内容导航

类别内容
MDP、贝尔曼方程、价值函数
Value-Based、Policy Gradient、Actor-Critic
离线RL、多智能体RL、最大熵RL
RLHF、对齐技术、PPO/DPO/GRPO
深度学习、优化理论、世界模型

学习路径推荐

入门路线
│
├─→ 1. 数学基础
│     ├─→ [[mdp-basics|MDP基础]]
│     ├─→ [[bellman-equations|贝尔曼方程]]
│     └─→ [[dynamic-programming|动态规划]]
│
├─→ 2. 经典算法
│     ├─→ [[q-learning|Q-Learning]]
│     ├─→ [[dqn|DQN]]
│     └─→ [[policy-gradient|策略梯度]]
│
├─→ 3. 现代方法
│     ├─→ [[actor-critic|Actor-Critic框架]]
│     ├─→ [[ppo|PPO]]
│     └─→ [[soft-actor-critic|SAC]]
│
└─→ 4. 前沿应用
      ├─→ [[rlhf|RLHF]]
      └─→ [[../offline-reinforcement-learning/offline-rl-introduction|离线强化学习]]

核心概念

马尔可夫决策过程(MDP)

强化学习的数学基础是马尔可夫决策过程(Markov Decision Process)。智能体在环境中执行动作,环境根据状态转移概率 给出下一状态和即时奖励

核心组件说明
状态 环境的当前描述
动作 智能体的决策
奖励 环境对动作的反馈信号
策略 状态到动作的映射
价值函数 长期累积奖励的期望

探索与利用

智能体面临**探索(Exploration)利用(Exploitation)**的权衡:

  • 探索:尝试新动作以发现潜在的高奖励策略
  • 利用:选择已知最优动作以最大化即时奖励

常见方法包括 ‑greedy、UCB、内在奖励驱动等。1

Bandit与在线学习

文件描述
多臂老虎机基础UCB、Thompson Sampling、LinUCB
在线学习理论后悔界分析、FTRL、对偶平均法

核心算法

Value-Based方法

学习价值函数),通过价值最大化来间接得到策略。

算法特点适用场景
Q-Learning离线策略、表格方法离散动作、小状态空间
DQN深度神经网络逼近Q函数高维状态空间
分布式DQNIQN、QR-DQN、Rainbow分布返回值估计

Policy Gradient方法

直接优化策略函数 ,通过梯度上升最大化期望累积奖励。

代表算法:

Actor-Critic方法

结合价值函数(Critic)和策略函数(Actor)的优势,减少方差:

┌─────────────┐
│   Actor     │ ←── 策略 π(a|s)
│  (策略网络)  │
└──────┬──────┘
       │ 更新策略
       ▼
┌─────────────┐
│   Critic    │ ←── 价值估计 V(s) 或 Q(s,a)
│ (价值网络)  │
└─────────────┘

代表算法:

  • A3C — 异步优势Actor-Critic
  • SAC — 最大熵Actor-Critic
  • TD3 — 双延迟DDPG

策略优化理论

Policy Mirror Descent(PMD)统一了多种策略优化方法,提供更一般的收敛性分析:

相关资源:

高级主题

离线强化学习(Offline RL)

固定数据集中学习策略,避免在线交互的高成本和风险。

相关资源:

多智能体强化学习(MARL)

多个智能体同时学习,存在合作竞争混合关系。

相关资源:

最大熵RL

在目标中加入熵正则项,鼓励策略的探索:

相关资源:

分布式RL

利用分布式架构并行采集经验,加速训练。

相关资源:

与LLM的结合

模仿学习与逆向强化学习

文件描述
逆向强化学习Max-Margin IRL、最大熵IRL、GCL
生成对抗模仿学习GAIL框架、InfoGAIL、Wasserstein GAIL

基于模型的RL

文件描述
基于模型RL理论PETS、Dreamer、SimPLe
World Models与规划Dreamer系列、MuZero、AlphaZero

元强化学习与约束RL

文件描述
元强化学习MAML、Reptile、与ICL的联系
约束强化学习CMDP、CPO、PPO-Lagrangian

RLHF基础

人类反馈强化学习(Reinforcement Learning from Human Feedback)是微调大语言模型的核心技术。

相关资源:

PPO/DPO/GRPO对比

方法类型特点
PPO在线RL稳定可靠,工业标准
FR-PPO在线RLFisher-Rao几何理论,2025突破
ORPO直接优化无参照模型,简化流程
GRPO在线RLDeepSeek采用,无需critic
KTO直接优化考虑人类效用

对齐技术

将大模型与人类意图、价值观对齐:

相关领域链接

深度学习基础

强化学习深度应用的根基:

优化理论

RL训练涉及大量优化问题:

世界模型

智能体对环境的学习和模拟:

附录

核心公式速查

名称公式
贝尔曼期望方程
Q函数
TD目标
策略梯度

术语表

英文中文
Agent智能体
Environment环境
State (s)状态
Action (a)动作
Reward (r)奖励
Policy (π)策略
Value Function价值函数
Discount Factor (γ)折扣因子
On-policy在线策略
Off-policy离线策略

参考

Footnotes

  1. Sutton & Barto, “Reinforcement Learning: An Introduction”, 2nd Edition, 2018

此文件夹下有39条笔记。