概述

强化学习(Reinforcement Learning,RL)是机器学习的重要分支,研究智能体(Agent)如何在与环境交互中学习最优决策策略。1

核心问题:智能体如何在不确定环境中做出一系列决策,以最大化累积奖励?

知识体系

强化学习
├── 基础理论
│   ├── [[mdp-basics|MDP基础]] - 马尔可夫决策过程
│   ├── [[bellman-equations|贝尔曼方程]] - 价值函数的递归分解
│   └── [[dynamic-programming|动态规划]] - 策略迭代与价值迭代
│
├── 无模型方法
│   ├── 蒙特卡洛方法
│   ├── [[q-learning|Q-Learning]] - 离线策略TD控制
│   └── [[dqn|DQN]] - 深度Q网络
│
├── 策略梯度
│   ├── [[policy-gradient|策略梯度基础]] - REINFORCE
│   ├── [[actor-critic|Actor-Critic]] - 结合价值函数
│   └── [[ppo|PPO]] - 近端策略优化
│
└── 大模型对齐
    └── [[rlhf|RLHF]] - 人类反馈强化学习

核心概念

智能体与环境

┌─────────┐         action          ┌─────────┐
│         │ ◀───────────────────── │         │
│  Agent  │                         │  Env    │
│         │ ─────────────────────▶ │         │
└─────────┘       observation        └─────────┘
           ◀──────────────────────
                    reward

关键术语

术语英文说明
智能体Agent学习者和决策者
环境Environment智能体交互的对象
状态State (s)环境/智能体的当前情况
动作Action (a)智能体做出的决策
奖励Reward (r)环境对动作的反馈
策略Policy (π)状态到动作的映射
价值函数Value Function (V/Q)长期累积奖励的期望
折扣因子Discount Factor (γ)未来奖励的重要性

算法分类

按学习方式

类型特点代表算法
基于模型需要环境模型Dyna, World Models
无模型直接从交互学习Q-Learning, PPO

按策略更新

类型特点代表算法
基于价值学习Q/V函数Q-Learning, DQN
策略梯度直接优化策略REINFORCE, PPO
Actor-Critic两者结合A2C, A3C, SAC

按策略性质

类型特点代表算法
在线策略只能用当前策略数据SARSA, A2C
离线策略可用历史数据Q-Learning, DQN, SAC

主要算法对比

算法动作空间样本效率稳定性难度
Q-Learning离散★☆☆
DQN离散★★☆
Policy Gradient离散/连续★★☆
Actor-Critic离散/连续★★★
PPO离散/连续很好★★★
SAC连续★★★

应用场景

领域应用示例
游戏AlphaGo, Atari超越人类水平
机器人运动控制四足机器人行走
推荐系统动态推荐序列推荐
自动驾驶决策规划路径规划
大模型对齐微调ChatGPT, Claude
金融交易策略量化投资

学习路径

入门路线

1. 数学基础
   └─→ MDP定义、贝尔曼方程

2. 表格方法
   ├─→ 动态规划(策略迭代/价值迭代)
   └─→ Q-Learning、SARSA

3. 函数近似
   └─→ DQN、深度强化学习

4. 策略优化
   └─→ 策略梯度、Actor-Critic

5. 高级主题
   ├─→ PPO、SAC
   └─→ RLHF、大模型对齐

推荐资源

资源类型说明
Sutton & Barto《强化学习》教材经典必读
OpenAI Spinning Up教程实践导向
Lil’Log RL系列博客深入浅出
Hugging Face RL Course课程互动学习

参考


相关主题

Footnotes

  1. Sutton & Barto, “Reinforcement Learning: An Introduction”, 2nd Edition, 2018