概述
强化学习(Reinforcement Learning,RL)是机器学习的重要分支,研究智能体(Agent)如何在与环境交互中学习最优决策策略。1
核心问题:智能体如何在不确定环境中做出一系列决策,以最大化累积奖励?
知识体系
强化学习
├── 基础理论
│ ├── [[mdp-basics|MDP基础]] - 马尔可夫决策过程
│ ├── [[bellman-equations|贝尔曼方程]] - 价值函数的递归分解
│ └── [[dynamic-programming|动态规划]] - 策略迭代与价值迭代
│
├── 无模型方法
│ ├── 蒙特卡洛方法
│ ├── [[q-learning|Q-Learning]] - 离线策略TD控制
│ └── [[dqn|DQN]] - 深度Q网络
│
├── 策略梯度
│ ├── [[policy-gradient|策略梯度基础]] - REINFORCE
│ ├── [[actor-critic|Actor-Critic]] - 结合价值函数
│ └── [[ppo|PPO]] - 近端策略优化
│
└── 大模型对齐
└── [[rlhf|RLHF]] - 人类反馈强化学习
核心概念
智能体与环境
┌─────────┐ action ┌─────────┐
│ │ ◀───────────────────── │ │
│ Agent │ │ Env │
│ │ ─────────────────────▶ │ │
└─────────┘ observation └─────────┘
◀──────────────────────
reward
关键术语
| 术语 | 英文 | 说明 |
|---|
| 智能体 | Agent | 学习者和决策者 |
| 环境 | Environment | 智能体交互的对象 |
| 状态 | State (s) | 环境/智能体的当前情况 |
| 动作 | Action (a) | 智能体做出的决策 |
| 奖励 | Reward (r) | 环境对动作的反馈 |
| 策略 | Policy (π) | 状态到动作的映射 |
| 价值函数 | Value Function (V/Q) | 长期累积奖励的期望 |
| 折扣因子 | Discount Factor (γ) | 未来奖励的重要性 |
算法分类
按学习方式
| 类型 | 特点 | 代表算法 |
|---|
| 基于模型 | 需要环境模型 | Dyna, World Models |
| 无模型 | 直接从交互学习 | Q-Learning, PPO |
按策略更新
| 类型 | 特点 | 代表算法 |
|---|
| 基于价值 | 学习Q/V函数 | Q-Learning, DQN |
| 策略梯度 | 直接优化策略 | REINFORCE, PPO |
| Actor-Critic | 两者结合 | A2C, A3C, SAC |
按策略性质
| 类型 | 特点 | 代表算法 |
|---|
| 在线策略 | 只能用当前策略数据 | SARSA, A2C |
| 离线策略 | 可用历史数据 | Q-Learning, DQN, SAC |
主要算法对比
| 算法 | 动作空间 | 样本效率 | 稳定性 | 难度 |
|---|
| Q-Learning | 离散 | 低 | 中 | ★☆☆ |
| DQN | 离散 | 低 | 好 | ★★☆ |
| Policy Gradient | 离散/连续 | 低 | 中 | ★★☆ |
| Actor-Critic | 离散/连续 | 中 | 好 | ★★★ |
| PPO | 离散/连续 | 中 | 很好 | ★★★ |
| SAC | 连续 | 高 | 好 | ★★★ |
应用场景
| 领域 | 应用 | 示例 |
|---|
| 游戏 | AlphaGo, Atari | 超越人类水平 |
| 机器人 | 运动控制 | 四足机器人行走 |
| 推荐系统 | 动态推荐 | 序列推荐 |
| 自动驾驶 | 决策规划 | 路径规划 |
| 大模型 | 对齐微调 | ChatGPT, Claude |
| 金融 | 交易策略 | 量化投资 |
学习路径
入门路线
1. 数学基础
└─→ MDP定义、贝尔曼方程
2. 表格方法
├─→ 动态规划(策略迭代/价值迭代)
└─→ Q-Learning、SARSA
3. 函数近似
└─→ DQN、深度强化学习
4. 策略优化
└─→ 策略梯度、Actor-Critic
5. 高级主题
├─→ PPO、SAC
└─→ RLHF、大模型对齐
推荐资源
| 资源 | 类型 | 说明 |
|---|
| Sutton & Barto《强化学习》 | 教材 | 经典必读 |
| OpenAI Spinning Up | 教程 | 实践导向 |
| Lil’Log RL系列 | 博客 | 深入浅出 |
| Hugging Face RL Course | 课程 | 互动学习 |
参考
相关主题