强化学习

概述

强化学习（Reinforcement Learning，RL）是机器学习的重要分支，研究智能体（Agent）如何在与环境交互中学习最优决策策略。¹

核心问题：智能体如何在不确定环境中做出一系列决策，以最大化累积奖励？

知识体系

强化学习
├── 基础理论
│   ├── [[mdp-basics|MDP基础]] - 马尔可夫决策过程
│   ├── [[bellman-equations|贝尔曼方程]] - 价值函数的递归分解
│   └── [[dynamic-programming|动态规划]] - 策略迭代与价值迭代
│
├── 无模型方法
│   ├── 蒙特卡洛方法
│   ├── [[q-learning|Q-Learning]] - 离线策略TD控制
│   └── [[dqn|DQN]] - 深度Q网络
│
├── 策略梯度
│   ├── [[policy-gradient|策略梯度基础]] - REINFORCE
│   ├── [[actor-critic|Actor-Critic]] - 结合价值函数
│   └── [[ppo|PPO]] - 近端策略优化
│
└── 大模型对齐
    └── [[rlhf|RLHF]] - 人类反馈强化学习

核心概念

智能体与环境

┌─────────┐         action          ┌─────────┐
│         │ ◀───────────────────── │         │
│  Agent  │                         │  Env    │
│         │ ─────────────────────▶ │         │
└─────────┘       observation        └─────────┘
           ◀──────────────────────
                    reward

关键术语

术语	英文	说明
智能体	Agent	学习者和决策者
环境	Environment	智能体交互的对象
状态	State (s)	环境/智能体的当前情况
动作	Action (a)	智能体做出的决策
奖励	Reward (r)	环境对动作的反馈
策略	Policy (π)	状态到动作的映射
价值函数	Value Function (V/Q)	长期累积奖励的期望
折扣因子	Discount Factor (γ)	未来奖励的重要性

算法分类

按学习方式

类型	特点	代表算法
基于模型	需要环境模型	Dyna, World Models
无模型	直接从交互学习	Q-Learning, PPO

按策略更新

类型	特点	代表算法
基于价值	学习Q/V函数	Q-Learning, DQN
策略梯度	直接优化策略	REINFORCE, PPO
Actor-Critic	两者结合	A2C, A3C, SAC

按策略性质

类型	特点	代表算法
在线策略	只能用当前策略数据	SARSA, A2C
离线策略	可用历史数据	Q-Learning, DQN, SAC

主要算法对比

算法	动作空间	样本效率	稳定性	难度
Q-Learning	离散	低	中	★☆☆
DQN	离散	低	好	★★☆
Policy Gradient	离散/连续	低	中	★★☆
Actor-Critic	离散/连续	中	好	★★★
PPO	离散/连续	中	很好	★★★
SAC	连续	高	好	★★★

应用场景

领域	应用	示例
游戏	AlphaGo, Atari	超越人类水平
机器人	运动控制	四足机器人行走
推荐系统	动态推荐	序列推荐
自动驾驶	决策规划	路径规划
大模型	对齐微调	ChatGPT, Claude
金融	交易策略	量化投资

学习路径

入门路线

1. 数学基础
   └─→ MDP定义、贝尔曼方程

2. 表格方法
   ├─→ 动态规划（策略迭代/价值迭代）
   └─→ Q-Learning、SARSA

3. 函数近似
   └─→ DQN、深度强化学习

4. 策略优化
   └─→ 策略梯度、Actor-Critic

5. 高级主题
   ├─→ PPO、SAC
   └─→ RLHF、大模型对齐

资源	类型	说明
Sutton & Barto《强化学习》	教材	经典必读
OpenAI Spinning Up	教程	实践导向
Lil’Log RL系列	博客	深入浅出
Hugging Face RL Course	课程	互动学习

Metaphor

探索

强化学习

概述

知识体系

核心概念

智能体与环境

关键术语

算法分类

按学习方式

按策略更新

按策略性质

主要算法对比

应用场景

学习路径

入门路线

推荐资源

参考

相关主题

Actor-Critic方法

贝尔曼方程

深度Q网络（DQN）

动态规划与最优控制

马尔可夫决策过程

策略梯度方法

PPO：近端策略优化

Q-Learning

RLHF：人类反馈强化学习

探索

强化学习

概述

知识体系

核心概念

智能体与环境

关键术语

算法分类

按学习方式

按策略更新

按策略性质

主要算法对比

应用场景

学习路径

入门路线

推荐资源

参考

相关主题

Footnotes