值函数近似理论
在真实强化学习问题中,状态空间往往是巨大或连续的,无法用表格形式存储值函数。值函数近似(Function Approximation)将深度学习与强化学习结合,是现代RL的基础。
1. 函数近似框架
1.1 近似目标
用参数化函数 近似真实值函数 或 。
1.2 近似架构分类
| 类型 | 函数形式 | 示例 |
|---|---|---|
| 线性 | 特征线性组合 | |
| 非线性 | 神经网络 | |
| 核方法 | RBF核 |
1.3 损失函数
均方误差(MSE)目标:
其中 是状态分布(通常是平稳分布或访问分布)。
2. 表格型到函数近似的桥梁
2.1 表格作为特例
当特征函数 是单位矩阵时:
每个状态对应一个独立参数。
2.2 泛化与干扰
| 现象 | 描述 |
|---|---|
| 正向泛化 | 相似状态有相似值 |
| 负向干扰 | 更新一个状态影响其他状态 |
3. 梯度TD学习方法
3.1 半梯度TD(0)
其中TD误差:
注意:梯度只计算当前状态的近似值,不包含对下一个状态的依赖。
3.2 TD(λ)算法
结合多步返回:
其中n步返回:
3.3 GAE (Generalized Advantage Estimation)
指数加权优势估计:
其中 。
两个参数的物理意义:
- :控制偏差(bias)
- :控制方差(variance)
4. 收敛性分析
4.1 表格型TD的收敛性
定理:表格型TD(0)在以下条件下几乎必然收敛到 :
- 学习率 满足 ,
- 满足持续探索条件
4.2 线性近似TD的收敛性
条件:
- 特征向量线性无关
- -混合过程假设
- 学习率条件
结果:半梯度TD(0)在线性近似下有有限方差,但不保证收敛到最优值。
4.3 非线性近似的问题
** Baird 反例**:对于非线性函数近似(如神经网络),即使满足标准假设,TD学习也可能发散。
4.4 优化视角
将TD学习视为最小化投影Bellman误差(PBE):
其中 是到函数空间的投影。
5. 深度Q网络 (DQN)
5.1 目标网络
解决非平稳目标问题:
其中 是定期更新的目标网络参数。
5.2 经验回放
打破样本间的时间相关性:
- 存储转换 到回放缓冲区
- 均匀随机采样进行梯度更新
5.3 DQN更新
6. 最小二乘方法
6.1 LSTD (Least Squares TD)
直接求解最小化问题:
6.2 LSTD解
6.3 LSTD(λ)
使用返回的版本。
7. 策略相关收敛性
7.1 策略评估的稳定性
| 方法 | 稳定性 | 偏差 |
|---|---|---|
| Monte Carlo | 稳定 | 无偏 |
| TD(0) | 可能不稳定 | 有偏 |
| 蒙特卡洛树搜索 | 稳定 | 无偏 |
7.2 训练不稳定来源
- 数据分布漂移:策略变化导致数据分布变化
- Bellman算子非收缩:非线性近似下 可能膨胀
- 目标漂移: 依赖于当前参数
8. 核函数近似
8.1 核化TD学习
其中 是核函数(如RBF)。
8.2 核岭回归
解决核矩阵的病态问题:
9. 实践技巧
9.1 特征工程
| 特征类型 | 示例 |
|---|---|
| 多项式基 | |
| 傅里叶基 | |
| 径向基 | |
| 编码特征 | one-hot, tile coding |
9.2 归一化
- 值归一化:将输出值缩放到合理范围
- 批量归一化:稳定深度网络训练
- 层归一化:加速收敛
9.3 目标裁剪
# Double DQN
target = r + γ * Q_target(s_next, argmax_a Q_online(s_next, a))10. 与策略梯度的关系
10.1 Actor-Critic架构
| 组件 | 功能 | 近似 |
|---|---|---|
| Actor | 策略 | |
| Critic | 值函数 |
10.2 优势Actor-Critic (A2C)
其中 是由 Critic 估计的优势函数。
11. 参考文献
相关主题:Bellman方程与算子理论 | 策略梯度定理 | PPO全局收敛性理论