值函数近似理论

在真实强化学习问题中,状态空间往往是巨大或连续的,无法用表格形式存储值函数。值函数近似(Function Approximation)将深度学习与强化学习结合,是现代RL的基础。

1. 函数近似框架

1.1 近似目标

用参数化函数 近似真实值函数

1.2 近似架构分类

类型函数形式示例
线性特征线性组合
非线性神经网络
核方法RBF核

1.3 损失函数

均方误差(MSE)目标

其中 是状态分布(通常是平稳分布或访问分布)。

2. 表格型到函数近似的桥梁

2.1 表格作为特例

当特征函数 是单位矩阵时:

每个状态对应一个独立参数。

2.2 泛化与干扰

现象描述
正向泛化相似状态有相似值
负向干扰更新一个状态影响其他状态

3. 梯度TD学习方法

3.1 半梯度TD(0)

其中TD误差:

注意:梯度只计算当前状态的近似值,不包含对下一个状态的依赖。

3.2 TD(λ)算法

结合多步返回:

其中n步返回:

3.3 GAE (Generalized Advantage Estimation)

指数加权优势估计:

其中

两个参数的物理意义

  • :控制偏差(bias)
  • :控制方差(variance)

4. 收敛性分析

4.1 表格型TD的收敛性

定理:表格型TD(0)在以下条件下几乎必然收敛到

  1. 学习率 满足 ,
  2. 满足持续探索条件

4.2 线性近似TD的收敛性

条件

  • 特征向量线性无关
  • -混合过程假设
  • 学习率条件

结果:半梯度TD(0)在线性近似下有有限方差,但不保证收敛到最优值。

4.3 非线性近似的问题

** Baird 反例**:对于非线性函数近似(如神经网络),即使满足标准假设,TD学习也可能发散

4.4 优化视角

将TD学习视为最小化投影Bellman误差(PBE)

其中 是到函数空间的投影。

5. 深度Q网络 (DQN)

5.1 目标网络

解决非平稳目标问题:

其中 是定期更新的目标网络参数。

5.2 经验回放

打破样本间的时间相关性:

  1. 存储转换 到回放缓冲区
  2. 均匀随机采样进行梯度更新

5.3 DQN更新

6. 最小二乘方法

6.1 LSTD (Least Squares TD)

直接求解最小化问题:

6.2 LSTD解

6.3 LSTD(λ)

使用返回的版本。

7. 策略相关收敛性

7.1 策略评估的稳定性

方法稳定性偏差
Monte Carlo稳定无偏
TD(0)可能不稳定有偏
蒙特卡洛树搜索稳定无偏

7.2 训练不稳定来源

  1. 数据分布漂移:策略变化导致数据分布变化
  2. Bellman算子非收缩:非线性近似下 可能膨胀
  3. 目标漂移 依赖于当前参数

8. 核函数近似

8.1 核化TD学习

其中 是核函数(如RBF)。

8.2 核岭回归

解决核矩阵的病态问题:

9. 实践技巧

9.1 特征工程

特征类型示例
多项式基
傅里叶基
径向基
编码特征one-hot, tile coding

9.2 归一化

  • 值归一化:将输出值缩放到合理范围
  • 批量归一化:稳定深度网络训练
  • 层归一化:加速收敛

9.3 目标裁剪

# Double DQN
target = r + γ * Q_target(s_next, argmax_a Q_online(s_next, a))

10. 与策略梯度的关系

10.1 Actor-Critic架构

组件功能近似
Actor策略
Critic值函数

10.2 优势Actor-Critic (A2C)

其中 是由 Critic 估计的优势函数。

11. 参考文献


相关主题Bellman方程与算子理论 | 策略梯度定理 | PPO全局收敛性理论