值函数近似理论

在真实强化学习问题中，状态空间往往是巨大或连续的，无法用表格形式存储值函数。值函数近似（Function Approximation）将深度学习与强化学习结合，是现代RL的基础。

1. 函数近似框架

1.1 近似目标

用参数化函数 $\hat{V} (\cdot; θ) : S \to R$ 近似真实值函数 $V^{π}$ 或 $V^{*}$ 。

1.2 近似架构分类

类型	函数形式	示例
线性	$\hat{V} = ϕ (s)^{T} θ$	特征线性组合
非线性	$\hat{V} = f (s; θ)$	神经网络
核方法	$\hat{V} = \sum_{i} α_{i} k (s, s_{i})$	RBF核

1.3 损失函数

均方误差（MSE）目标：

J (θ) = E_{d} [(V^{π} (s) - \hat{V} (s; θ))^{2}]

其中 $d (s)$ 是状态分布（通常是平稳分布或访问分布）。

2. 表格型到函数近似的桥梁

2.1 表格作为特例

当特征函数 $ϕ (s)$ 是单位矩阵时：

\hat{V} (s; θ) = θ_{s}

每个状态对应一个独立参数。

2.2 泛化与干扰

现象	描述
正向泛化	相似状态有相似值
负向干扰	更新一个状态影响其他状态

3. 梯度TD学习方法

3.1 半梯度TD(0)

θ_{t + 1} = θ_{t} + α δ_{t} \nabla_{θ} \hat{V} (s_{t}; θ)

其中TD误差：

δ_{t} = r_{t} + γ \hat{V} (s_{t + 1}; θ) - \hat{V} (s_{t}; θ)

注意：梯度只计算当前状态的近似值，不包含对下一个状态的依赖。

3.2 TD(λ)算法

结合多步返回：

G_{t}^{λ} = (1 - λ) n = 1 \sum \infty λ^{n - 1} G_{t}^{(n)}

其中n步返回：

G_{t}^{(n)} = k = 0 \sum n - 1 γ^{k} r_{t + k + 1} + γ^{n} \hat{V} (s_{t + n}; θ)

3.3 GAE (Generalized Advantage Estimation)

指数加权优势估计：

\hat{A}_{t}^{G A E} (γ, λ) = l = 0 \sum \infty (γλ)^{l} δ_{t + l}

其中 $δ_{t} = r_{t} + γ \hat{V} (s_{t + 1}) - \hat{V} (s_{t})$ 。

两个参数的物理意义：

$γ$ ：控制偏差（bias）
$λ$ ：控制方差（variance）

4. 收敛性分析

4.1 表格型TD的收敛性

定理：表格型TD(0)在以下条件下几乎必然收敛到 $V^{π}$ ：

学习率 $α_{t}$ 满足 $\sum_{t} α_{t} = \infty$ , $\sum_{t} α_{t}^{2} < \infty$
满足持续探索条件

4.2 线性近似TD的收敛性

条件：

特征向量线性无关
$γ$ -混合过程假设
学习率条件

结果：半梯度TD(0)在线性近似下有有限方差，但不保证收敛到最优值。

4.3 非线性近似的问题

** Baird 反例**：对于非线性函数近似（如神经网络），即使满足标准假设，TD学习也可能发散。

∥ T^{π} \hat{V} - \hat{V} ∥ \neq \to 0

4.4 优化视角

将TD学习视为最小化投影Bellman误差（PBE）：

PBE (θ) = ∥Π (T^{π} \hat{V}_{θ} - \hat{V}_{θ}) ∥_{D}^{2}

其中 $Π$ 是到函数空间的投影。

5. 深度Q网络 (DQN)

5.1 目标网络

解决非平稳目标问题：

y_{j} = r_{j} + γ a^{'} max \hat{Q} (s_{j}^{'}, a^{'}; θ^{-})

其中 $θ^{-}$ 是定期更新的目标网络参数。

5.2 经验回放

打破样本间的时间相关性：

存储转换 $(s_{t}, a_{t}, r_{t}, s_{t + 1})$ 到回放缓冲区
均匀随机采样进行梯度更新

5.3 DQN更新

θ_{t + 1} = θ_{t} + α (y_{j} - \hat{Q} (s_{j}, a_{j}; θ_{t})) \nabla_{θ} \hat{Q} (s_{j}, a_{j}; θ_{t})

6. 最小二乘方法

6.1 LSTD (Least Squares TD)

直接求解最小化问题：

θ_{L ST D} = ar g θ min t = 0 \sum T α_{t}^{2} (r_{t} + γ ϕ (s_{t + 1})^{T} θ - ϕ (s_{t})^{T} θ)^{2}

6.2 LSTD解

θ = (t \sum ϕ (s_{t}) (ϕ (s_{t}) - γ ϕ (s_{t + 1}))^{T})^{- 1} t \sum ϕ (s_{t}) r_{t}

6.3 LSTD(λ)

使用 $λ$ 返回的版本。

7. 策略相关收敛性

7.1 策略评估的稳定性

方法	稳定性	偏差
Monte Carlo	稳定	无偏
TD(0)	可能不稳定	有偏
蒙特卡洛树搜索	稳定	无偏

7.2 训练不稳定来源

数据分布漂移：策略变化导致数据分布变化
Bellman算子非收缩：非线性近似下 $T^{π}$ 可能膨胀
目标漂移： $y_{t}$ 依赖于当前参数

8. 核函数近似

8.1 核化TD学习

\hat{V} (s) = i \sum α_{i} k (s, s_{i})

其中 $k (\cdot, \cdot)$ 是核函数（如RBF）。

8.2 核岭回归

解决核矩阵的病态问题：

α = (K + λ I)^{- 1} r

9. 实践技巧

9.1 特征工程

特征类型	示例
多项式基	$1, s, s^{2}, \dots$
傅里叶基	$sin (2 πk s), cos (2 πk s)$
径向基	$exp (- ∥ s - c_{i} ∥^{2} / (2 σ_{i}^{2}))$
编码特征	one-hot, tile coding

9.2 归一化

值归一化：将输出值缩放到合理范围
批量归一化：稳定深度网络训练
层归一化：加速收敛

9.3 目标裁剪

# Double DQN
target = r + γ * Q_target(s_next, argmax_a Q_online(s_next, a))

10. 与策略梯度的关系

10.1 Actor-Critic架构

组件	功能	近似
Actor	策略 $π (a ∥ s)$	$π (a ∥ s; ϕ)$
Critic	值函数 $V^{π} (s)$	$\hat{V} (s; θ)$

10.2 优势Actor-Critic (A2C)

ϕ_{t + 1} = ϕ_{t} + α \nabla_{ϕ} lo g π_{ϕ} (a_{t} ∣ s_{t}) \hat{A}_{t}

其中 $\hat{A}_{t}$ 是由 Critic 估计的优势函数。

Metaphor

探索

值函数近似理论

值函数近似理论

1. 函数近似框架

1.1 近似目标

1.2 近似架构分类

1.3 损失函数

2. 表格型到函数近似的桥梁

2.1 表格作为特例

2.2 泛化与干扰

3. 梯度TD学习方法

3.1 半梯度TD(0)

3.2 TD(λ)算法

3.3 GAE (Generalized Advantage Estimation)

4. 收敛性分析

4.1 表格型TD的收敛性

4.2 线性近似TD的收敛性

4.3 非线性近似的问题

4.4 优化视角

5. 深度Q网络 (DQN)

5.1 目标网络

5.2 经验回放

5.3 DQN更新

6. 最小二乘方法

6.1 LSTD (Least Squares TD)

6.2 LSTD解

6.3 LSTD(λ)

7. 策略相关收敛性

7.1 策略评估的稳定性

7.2 训练不稳定来源

8. 核函数近似

8.1 核化TD学习

8.2 核岭回归

9. 实践技巧

9.1 特征工程

9.2 归一化

9.3 目标裁剪

10. 与策略梯度的关系

10.1 Actor-Critic架构

10.2 优势Actor-Critic (A2C)

11. 参考文献

关系图谱

目录

反向链接