Bellman方程与算子理论

Bellman方程是强化学习理论的基石，将递归结构引入值函数的计算，为动态规划算法提供了数学基础。

1. Bellman方程推导

1.1 策略值函数的Bellman方程

从值函数定义出发，利用马尔可夫性质：

V^{π} (s) = E_{π} [G_{t} ∣ S_{t} = s] = E_{π} [R_{t + 1} + γ G_{t + 1} ∣ S_{t} = s] = E_{π} [R_{t + 1} ∣ S_{t} = s] + γ E_{π} [G_{t + 1} ∣ S_{t} = s]

展开第一项：

E_{π} [R_{t + 1} ∣ S_{t} = s] = a \in A \sum π (a ∣ s) \cdot r (s, a)

展开第二项，需要用到全概率公式：

E_{π} [G_{t + 1} ∣ S_{t} = s] = s^{'} \in S \sum a \in A \sum π (a ∣ s) \cdot T (s^{'} ∣ s, a) \cdot E_{π} [G_{t + 1} ∣ S_{t + 1} = s^{'}]

最终得到Bellman策略方程：

V^{π} (s) = a \in A \sum π (a ∣ s) [r (s, a) + γ s^{'} \in S \sum T (s^{'} ∣ s, a) V^{π} (s^{'})]

1.2 最优值函数的Bellman方程

最优值函数满足：

V^{*} (s) = a \in A max [r (s, a) + γ s^{'} \in S \sum T (s^{'} ∣ s, a) V^{*} (s^{'})]

动作值函数形式：

Q^{*} (s, a) = r (s, a) + γ s^{'} \in S \sum T (s^{'} ∣ s, a) a^{'} \in A max Q^{*} (s^{'}, a^{'})

2. Bellman算子

2.1 策略Bellman算子

定义为从值函数到值函数的映射：

(T^{π} V) (s) = a \in A \sum π (a ∣ s) [r (s, a) + γ s^{'} \in S \sum T (s^{'} ∣ s, a) V (s^{'})]

向量形式：

T^{π} V = r^{π} + γ P^{π} V

其中：

$r^{π} \in R^{∣ S ∣}$ ：策略 $π$ 下的期望即时奖励， $[r^{π}]_{s} = \sum_{a} π (a ∣ s) r (s, a)$
$P^{π} \in R^{∣ S ∣ \times ∣ S ∣}$ ：策略 $π$ 下的转移概率矩阵， $[P^{π}]_{s, s^{'}} = \sum_{a} π (a ∣ s) T (s^{'} ∣ s, a)$

2.2 最优Bellman算子

(T^{*} V) (s) = a \in A max [r (s, a) + γ s^{'} \in S \sum T (s^{'} ∣ s, a) V (s^{'})]

向量形式：

T^{*} V = π max T^{π} V = a \in A max (r^{a} + γ P^{a} V)

3. 压缩映射定理

3.1 范数定义

使用无穷范数（最大范数）：

∥ V ∥_{\infty} = s \in S max ∣ V (s) ∣

3.2 Bellman算子的压缩性

定理（Bellman算子是 $γ$ -收缩）：对于任意两个值函数 $V, \overset{ˉ}{V}$ ，有：

∥ T^{π} V - T^{π} \overset{ˉ}{V} ∥_{\infty} \leq γ ∥ V - \overset{ˉ}{V} ∥_{\infty}

证明：

∥ T^{π} V - T^{π} \overset{ˉ}{V} ∥_{\infty} = s max γ s^{'} \sum P^{π} (s, s^{'}) [V (s^{'}) - \overset{ˉ}{V} (s^{'})] \leq γ s max s^{'} \sum P^{π} (s, s^{'}) ∣ V (s^{'}) - \overset{ˉ}{V} (s^{'}) ∣ \leq γ s max s^{'} \sum P^{π} (s, s^{'}) ∥ V - \overset{ˉ}{V} ∥_{\infty} = γ ∥ V - \overset{ˉ}{V} ∥_{\infty}

3.3 推论

重复应用 $T^{π}$ 必收敛到唯一不动点 $V^{π}$
收敛速率： $O (γ^{k})$
类似地， $T^{*}$ 也是 $γ$ -收缩

4. 收敛性分析

4.1 Banach不动点定理

定理：完备赋范空间上的压缩映射有唯一不动点。

应用：

$T^{π}$ 在 $R^{∣ S ∣}$ 上是 $γ$ -收缩
因此 $T^{π}$ 有唯一不动点 $V^{*}$ 满足 $T^{π} V^{*} = V^{*}$
从任意初始值函数 $V_{0}$ 出发，迭代 $V_{k + 1} = T^{π} V_{k}$ 收敛到 $V^{*}$

4.2 收敛速率

引理：

∥ V_{k} - V^{π} ∥_{\infty} \leq γ^{k} ∥ V_{0} - V^{π} ∥_{\infty}

4.3 迭代值函数

算法：Value Iteration (VI)

V_0 = zeros(|S|)
for k in range(K):
    for s in S:
        V_{k+1}(s) = max_a [r(s,a) + γ Σ_{s'} T(s'|s,a) V_k(s')]

收敛条件： $∥ V_{k + 1} - V_{k} ∥_{\infty} < ϵ$

5. 策略迭代算法

5.1 两阶段交替

策略评估：计算 $V^{π_{k}}$

V^{π_{k}} = (I - γ P^{π_{k}})^{- 1} r^{π_{k}}

或迭代求解：

V^{k + 1} = T^{π_{k}} V^{k}

策略改进：贪心选择

π_{k + 1} (s) = ar g a max [r (s, a) + γ s^{'} \sum T (s^{'} ∣ s, a) V^{π_{k}} (s^{'})]

5.2 策略改进定理

定理：设 $π^{'}$ 是基于 $V^{π}$ 贪心改进的策略，则：

V^{π^{'}} (s) \geq V^{π} (s), \forall s \in S

且至少有一个状态使不等式严格成立。

证明：

V^{π^{'}} (s) = a max Q^{π} (s, a) \geq Q^{π} (s, π (s)) = V^{π} (s)

5.3 收敛性保证

定理：有限状态空间MDP的策略迭代在有限步内收敛到最优策略。

单调性：

V^{π_{0}} \leq V^{π_{1}} \leq \dots \leq V^{*}, k \to \infty lim V^{π_{k}} = V^{*}

6. 广义策略迭代

6.1 GPI框架

策略迭代和值迭代是**广义策略迭代（GPI）**的特殊情况：

                    ┌─────────────────────────────────┐
                    │      最优性（贪婪）               │
                    │   V = T*V 或 π = greedy(V)      │
                    └─────────────────────────────────┘
                                ▲
                                │
                                │
┌─────────────────────────────────┐
│       评估（预测）               │
│   V = T^πV 或 π = E(V)         │
└─────────────────────────────────┘

6.2 同步与异步更新

类型	更新方式	收敛性
同步	所有状态同时更新	保证收敛
异步	单个状态更新	需满足异步收敛条件

7. 矩阵形式求解

7.1 解析解

对于线性方程组 $V^{π} = r^{π} + γ P^{π} V^{π}$ ：

V^{π} = (I - γ P^{π})^{- 1} r^{π}

7.2 矩阵求逆的复杂性

直接求逆： $O (∣ S ∣^{3})$
迭代求解： $O (∣ S ∣^{2} \cdot 迭代次数)$

7.3 Sherman-Morrison公式

对于稀疏转移矩阵，可使用Woodbury矩阵恒等式加速：

(I - γ P^{π})^{- 1} = I + γ (I - γ P^{π})^{- 1} P^{π}

8. 备份图视角

8.1 Bellman备份

当前状态 s                    下一状态 s'
     │                              ▲
     ▼                              │
┌─────────────┐              ┌─────────────┐
│  选择动作 a │              │  值函数 V   │
│  π(a|s)    │              │             │
└─────────────┘              └─────────────┘
     │                              │
     ▼                              │
┌─────────────┐                      │
│  即时奖励   │                      │
│  r(s,a)    │                      │
└─────────────┘                      │
     │                              │
     └──────────────────────────────┘

8.2 备份运算

T^{π} V (s) = a \sum π (a ∣ s) s^{'} \sum T (s^{'} ∣ s, a) [r (s, a) + γV (s^{'})]

9. 与深度学习的联系

9.1 神经网络近似

深度强化学习用神经网络近似Bellman方程中的值函数：

DQN： $Q (s, a) \approx θ$ 参数化
经验回放：存储 $(s, a, r, s^{'})$ 样本
目标网络：稳定Bellman更新

9.2 时序差分学习

V (S_{t}) \leftarrow V (S_{t}) + α [R_{t + 1} + γV (S_{t + 1}) - V (S_{t})]

其中 $R_{t + 1} + γV (S_{t + 1})$ 是 $V (S_{t})$ 的TD目标。

10. 扩展形式

10.1 平均奖励Bellman方程

对于 $γ = 1$ 的设置：

h^{π} (s) = a \sum π (a ∣ s) [r (s, a) - \overset{r}{ˉ}^{π} + s^{'} \sum T (s^{'} ∣ s, a) h^{π} (s^{'})]

其中 $\overset{r}{ˉ}^{π}$ 是平均奖励， $h^{π}$ 是相对值函数。

10.2 softmax-Bellman方程

对于柔性策略：

V^{π} (s) = lo g a \sum exp (\frac{1}{τ} [r (s, a) + γ s^{'} \sum T (s^{'} ∣ s, a) V^{π} (s^{'})])

其中 $τ$ 是温度参数。

11. 参考文献

相关主题：MDP数学基础 | 值函数近似理论 | PPO全局收敛性理论

Metaphor

探索

Bellman方程与算子理论

Bellman方程与算子理论

1. Bellman方程推导

1.1 策略值函数的Bellman方程

1.2 最优值函数的Bellman方程

2. Bellman算子

2.1 策略Bellman算子

2.2 最优Bellman算子

3. 压缩映射定理

3.1 范数定义

3.2 Bellman算子的压缩性

3.3 推论

4. 收敛性分析

4.1 Banach不动点定理

4.2 收敛速率

4.3 迭代值函数

5. 策略迭代算法

5.1 两阶段交替

5.2 策略改进定理

5.3 收敛性保证

6. 广义策略迭代

6.1 GPI框架

6.2 同步与异步更新

7. 矩阵形式求解

7.1 解析解

7.2 矩阵求逆的复杂性

7.3 Sherman-Morrison公式

8. 备份图视角

8.1 Bellman备份

8.2 备份运算

9. 与深度学习的联系

9.1 神经网络近似

9.2 时序差分学习

10. 扩展形式

10.1 平均奖励Bellman方程

10.2 softmax-Bellman方程

11. 参考文献

关系图谱

目录

反向链接