Bellman方程与算子理论

Bellman方程是强化学习理论的基石,将递归结构引入值函数的计算,为动态规划算法提供了数学基础。

1. Bellman方程推导

1.1 策略值函数的Bellman方程

从值函数定义出发,利用马尔可夫性质:

展开第一项:

展开第二项,需要用到全概率公式:

最终得到Bellman策略方程

1.2 最优值函数的Bellman方程

最优值函数满足:

动作值函数形式

2. Bellman算子

2.1 策略Bellman算子

定义为从值函数到值函数的映射:

向量形式:

其中:

  • :策略 下的期望即时奖励,
  • :策略 下的转移概率矩阵,

2.2 最优Bellman算子

向量形式:

3. 压缩映射定理

3.1 范数定义

使用无穷范数(最大范数):

3.2 Bellman算子的压缩性

定理(Bellman算子是 -收缩):对于任意两个值函数 ,有:

证明

3.3 推论

  • 重复应用 必收敛到唯一不动点
  • 收敛速率:
  • 类似地, 也是 -收缩

4. 收敛性分析

4.1 Banach不动点定理

定理:完备赋范空间上的压缩映射有唯一不动点。

应用

  1. 上是 -收缩
  2. 因此 有唯一不动点 满足
  3. 从任意初始值函数 出发,迭代 收敛到

4.2 收敛速率

引理

4.3 迭代值函数

算法:Value Iteration (VI)

V_0 = zeros(|S|)
for k in range(K):
    for s in S:
        V_{k+1}(s) = max_a [r(s,a) + γ Σ_{s'} T(s'|s,a) V_k(s')]

收敛条件

5. 策略迭代算法

5.1 两阶段交替

策略评估:计算

或迭代求解:

策略改进:贪心选择

5.2 策略改进定理

定理:设 是基于 贪心改进的策略,则:

且至少有一个状态使不等式严格成立。

证明

5.3 收敛性保证

定理:有限状态空间MDP的策略迭代在有限步内收敛到最优策略。

单调性

6. 广义策略迭代

6.1 GPI框架

策略迭代和值迭代是**广义策略迭代(GPI)**的特殊情况:

                    ┌─────────────────────────────────┐
                    │      最优性(贪婪)               │
                    │   V = T*V 或 π = greedy(V)      │
                    └─────────────────────────────────┘
                                ▲
                                │
                                │
┌─────────────────────────────────┐
│       评估(预测)               │
│   V = T^πV 或 π = E(V)         │
└─────────────────────────────────┘

6.2 同步与异步更新

类型更新方式收敛性
同步所有状态同时更新保证收敛
异步单个状态更新需满足异步收敛条件

7. 矩阵形式求解

7.1 解析解

对于线性方程组

7.2 矩阵求逆的复杂性

  • 直接求逆:
  • 迭代求解:

7.3 Sherman-Morrison公式

对于稀疏转移矩阵,可使用Woodbury矩阵恒等式加速:

8. 备份图视角

8.1 Bellman备份

当前状态 s                    下一状态 s'
     │                              ▲
     ▼                              │
┌─────────────┐              ┌─────────────┐
│  选择动作 a │              │  值函数 V   │
│  π(a|s)    │              │             │
└─────────────┘              └─────────────┘
     │                              │
     ▼                              │
┌─────────────┐                      │
│  即时奖励   │                      │
│  r(s,a)    │                      │
└─────────────┘                      │
     │                              │
     └──────────────────────────────┘

8.2 备份运算

9. 与深度学习的联系

9.1 神经网络近似

深度强化学习用神经网络近似Bellman方程中的值函数:

  • DQN 参数化
  • 经验回放:存储 样本
  • 目标网络:稳定Bellman更新

9.2 时序差分学习

其中 的TD目标。

10. 扩展形式

10.1 平均奖励Bellman方程

对于的设置:

其中 是平均奖励, 是相对值函数。

10.2 softmax-Bellman方程

对于柔性策略:

其中 是温度参数。

11. 参考文献


相关主题MDP数学基础 | 值函数近似理论 | PPO全局收敛性理论