Bellman方程与算子理论
Bellman方程是强化学习理论的基石,将递归结构引入值函数的计算,为动态规划算法提供了数学基础。
1. Bellman方程推导
1.1 策略值函数的Bellman方程
从值函数定义出发,利用马尔可夫性质:
展开第一项:
展开第二项,需要用到全概率公式:
最终得到Bellman策略方程:
1.2 最优值函数的Bellman方程
最优值函数满足:
动作值函数形式:
2. Bellman算子
2.1 策略Bellman算子
定义为从值函数到值函数的映射:
向量形式:
其中:
- :策略 下的期望即时奖励,
- :策略 下的转移概率矩阵,
2.2 最优Bellman算子
向量形式:
3. 压缩映射定理
3.1 范数定义
使用无穷范数(最大范数):
3.2 Bellman算子的压缩性
定理(Bellman算子是 -收缩):对于任意两个值函数 ,有:
证明:
3.3 推论
- 重复应用 必收敛到唯一不动点
- 收敛速率:
- 类似地, 也是 -收缩
4. 收敛性分析
4.1 Banach不动点定理
定理:完备赋范空间上的压缩映射有唯一不动点。
应用:
- 在 上是 -收缩
- 因此 有唯一不动点 满足
- 从任意初始值函数 出发,迭代 收敛到
4.2 收敛速率
引理:
4.3 迭代值函数
算法:Value Iteration (VI)
V_0 = zeros(|S|)
for k in range(K):
for s in S:
V_{k+1}(s) = max_a [r(s,a) + γ Σ_{s'} T(s'|s,a) V_k(s')]收敛条件:
5. 策略迭代算法
5.1 两阶段交替
策略评估:计算
或迭代求解:
策略改进:贪心选择
5.2 策略改进定理
定理:设 是基于 贪心改进的策略,则:
且至少有一个状态使不等式严格成立。
证明:
5.3 收敛性保证
定理:有限状态空间MDP的策略迭代在有限步内收敛到最优策略。
单调性:
6. 广义策略迭代
6.1 GPI框架
策略迭代和值迭代是**广义策略迭代(GPI)**的特殊情况:
┌─────────────────────────────────┐
│ 最优性(贪婪) │
│ V = T*V 或 π = greedy(V) │
└─────────────────────────────────┘
▲
│
│
┌─────────────────────────────────┐
│ 评估(预测) │
│ V = T^πV 或 π = E(V) │
└─────────────────────────────────┘
6.2 同步与异步更新
| 类型 | 更新方式 | 收敛性 |
|---|---|---|
| 同步 | 所有状态同时更新 | 保证收敛 |
| 异步 | 单个状态更新 | 需满足异步收敛条件 |
7. 矩阵形式求解
7.1 解析解
对于线性方程组 :
7.2 矩阵求逆的复杂性
- 直接求逆:
- 迭代求解:
7.3 Sherman-Morrison公式
对于稀疏转移矩阵,可使用Woodbury矩阵恒等式加速:
8. 备份图视角
8.1 Bellman备份
当前状态 s 下一状态 s'
│ ▲
▼ │
┌─────────────┐ ┌─────────────┐
│ 选择动作 a │ │ 值函数 V │
│ π(a|s) │ │ │
└─────────────┘ └─────────────┘
│ │
▼ │
┌─────────────┐ │
│ 即时奖励 │ │
│ r(s,a) │ │
└─────────────┘ │
│ │
└──────────────────────────────┘
8.2 备份运算
9. 与深度学习的联系
9.1 神经网络近似
深度强化学习用神经网络近似Bellman方程中的值函数:
- DQN: 参数化
- 经验回放:存储 样本
- 目标网络:稳定Bellman更新
9.2 时序差分学习
其中 是 的TD目标。
10. 扩展形式
10.1 平均奖励Bellman方程
对于的设置:
其中 是平均奖励, 是相对值函数。
10.2 softmax-Bellman方程
对于柔性策略:
其中 是温度参数。
11. 参考文献
相关主题:MDP数学基础 | 值函数近似理论 | PPO全局收敛性理论