马尔可夫决策过程数学基础

马尔可夫决策过程(Markov Decision Process, MDP)是强化学习的理论基础,为序列决策问题提供了统一的数学框架。

1. MDP定义

1.1 基本组成

MDP由五元组定义:

符号含义说明
状态空间可能状态的有限或无限集合
动作空间可能动作的有限或无限集合
$T(s’s, a)$转移函数
奖励函数在状态执行动作获得的即时奖励
折扣因子未来奖励的重要性权重

1.2 马尔可夫性质

MDP的核心假设是马尔可夫性质

下一状态仅取决于当前状态和动作,与历史无关。这一性质使得MDP具有时间无记忆性。

1.3 状态-动作序列

智能体与环境交互产生的轨迹:

2. 策略函数

2.1 策略定义

策略 定义了智能体的行为:

2.2 策略分类

分类标准类型说明
确定性贪婪策略
随机性概率策略 表示概率分布
平稳性不随时变
非平稳性随时间变化 依赖于时间步

2.3 初始状态分布

设初始状态分布为

3. 回报函数

3.1 折扣回报

智能体最大化的是折扣累积回报

折扣因子的作用

  • :强调即时奖励(短视策略)
  • :同等对待远期奖励(远见策略)
  • :保证无限回报有界

3.2 有限horizon回报

另一种形式是不折扣但限制时间步:

3.3 平均奖励

长期平均奖励:

4. 值函数

4.1 状态值函数

从状态 开始、遵循策略 的期望累积回报:

4.2 动作值函数

从状态 开始、执行动作 后遵循策略 的期望累积回报:

4.3 优势函数

衡量特定动作相对于平均值的优势:

5. 最优性

5.1 最优值函数

存在最优策略 使得所有状态的值函数最大:

5.2 最优策略性质

定理(最优策略存在性):
对于任意MDP,存在确定性最优策略 满足:

6. 强化学习问题分类

6.1 按环境知识分类

类型环境知识经典算法
基于模型已知 动态规划、蒙特卡洛树搜索
无模型未知 Q-learning、SARSA、策略梯度

6.2 按学习方式分类

类型数据利用特点
在线学习实时交互可探索新状态
离线学习历史数据避免探索风险

6.3 动作空间分类

类型动作空间示例
离散动作有限集合棋类、游戏操作
连续动作无限集合机器人控制
混合动作两者兼有多任务智能体

7. 示例:格子世界

考虑一个简单的格子世界:

S = {(i,j) | i,j ∈ {1,2,3,4}}
A = {上, 下, 左, 右}
r(s,a) = -1 (除了目标状态)
T(s'|s,a) = 1/|A(s')| (确定性移动)
γ = 0.9

目标状态,其他状态值函数递减。

8. 与深度学习的联系

8.1 函数近似

现代强化学习使用深度神经网络近似值函数或策略:

  • Deep Q-Network (DQN):用CNN近似
  • 策略网络:用神经网络近似
  • Actor-Critic:同时学习值函数(Critic)和策略(Actor)

8.2 端到端学习

深度RL直接从原始感知输入学习决策策略,典型架构:

原始输入 → 神经网络特征提取 → 策略/值函数输出 → 动作决策

9. 数学性质

9.1 值函数的有界性

引理:若 ,则

证明

9.2 值函数的唯一性

对于给定的MDP, 是唯一的,但 可能不唯一(多个最优策略达到相同值函数)。

10. 参考文献


相关主题Bellman方程与算子理论 | 策略梯度定理 | PPO全局收敛性理论