策略梯度定理深度解析

策略梯度方法直接对策略进行优化，是现代强化学习的核心技术之一。

1. 策略梯度目标

1.1 平均值函数目标

J (θ) = E_{s \sim d^{π_{θ}}, a \sim π_{θ} (\cdot ∣ s)} [V^{π_{θ}} (s)] = E_{s \sim d^{π_{θ}}} [Q^{π_{θ}} (s, π_{θ} (s))]

1.2 起始状态目标

J_{0} (θ) = V^{π_{θ}} (s_{0})

1.3 平均奖励目标

\overset{ˉ}{J} (θ) = T \to \infty lim \frac{1}{T} E [t = 0 \sum T - 1 R_{t}]

2. 策略梯度定理

2.1 定理陈述

定理（策略梯度定理）：
对于可微策略 $π_{θ} (a ∣ s)$ ，策略梯度为：

\nabla_{θ} J (θ) = E_{s \sim d^{π_{θ}}, a \sim π_{θ} (\cdot ∣ s)} [\nabla_{θ} lo g π_{θ} (a ∣ s) \cdot Q^{π_{θ}} (s, a)]

或等价形式：

\nabla_{θ} J (θ) = E_{s \sim d^{π_{θ}}, a \sim π_{θ} (\cdot ∣ s)} [\nabla_{θ} lo g π_{θ} (a ∣ s) \cdot A^{π_{θ}} (s, a)]

2.2 证明（基于起始状态目标）

步骤1：对值函数求导

\nabla_{θ} V^{π_{θ}} (s) = \nabla_{θ} [a \sum π_{θ} (a ∣ s) Q^{π_{θ}} (s, a)] = a \sum [\nabla_{θ} π_{θ} (a ∣ s) Q^{π_{θ}} (s, a) + π_{θ} (a ∣ s) \nabla_{θ} Q^{π_{θ}} (s, a)]

步骤2：使用对数梯度恒等式

\nabla_{θ} π_{θ} (a ∣ s) = π_{θ} (a ∣ s) \nabla_{θ} lo g π_{θ} (a ∣ s)

步骤3：Bellman方程代入

对 $Q^{π_{θ}}$ 求导，利用 $Q^{π_{θ}} (s, a) = r (s, a) + γ \sum_{s^{'}} T (s^{'} ∣ s, a) V^{π_{θ}} (s^{'})$ ：

\nabla_{θ} Q^{π_{θ}} (s, a) = γ s^{'} \sum T (s^{'} ∣ s, a) \nabla_{θ} V^{π_{θ}} (s^{'})

步骤4：递归展开

通过递归展开，得到：

\nabla_{θ} V^{π_{θ}} (s) = E_{τ \sim π_{θ}} [t = 0 \sum \infty \nabla_{θ} lo g π_{θ} (a_{t} ∣ s_{t}) \cdot G_{t} s_{0} = s]

其中 $τ = (s_{0}, a_{0}, s_{1}, a_{1}, \dots)$ 是轨迹。

2.3 轨迹视角

\nabla_{θ} J (θ) = E_{τ} [t = 0 \sum T - 1 \nabla_{θ} lo g π_{θ} (a_{t} ∣ s_{t}) \cdot G_{t}]

3. REINFORCE算法

3.1 蒙特卡洛策略梯度

def REINFORCE(env, policy, optimizer, num_episodes):
    for episode in range(num_episodes):
        trajectory = collect_episode(env, policy)
        G = 0
        
        for t in reversed(range(len(trajectory))):
            s, a, r = trajectory[t]
            G = r + gamma * G  # 计算回报
            
            # 策略梯度更新
            log_prob = policy.log_prob(s, a)
            loss = -log_prob * G  # 最大化回报 = 最小化负回报
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

3.2 梯度估计器

\overset{g}{^} = \frac{1}{T} t = 0 \sum T - 1 \nabla_{θ} lo g π_{θ} (a_{t} ∣ s_{t}) \cdot G_{t}

3.3 收敛性条件

定理：若满足以下条件，REINFORCE几乎必然收敛到局部最优策略：

学习率 $α_{t}$ 满足 $\sum_{t} α_{t} = \infty$ , $\sum_{t} α_{t}^{2} < \infty$
策略可微且满足正则性条件

4. 方差缩减技术

4.1 基线（Baseline）

减去基线函数 $b (s)$ 不改变期望：

E [\nabla_{θ} lo g π_{θ} (a ∣ s) \cdot b (s)] = 0

证明：

E [\nabla_{θ} lo g π_{θ} (a ∣ s) \cdot b (s)] = b (s) \cdot a \sum \nabla_{θ} π_{θ} (a ∣ s) = b (s) \cdot \nabla_{θ} a \sum π_{θ} (a ∣ s) = b (s) \cdot \nabla_{θ} 1 = 0

4.2 最优基线

最小化方差的最优基线：

b^{*} (s) = \frac{\sum _{a} π ( a ∣ s ) \cdot Q ( s , a ) \cdot ∥ \nabla _{θ} lo g π ( a ∣ s ) ∥ ^{2}}{\sum _{a} π ( a ∣ s ) \cdot ∥ \nabla _{θ} lo g π ( a ∣ s ) ∥ ^{2}}

实际中常用 $b (s) \approx V^{π} (s)$ 。

4.3 优势函数替换

\overset{g}{^} = E [\nabla_{θ} lo g π (a ∣ s) \cdot A (s, a)]

使用优势函数 $A (s, a) = Q (s, a) - V (s)$ 可进一步降低方差。

5. Actor-Critic架构

5.1 基本思想

用Critic网络近似值函数，Actor网络更新策略：

组件	输出	目标
Actor ( $π_{θ}$ )	策略分布	最大化期望回报
Critic ( $V_{ϕ}$ )	值函数估计	最小化TD误差

5.2 策略梯度更新

θ \leftarrow θ + α \nabla_{θ} lo g π_{θ} (a ∣ s) \cdot \hat{A} (s, a)

其中 $\hat{A}$ 由Critic估计。

5.3 Critic更新

# TD(0)更新
delta = r + gamma * V_phi(s_next) - V_phi(s)
phi = phi + beta * delta * grad_V_phi(s)

6. 自然策略梯度

6.1 Fisher信息矩阵

F (θ) = E_{π_{θ}} [\nabla_{θ} lo g π_{θ} \cdot \nabla_{θ} lo g π_{θ}^{T}]

6.2 自然梯度更新

θ_{t + 1} = θ_{t} + α F (θ_{t})^{- 1} \nabla_{θ} J (θ_{t})

6.3 KL散度约束

自然梯度等价于在策略分布的黎曼流形上进行最陡下降，相邻策略间的KL散度受约束：

θ_{t + 1} = ar g θ max J (θ) s.t. D_{K L} (π_{θ} ∥ π_{θ_{t}}) \leq ϵ

7. 信任域方法

7.1 信任域策略优化（TRPO）

θ_{t + 1} = ar g θ max E_{s, a \sim π_{θ_{t}}} [\frac{π _{θ} ( a ∣ s )}{π _{θ_{t}} ( a ∣ s )} \hat{A}_{θ_{t}} (s, a)]

s.t. E_{s \sim π_{θ_{t}}} [D_{K L} (π_{θ} (\cdot ∣ s) ∥ π_{θ_{t}} (\cdot ∣ s))] \leq δ

7.2 共轭梯度求解

使用共轭梯度法高效求解约束优化问题。

7.3 线搜索

为保证约束满足，执行线搜索：

for alpha in [1, 0.5, 0.25, ...]:
    theta_new = theta + alpha * delta_theta
    if KL_check(theta, theta_new) and improvement():
        theta = theta_new
        break

8. GAE优势估计

8.1 n步优势估计

\hat{A}_{t}^{(n)} = k = 0 \sum n - 1 γ^{k} δ_{t + k}

8.2 GAE定义

\hat{A}_{t}^{G A E} (γ, λ) = (1 - λ) n = 1 \sum \infty λ^{n - 1} \hat{A}_{t}^{(n)}

物理意义：

$λ = 0$ ： $\hat{A} = δ_{t}$ （TD(0)）
$λ = 1$ ： $\hat{A} = \sum_{k = 0}^{\infty} γ^{k} δ_{t + k} = G_{t} - V (s_{t})$ （蒙特卡洛）

8.3 偏差-方差权衡

$λ$	偏差	方差
低	低偏差	高方差
高	高偏差	低方差

9. 与深度学习的联系

9.1 策略网络架构

class PolicyNetwork(nn.Module):
    def __init__(self, state_dim, action_dim, hidden_dim=128):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(state_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, action_dim)
        )
    
    def forward(self, x):
        return self.net(x)
    
    def log_prob(self, x, action):
        logits = self.forward(x)
        dist = Categorical(logits=logits)
        return dist.log_prob(action)

9.2 PyTorch实现

def update_policy(policy, optimizer, states, actions, returns):
    log_probs = policy.log_prob(states, actions)
    
    # 使用返回作为基线
    loss = -(log_probs * returns).mean()
    
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

10. 现代变体

10.1 PPO (Proximal Policy Optimization)

引入裁剪机制限制策略更新幅度：

L^{C L I P} (θ) = E_{t} [min (r_{t} (θ) \hat{A}_{t}, clip (r_{t} (θ), 1 - ϵ, 1 + ϵ) \hat{A}_{t})]

其中 $r_{t} (θ) = \frac{π _{θ} ( a _{t} ∣ s _{t} )}{π _{θ_{o l d}} ( a _{t} ∣ s _{t} )}$ 。

10.2 AWR (Advantage-Weighted Regression)

θ_{n e w} = ar g θ max E_{(s, a) \sim D} [\frac{1}{Z ( s )} exp (β \hat{A} (s, a)) lo g π_{θ} (a ∣ s)]

11. 参考文献

相关主题：MDP数学基础 | PPO全局收敛性理论 | 无折扣策略梯度理论

Metaphor

探索

策略梯度定理深度解析

策略梯度定理深度解析

1. 策略梯度目标

1.1 平均值函数目标

1.2 起始状态目标

1.3 平均奖励目标

2. 策略梯度定理

2.1 定理陈述

2.2 证明（基于起始状态目标）

2.3 轨迹视角

3. REINFORCE算法

3.1 蒙特卡洛策略梯度

3.2 梯度估计器

3.3 收敛性条件

4. 方差缩减技术

4.1 基线（Baseline）

4.2 最优基线

4.3 优势函数替换

5. Actor-Critic架构

5.1 基本思想

5.2 策略梯度更新

5.3 Critic更新

6. 自然策略梯度

6.1 Fisher信息矩阵

6.2 自然梯度更新

6.3 KL散度约束

7. 信任域方法

7.1 信任域策略优化（TRPO）

7.2 共轭梯度求解

7.3 线搜索

8. GAE优势估计

8.1 n步优势估计

8.2 GAE定义

8.3 偏差-方差权衡

9. 与深度学习的联系

9.1 策略网络架构

9.2 PyTorch实现

10. 现代变体

10.1 PPO (Proximal Policy Optimization)

10.2 AWR (Advantage-Weighted Regression)

11. 参考文献

关系图谱

目录

反向链接