PPO近似上升理论

1. PPO的实践设计

1.1 多epoch更新

PPO的一个关键实践特征是多次使用同一批数据：

for epoch in range(num_epochs):
    for batch in dataloader(states, actions, rewards):
        # 使用同一批数据更新多次
        loss = ppo_loss(policy, batch)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

1.2 理论与实践的鸿沟

理论分析	实际情况
每次更新使用新样本	多次使用同一样本
在线更新	离线/批量更新
渐近收敛	非渐近行为

关键问题：为什么多次使用同一样本不会导致问题？

2. 近似上升框架

2.1 核心洞察

定理（Döring et al., 2026）：
PPO的多次epoch更新可解释为近似策略梯度上升，累积偏差被显式控制。

2.2 形式化

设 $D$ 是从旧策略采样的数据集。

目标：最大化 $J (θ)$ ，但我们只有 $π_{θ_{o l d}}$ 下的样本。

近似：

\overset{g}{^} = \frac{1}{∣ D ∣} (s, a) \in D \sum \nabla_{θ} lo g π_{θ} (a ∣ s) \cdot \hat{A} (s, a)

2.3 偏差分析

引理（偏差界）：

∥ \overset{g}{^} - \nabla J (θ_{o l d}) ∥ \leq O (ϵ_{a pp ro x} + ϵ_{a d v})

其中：

$ϵ_{a pp ro x}$ ：由于多epoch更新引入的偏差
$ϵ_{a d v}$ ：优势函数估计的偏差

3. 多epoch更新分析

3.1 累积偏差

对于 $K$ 次epoch更新：

θ_{k} = θ_{k - 1} + α \overset{g}{^}_{k}

累积偏差：

∥ θ_{K} - θ^{*} ∥ \leq ∥ θ_{0} - θ^{*} ∥ + k = 1 \sum K ∥ \overset{g}{^}_{k} - \nabla J (θ_{k - 1}) ∥

3.2 关键不等式

引理：
如果策略更新满足相对熵约束：

E_{s} [D_{K L} (π_{θ} ∥ π_{θ_{o l d}})] \leq δ

则多epoch更新的累积偏差有界：

k = 1 \sum K ϵ_{k} \leq O (K \cdot δ)

3.3 收敛性定理

定理：
在以下条件下，PPO的 $K$ 次epoch更新收敛：

每次epoch满足信任域约束
总epoch数 $K \cdot α \leq O (1)$
优势函数估计一致

4. GAE边界问题与修正

4.1 原始GAE

\hat{A}_{t}^{G A E} (γ, λ) = k = 0 \sum \infty (γλ)^{k} δ_{t + k}

4.2 边界问题

论文识别了原始GAE的一个未被注意的问题：

当 $γ \approx 1$ （如LLM微调中）时：

k = 0 \sum \infty (γλ)^{k} \approx \frac{1}{1 - γλ}

如果 $γλ \to 1$ ，则求和趋向无穷，导致方差爆炸。

4.3 修正方案

方案1：有限尾部截断

\hat{A}_{t}^{G A E - K} = k = 0 \sum K (γλ)^{k} δ_{t + k} + C \cdot (γλ)^{K}

其中 $C$ 是尾部校正项。

方案2：几何加权修正

引入归一化因子：

\hat{A}_{t}^{G A E *} = \frac{1 - ( γλ )}{1 - ( γλ ) ^{T}} k = 0 \sum T - 1 (γλ)^{k} δ_{t + k}

4.4 实验验证

论文的实验表明修正GAE在以下情况有显著改进：

长序列任务（ $γ \approx 1$ ）
高折扣因子（ $γ > 0.99$ ）
LLM微调场景

5. 随机重排的作用

5.1 随机重排（Random Reshuffling）

PPO通常在每个epoch内随机打乱样本顺序：

indices = torch.randperm(len(states))
for idx in indices:
    # 随机顺序更新
    update_single_sample(idx)

5.2 理论分析

引理：
随机重排将epoch内的偏差从 $O (1)$ 降低到 $O (1/ B)$ ，其中 $B$ 是批次大小。

5.3 收敛速率改进

更新顺序	偏差	收敛速率
固定顺序	$O (1)$	$O (1/ T)$
随机重排	$O (1/ B)$	$O (1/ T)$

6. 近似梯度上升算法

6.1 算法框架

def approximate_ascent_ppo(env, policy, num_iterations):
    """
    近似上升PPO框架
    """
    for iteration in range(num_iterations):
        # 1. 收集数据
        trajectories = collect_trajectories(env, policy)
        states, actions, rewards = process_trajectories(trajectories)
        
        # 2. 估计优势函数
        values = estimate_values(policy, states)
        advantages = compute_gae_corrected(values, rewards)
        
        # 3. 多epoch更新
        for epoch in range(num_epochs):
            # 随机重排
            indices = torch.randperm(len(states))
            
            for idx in indices:
                s, a, adv = states[idx], actions[idx], advantages[idx]
                
                # 计算近似梯度
                log_prob = policy.log_prob(s, a)
                
                # 裁剪代理损失
                ratio = torch.exp(log_prob - old_log_probs[idx])
                clipped_ratio = torch.clamp(ratio, 1-eps, 1+eps)
                
                # 近似上升方向
                if adv > 0:
                    grad = -ratio * adv
                else:
                    grad = -clipped_ratio * adv
                
                # 梯度更新
                optimizer.zero_grad()
                policy.backward(grad)
                optimizer.step()
            
            # 4. 检查收敛性
            if check_convergence(policy):
                break
    
    return policy

6.2 偏差控制

def compute_bias_bound(epsilon, gamma, lambda_param, K):
    """
    计算多epoch累积偏差上界
    """
    # 每epoch偏差
    epoch_bias = epsilon * (1 - (gamma * lambda_param)**K) / (1 - gamma * lambda_param)
    
    # 总偏差
    total_bias = K * epoch_bias
    
    return total_bias

7. 与其他理论工作的联系

7.1 与Huang et al.的比较

方面	Huang et al.	Döring et al.
焦点	全局最优性	近似上升
方法	铰链损失	偏差分析
贡献	理论保证	实践解释
GAE	未讨论	修正方案

7.2 与Lascu et al.的比较

方面	Lascu et al.	Döring et al.
视角	几何	偏差分析
核心	Fisher-Rao度量	梯度近似
统一	否	是

8. 实践建议

8.1 超参数选择

参数	建议范围	理由
num_epochs	3-10	偏差-方差权衡
batch_size	64-256	计算效率
$ϵ$	0.1-0.2	信任域大小
GAE $λ$	0.9-0.95	偏差-方差

8.2 长序列设置

对于 $γ \approx 1$ 的任务（如LLM微调）：

使用修正GAE
降低 $λ$ （如 $λ = 0.9$ ）
减少epoch数

8.3 监测指标

# 监测多epoch更新中的策略变化
kl_divergences = []
for epoch in range(num_epochs):
    kl = compute_kl(policy, old_policy)
    kl_divergences.append(kl)
    
    if kl > max_kl:
        print(f"Warning: KL divergence {kl:.4f} exceeds threshold")

Metaphor

探索

PPO近似上升理论

PPO近似上升理论

1. PPO的实践设计

1.1 多epoch更新

1.2 理论与实践的鸿沟

2. 近似上升框架

2.1 核心洞察

2.2 形式化

2.3 偏差分析

3. 多epoch更新分析

3.1 累积偏差

3.2 关键不等式

3.3 收敛性定理

4. GAE边界问题与修正

4.1 原始GAE

4.2 边界问题

4.3 修正方案

4.4 实验验证

5. 随机重排的作用

5.1 随机重排（Random Reshuffling）

5.2 理论分析

5.3 收敛速率改进

6. 近似梯度上升算法

6.1 算法框架

6.2 偏差控制

7. 与其他理论工作的联系

7.1 与Huang et al.的比较

7.2 与Lascu et al.的比较

8. 实践建议

8.1 超参数选择

8.2 长序列设置

8.3 监测指标

9. 开放问题

9.1 最优epoch数

9.2 自适应epoch

9.3 其他策略梯度方法

10. 参考文献

关系图谱

目录

反向链接