PPO算法改进专题

概述

PPO（近端策略优化）是强化学习中最成功的策略优化算法之一，但研究者们持续探索其改进方向。2025年，多项研究从不同角度对PPO进行了改进，包括轨迹感知策略、优势调制、Fisher-Rao几何、价值函数校准等。本专题将系统梳理这些最新进展。

HP3O：轨迹感知混合策略

核心思想

HP3O（Hybrid-Policy Proximal Policy Optimization）¹由Liu等人提出，核心创新在于引入轨迹重放缓冲区来高效利用最近策略生成的轨迹。

方法详解

传统的PPO是严格的on-policy算法，每次更新只能使用当前策略采集的数据。HP3O通过以下机制缓解这一问题：

FIFO缓冲区：只保留最近生成的轨迹，减少数据分布漂移
最优轨迹采样：从缓冲区中选择返回最高的轨迹
批量更新：将最优轨迹与随机采样的轨迹组成更新批次

理论保证

HP3O提供了策略改进的理论保证。设 $π_{old}$ 为旧策略， $π_{new}$ 为新策略，则：

J (π_{new}) - J (π_{old}) \geq \frac{1}{1 - γ} E_{s \sim d_{π_{new}}, a \sim π_{new}} [A^{π_{old}} (s, a)]

HP3O通过约束概率比 $r_{t} (θ) = \frac{π _{θ} ( a _{t} ∣ s _{t} )}{π _{θ_{old}} ( a _{t} ∣ s _{t} )}$ 来保证策略改进。

实验结果

HP3O在MuJoCo环境中验证了有效性：

Hopper：平均奖励提升15.3%
Walker2d：平均奖励提升12.7%
Ant：收敛速度提升29%

AM-PPO：优势调制PPO

背景问题

PPO依赖准确的 advantage 估计，但原始advantage信号常存在方差大、噪声多、尺度不一致等问题。AM-PPO（Advantage Modulation PPO）²提出了自适应优势调制机制。

Alpha控制器

AM-PPO引入一个自适应缩放因子 $α_{A}$ ，根据advantage的统计特性动态调整：

α_{A}^{(t + 1)} = α_{A}^{(t)} + η \cdot f (norm (A), var (A), τ)

其中 $f$ 是基于L2范数、方差和目标饱和度 $τ$ 的调制函数。

Tanh门控机制

调制后的advantage通过tanh门控函数处理：

\tilde{A} = tanh (α_{A} \cdot A)

这确保梯度更新更加稳定，避免极端advantage值导致的策略崩溃。

实验结果

在连续控制基准上实现更优的奖励轨迹
显著减少自适应优化器所需的裁剪
学习过程更加平稳

FR-PPO：Fisher-Rao几何框架

理论动机

标准PPO的裁剪目标缺乏严格的策略改进保证。FR-PPO（Fisher-Rao PPO）³利用Fisher-Rao几何推导出更紧的替代目标函数。

Fisher-Rao度量

两个策略 $π$ 和 $π^{'}$ 之间的Fisher-Rao距离定义为：

d_{FR} (π, π^{'}) = 2 - 2 E_{s \sim d_{π}} [E_{a \sim π (\cdot ∣ s)} [\frac{π ^{'} ( a ∣ s )}{π ( a ∣ s )}]]

单调策略改进

FR-PPO的核心定理：对于参数化策略 $π_{θ}$ ，存在单调策略改进保证：

J (π_{θ^{'}}) - J (π_{θ}) \geq \frac{1}{1 - γ} \cdot η \cdot L_{FR} (θ) - O (η^{2})

其中 $η$ 是步长， $L_{FR}$ 是FR替代目标。

收敛性分析

FR-PPO实现了 $O (1/ T)$ 的次线性收敛，且收敛率与动作空间和状态空间维度无关。这在理论上优于标准PPO。

VC-PPO：长Chain-of-Thought任务的价值校准

问题背景

PPO在长CoT推理任务中表现不佳，根因是价值初始化偏差和奖励信号衰减。⁴

价值模型预训练

VC-PPO首先对价值模型进行预训练，使其能够准确预测长序列的累积奖励：

ϕ min E_{(s, a, r) \sim D} [(V_{ϕ} (s) - \hat{V} (s))^{2}]

预训练阶段使用均方误差损失，避免过早引入策略交互。

GAE解耦

VC-PPO对广义优势估计（GAE）进行解耦：

A_{decoupled}^{π} (s_{t}, a_{t}) = i = t \sum T (γλ)^{i - t} r_{i} - V_{ϕ} (s_{t})

分别在actor和critic中独立计算，缓解奖励信号随序列长度衰减的问题。

实验验证

在AIME数学基准上，VC-PPO显著提升PPO性能：

标准PPO：32.1%准确率
VC-PPO：51.7%准确率

PPO-BR：双信号信任域适应

核心思想

PPO-BR（PPO with Bounded Regulation）⁵提出熵-奖励双信号机制，自适应调整信任域。

熵驱动扩展

在高度不确定状态下，扩展信任域以促进探索：

ϵ_{up} = ϵ \cdot exp (β \cdot H (π (\cdot ∣ s)))

其中 $H$ 是策略熵， $β$ 是探索系数。

奖励引导收缩

当策略接近收敛时，收缩信任域以确保稳定性：

ϵ_{down} = ϵ \cdot exp (- α \cdot ∥\nabla J ∥)

实验结果

在6个基准上，PPO-BR实现：

29.1%更快的收敛速度
2.3倍更低的奖励方差
不到2%的运行时开销

AsyPPO：Mini-Critics架构

问题分析

LLM规模下的PPO面临** Critic计算开销大**的问题。标准PPO的actor和critic规模相同，在LLM场景下成本过高。⁶

Mini-Critics设计

AsyPPO引入轻量级mini-critics集合：

Q_{mini}^{(i)} (s, a) = MLP_{ϕ}^{(i)} (enc (s), enc (a))

每个mini-critic在不相交的prompt分片上训练，促进多样性同时保持校准。

跨Critic不确定性

利用跨critic不确定性来精细化策略更新：

屏蔽机制：在critics一致的状态下屏蔽advantage
过滤机制：在高分歧状态下过滤熵正则化

实验结果

在Qwen3系列模型上：

Qwen3-4B-Base：提升6%以上
Qwen3-8B-Base：提升约3%
Qwen3-14B-Base：提升约3%

方法对比分析

方法	核心创新	理论保证	计算开销	主要应用场景
HP3O	轨迹重放	有	中等	连续控制
AM-PPO	优势调制	无	低	连续控制
FR-PPO	Fisher-Rao几何	严格单调改进	中等	理论分析
VC-PPO	价值校准	有	高	LLM推理
PPO-BR	双信号适应	有	低	安全关键系统
AsyPPO	Mini-Critics	有	低	LLM对齐

实践建议

算法选择

连续控制任务：优先尝试HP3O或PPO-BR
LLM推理任务：VC-PPO是首选
需要理论保证：FR-PPO提供最强保证
计算资源有限：AsyPPO或AM-PPO

超参数设置

HP3O缓冲区大小：建议1000-5000条轨迹
AM-PPO目标饱和度： $τ = 0.8$ 是不错的起点
PPO-BR探索系数： $β \in [0.1, 0.5]$
AsyPPO critic数量：根据模型规模调整，通常8-32个

未来方向

组合改进：将多种PPO改进结合
自适应选择：根据任务自动选择最优PPO变体
理论统一：建立统一的PPO改进理论框架

参考资料

Liu, Q. et al. (2025). Enhancing PPO with Trajectory-Aware Hybrid Policies. arXiv:2502.15968. ↩
AM-PPO (2025). Advantage Modulation PPO. arXiv:2505.15514. ↩
FR-PPO (2025). Fisher-Rao PPO. arXiv:2506.03757. ↩
VC-PPO (2025). Value-Calibrated PPO for Long CoT Tasks. arXiv:2503.01491. ↩
PPO-BR (2025). Dual-Signal Entropy-Reward Adaptation. arXiv:2505.17714. ↩
AsyPPO (2025). Asymmetric PPO with Mini-Critics. OpenReview. ↩

Metaphor

探索

PPO算法改进专题

概述

HP3O：轨迹感知混合策略

核心思想

方法详解

理论保证

实验结果

AM-PPO：优势调制PPO

背景问题

Alpha控制器

Tanh门控机制

实验结果

FR-PPO：Fisher-Rao几何框架

理论动机

Fisher-Rao度量

单调策略改进

收敛性分析

VC-PPO：长Chain-of-Thought任务的价值校准

问题背景

价值模型预训练

GAE解耦

实验验证

PPO-BR：双信号信任域适应

核心思想

熵驱动扩展

奖励引导收缩

实验结果

AsyPPO：Mini-Critics架构

问题分析

Mini-Critics设计

跨Critic不确定性

实验结果

方法对比分析

实践建议

算法选择

超参数设置

未来方向

参考资料

Footnotes

关系图谱

目录