概述
PPO(近端策略优化)是强化学习中最成功的策略优化算法之一,但研究者们持续探索其改进方向。2025年,多项研究从不同角度对PPO进行了改进,包括轨迹感知策略、优势调制、Fisher-Rao几何、价值函数校准等。本专题将系统梳理这些最新进展。
HP3O:轨迹感知混合策略
核心思想
HP3O(Hybrid-Policy Proximal Policy Optimization)1由Liu等人提出,核心创新在于引入轨迹重放缓冲区来高效利用最近策略生成的轨迹。
方法详解
传统的PPO是严格的on-policy算法,每次更新只能使用当前策略采集的数据。HP3O通过以下机制缓解这一问题:
- FIFO缓冲区:只保留最近生成的轨迹,减少数据分布漂移
- 最优轨迹采样:从缓冲区中选择返回最高的轨迹
- 批量更新:将最优轨迹与随机采样的轨迹组成更新批次
理论保证
HP3O提供了策略改进的理论保证。设 为旧策略, 为新策略,则:
HP3O通过约束概率比 来保证策略改进。
实验结果
HP3O在MuJoCo环境中验证了有效性:
- Hopper:平均奖励提升15.3%
- Walker2d:平均奖励提升12.7%
- Ant:收敛速度提升29%
AM-PPO:优势调制PPO
背景问题
PPO依赖准确的 advantage 估计,但原始advantage信号常存在方差大、噪声多、尺度不一致等问题。AM-PPO(Advantage Modulation PPO)2提出了自适应优势调制机制。
Alpha控制器
AM-PPO引入一个自适应缩放因子 ,根据advantage的统计特性动态调整:
其中 是基于L2范数、方差和目标饱和度 的调制函数。
Tanh门控机制
调制后的advantage通过tanh门控函数处理:
这确保梯度更新更加稳定,避免极端advantage值导致的策略崩溃。
实验结果
- 在连续控制基准上实现更优的奖励轨迹
- 显著减少自适应优化器所需的裁剪
- 学习过程更加平稳
FR-PPO:Fisher-Rao几何框架
理论动机
标准PPO的裁剪目标缺乏严格的策略改进保证。FR-PPO(Fisher-Rao PPO)3利用Fisher-Rao几何推导出更紧的替代目标函数。
Fisher-Rao度量
两个策略 和 之间的Fisher-Rao距离定义为:
单调策略改进
FR-PPO的核心定理:对于参数化策略 ,存在单调策略改进保证:
其中 是步长, 是FR替代目标。
收敛性分析
FR-PPO实现了 的次线性收敛,且收敛率与动作空间和状态空间维度无关。这在理论上优于标准PPO。
VC-PPO:长Chain-of-Thought任务的价值校准
问题背景
PPO在长CoT推理任务中表现不佳,根因是价值初始化偏差和奖励信号衰减。4
价值模型预训练
VC-PPO首先对价值模型进行预训练,使其能够准确预测长序列的累积奖励:
预训练阶段使用均方误差损失,避免过早引入策略交互。
GAE解耦
VC-PPO对广义优势估计(GAE)进行解耦:
分别在actor和critic中独立计算,缓解奖励信号随序列长度衰减的问题。
实验验证
在AIME数学基准上,VC-PPO显著提升PPO性能:
- 标准PPO:32.1%准确率
- VC-PPO:51.7%准确率
PPO-BR:双信号信任域适应
核心思想
PPO-BR(PPO with Bounded Regulation)5提出熵-奖励双信号机制,自适应调整信任域。
熵驱动扩展
在高度不确定状态下,扩展信任域以促进探索:
其中 是策略熵, 是探索系数。
奖励引导收缩
当策略接近收敛时,收缩信任域以确保稳定性:
实验结果
在6个基准上,PPO-BR实现:
- 29.1%更快的收敛速度
- 2.3倍更低的奖励方差
- 不到2%的运行时开销
AsyPPO:Mini-Critics架构
问题分析
LLM规模下的PPO面临** Critic计算开销大**的问题。标准PPO的actor和critic规模相同,在LLM场景下成本过高。6
Mini-Critics设计
AsyPPO引入轻量级mini-critics集合:
每个mini-critic在不相交的prompt分片上训练,促进多样性同时保持校准。
跨Critic不确定性
利用跨critic不确定性来精细化策略更新:
- 屏蔽机制:在critics一致的状态下屏蔽advantage
- 过滤机制:在高分歧状态下过滤熵正则化
实验结果
在Qwen3系列模型上:
- Qwen3-4B-Base:提升6%以上
- Qwen3-8B-Base:提升约3%
- Qwen3-14B-Base:提升约3%
方法对比分析
| 方法 | 核心创新 | 理论保证 | 计算开销 | 主要应用场景 |
|---|---|---|---|---|
| HP3O | 轨迹重放 | 有 | 中等 | 连续控制 |
| AM-PPO | 优势调制 | 无 | 低 | 连续控制 |
| FR-PPO | Fisher-Rao几何 | 严格单调改进 | 中等 | 理论分析 |
| VC-PPO | 价值校准 | 有 | 高 | LLM推理 |
| PPO-BR | 双信号适应 | 有 | 低 | 安全关键系统 |
| AsyPPO | Mini-Critics | 有 | 低 | LLM对齐 |
实践建议
算法选择
- 连续控制任务:优先尝试HP3O或PPO-BR
- LLM推理任务:VC-PPO是首选
- 需要理论保证:FR-PPO提供最强保证
- 计算资源有限:AsyPPO或AM-PPO
超参数设置
- HP3O缓冲区大小:建议1000-5000条轨迹
- AM-PPO目标饱和度: 是不错的起点
- PPO-BR探索系数:
- AsyPPO critic数量:根据模型规模调整,通常8-32个
未来方向
- 组合改进:将多种PPO改进结合
- 自适应选择:根据任务自动选择最优PPO变体
- 理论统一:建立统一的PPO改进理论框架
参考资料
Footnotes
-
Liu, Q. et al. (2025). Enhancing PPO with Trajectory-Aware Hybrid Policies. arXiv:2502.15968. ↩
-
AM-PPO (2025). Advantage Modulation PPO. arXiv:2505.15514. ↩
-
FR-PPO (2025). Fisher-Rao PPO. arXiv:2506.03757. ↩
-
VC-PPO (2025). Value-Calibrated PPO for Long CoT Tasks. arXiv:2503.01491. ↩
-
PPO-BR (2025). Dual-Signal Entropy-Reward Adaptation. arXiv:2505.17714. ↩
-
AsyPPO (2025). Asymmetric PPO with Mini-Critics. OpenReview. ↩