概述

PPO(近端策略优化)是强化学习中最成功的策略优化算法之一,但研究者们持续探索其改进方向。2025年,多项研究从不同角度对PPO进行了改进,包括轨迹感知策略、优势调制、Fisher-Rao几何、价值函数校准等。本专题将系统梳理这些最新进展。

HP3O:轨迹感知混合策略

核心思想

HP3O(Hybrid-Policy Proximal Policy Optimization)1由Liu等人提出,核心创新在于引入轨迹重放缓冲区来高效利用最近策略生成的轨迹。

方法详解

传统的PPO是严格的on-policy算法,每次更新只能使用当前策略采集的数据。HP3O通过以下机制缓解这一问题:

  1. FIFO缓冲区:只保留最近生成的轨迹,减少数据分布漂移
  2. 最优轨迹采样:从缓冲区中选择返回最高的轨迹
  3. 批量更新:将最优轨迹与随机采样的轨迹组成更新批次

理论保证

HP3O提供了策略改进的理论保证。设 为旧策略, 为新策略,则:

HP3O通过约束概率比 来保证策略改进。

实验结果

HP3O在MuJoCo环境中验证了有效性:

  • Hopper:平均奖励提升15.3%
  • Walker2d:平均奖励提升12.7%
  • Ant:收敛速度提升29%

AM-PPO:优势调制PPO

背景问题

PPO依赖准确的 advantage 估计,但原始advantage信号常存在方差大、噪声多、尺度不一致等问题。AM-PPO(Advantage Modulation PPO)2提出了自适应优势调制机制

Alpha控制器

AM-PPO引入一个自适应缩放因子 ,根据advantage的统计特性动态调整:

其中 是基于L2范数、方差和目标饱和度 的调制函数。

Tanh门控机制

调制后的advantage通过tanh门控函数处理:

这确保梯度更新更加稳定,避免极端advantage值导致的策略崩溃。

实验结果

  • 在连续控制基准上实现更优的奖励轨迹
  • 显著减少自适应优化器所需的裁剪
  • 学习过程更加平稳

FR-PPO:Fisher-Rao几何框架

理论动机

标准PPO的裁剪目标缺乏严格的策略改进保证。FR-PPO(Fisher-Rao PPO)3利用Fisher-Rao几何推导出更紧的替代目标函数。

Fisher-Rao度量

两个策略 之间的Fisher-Rao距离定义为:

单调策略改进

FR-PPO的核心定理:对于参数化策略 ,存在单调策略改进保证:

其中 是步长, 是FR替代目标。

收敛性分析

FR-PPO实现了 的次线性收敛,且收敛率与动作空间和状态空间维度无关。这在理论上优于标准PPO。

VC-PPO:长Chain-of-Thought任务的价值校准

问题背景

PPO在长CoT推理任务中表现不佳,根因是价值初始化偏差奖励信号衰减4

价值模型预训练

VC-PPO首先对价值模型进行预训练,使其能够准确预测长序列的累积奖励:

预训练阶段使用均方误差损失,避免过早引入策略交互。

GAE解耦

VC-PPO对广义优势估计(GAE)进行解耦:

分别在actor和critic中独立计算,缓解奖励信号随序列长度衰减的问题。

实验验证

在AIME数学基准上,VC-PPO显著提升PPO性能:

  • 标准PPO:32.1%准确率
  • VC-PPO:51.7%准确率

PPO-BR:双信号信任域适应

核心思想

PPO-BR(PPO with Bounded Regulation)5提出熵-奖励双信号机制,自适应调整信任域。

熵驱动扩展

在高度不确定状态下,扩展信任域以促进探索:

其中 是策略熵, 是探索系数。

奖励引导收缩

当策略接近收敛时,收缩信任域以确保稳定性:

实验结果

在6个基准上,PPO-BR实现:

  • 29.1%更快的收敛速度
  • 2.3倍更低的奖励方差
  • 不到2%的运行时开销

AsyPPO:Mini-Critics架构

问题分析

LLM规模下的PPO面临** Critic计算开销大**的问题。标准PPO的actor和critic规模相同,在LLM场景下成本过高。6

Mini-Critics设计

AsyPPO引入轻量级mini-critics集合:

每个mini-critic在不相交的prompt分片上训练,促进多样性同时保持校准。

跨Critic不确定性

利用跨critic不确定性来精细化策略更新:

  1. 屏蔽机制:在critics一致的状态下屏蔽advantage
  2. 过滤机制:在高分歧状态下过滤熵正则化

实验结果

在Qwen3系列模型上:

  • Qwen3-4B-Base:提升6%以上
  • Qwen3-8B-Base:提升约3%
  • Qwen3-14B-Base:提升约3%

方法对比分析

方法核心创新理论保证计算开销主要应用场景
HP3O轨迹重放中等连续控制
AM-PPO优势调制连续控制
FR-PPOFisher-Rao几何严格单调改进中等理论分析
VC-PPO价值校准LLM推理
PPO-BR双信号适应安全关键系统
AsyPPOMini-CriticsLLM对齐

实践建议

算法选择

  1. 连续控制任务:优先尝试HP3O或PPO-BR
  2. LLM推理任务:VC-PPO是首选
  3. 需要理论保证:FR-PPO提供最强保证
  4. 计算资源有限:AsyPPO或AM-PPO

超参数设置

  • HP3O缓冲区大小:建议1000-5000条轨迹
  • AM-PPO目标饱和度 是不错的起点
  • PPO-BR探索系数
  • AsyPPO critic数量:根据模型规模调整,通常8-32个

未来方向

  1. 组合改进:将多种PPO改进结合
  2. 自适应选择:根据任务自动选择最优PPO变体
  3. 理论统一:建立统一的PPO改进理论框架

参考资料

Footnotes

  1. Liu, Q. et al. (2025). Enhancing PPO with Trajectory-Aware Hybrid Policies. arXiv:2502.15968.

  2. AM-PPO (2025). Advantage Modulation PPO. arXiv:2505.15514.

  3. FR-PPO (2025). Fisher-Rao PPO. arXiv:2506.03757.

  4. VC-PPO (2025). Value-Calibrated PPO for Long CoT Tasks. arXiv:2503.01491.

  5. PPO-BR (2025). Dual-Signal Entropy-Reward Adaptation. arXiv:2505.17714.

  6. AsyPPO (2025). Asymmetric PPO with Mini-Critics. OpenReview.