强化学习后训练专题索引

专题介绍

本专题系统介绍大语言模型（LLM）强化学习后训练的核心算法与最新进展，涵盖从经典PPO到前沿GRPO变体的完整知识体系。

内容导航

基础算法

文档	内容概述
PPO、GRPO与DAPO算法对比分析	三种核心RL后训练算法的数学形式、关键差异、实验对比与实践指南
f-GRPO：基于散度的强化学习统一框架	f-GRPO与GIFT算法：将f-散度理论引入LLM对齐

过程监督与推理增强

文档	内容概述
GRPO-VPS：可验证过程监督增强	无需辅助模型的过程监督，通过模型自身信念动态实现细粒度信用分配

高级变体

文档	内容概述
高级GRPO变体综述	Latent-GRPO、SPPO、BPPO、LamPO四大前沿变体的深度解析

核心概念速查

算法演进脉络

PPO (2017)
    ↓
GRPO (2024) ─────→ DAPO (2025)
    ↓              ↓
    └────→ f-GRPO (2026)
    ↓
高级变体：
├── Latent-GRPO：隐式推理
├── SPPO：序列级PPO
├── BPPO：二值前缀优化
└── LamPO：Lambda风格

关键公式

GRPO组相对优势：

\hat{A}_{i} = \frac{r _{i} - mean ( r )}{std ( r ) + ϵ}

DAPO非对称裁剪：

clip (r, 1 - ε_{low}, 1 + ε_{high})

GRPO-VPS混合优势：

\tilde{A}_{k} = A_{i} + α \cdot Δ C_{k}

f-GRPO散度框架：

D_{f} (P ∥ Q) = E_{Q} [f (\frac{d P}{d Q})]

学习路径建议

入门路径

PPO、GRPO与DAPO对比 — 理解三种核心算法的异同
高级GRPO变体 — 了解最新研究前沿

进阶路径

f-GRPO框架 — 深入理论，理解散度视角的统一性
GRPO-VPS — 掌握过程监督技术

研究路径

阅读原论文（arXiv链接见各文档）
复现核心算法
在自定义任务上实验

论文推荐

必读论文

Schulman et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347
DeepSeek-AI (2025). DeepSeekMath: Pushing the Limits of Mathematical Reasoning. arXiv:2402.03300
Yu et al. (2025). DAPO. arXiv:2503.14476

进阶论文

Haldar et al. (2026). f-GRPO. arXiv:2602.05946
Wang et al. (2026). SPPO. arXiv:2604.08865
Wang et al. (2026). GRPO-VPS. arXiv:2604.20659

前沿论文

Deng et al. (2026). Latent-GRPO. arXiv:2604.27998
Zhao et al. (2026). BPPO. arXiv:2605.28028
Wang (2026). GIFT. arXiv:2510.23868

Metaphor

探索

强化学习后训练专题索引

专题介绍

内容导航

基础算法

过程监督与推理增强

高级变体

核心概念速查

算法演进脉络

关键公式

学习路径建议

入门路径

进阶路径

研究路径

相关领域链接

论文推荐

必读论文

进阶论文

前沿论文

高级GRPO变体综述：Latent-GRPO、SPPO、BPPO与LamPO

f-GRPO：基于散度的强化学习统一框架

GRPO-VPS：可验证过程监督增强的组相对策略优化

PPO、GRPO与DAPO算法对比分析