专题介绍
本专题系统介绍大语言模型(LLM)强化学习后训练的核心算法与最新进展,涵盖从经典PPO到前沿GRPO变体的完整知识体系。
内容导航
基础算法
| 文档 | 内容概述 |
|---|---|
| PPO、GRPO与DAPO算法对比分析 | 三种核心RL后训练算法的数学形式、关键差异、实验对比与实践指南 |
| f-GRPO:基于散度的强化学习统一框架 | f-GRPO与GIFT算法:将f-散度理论引入LLM对齐 |
过程监督与推理增强
| 文档 | 内容概述 |
|---|---|
| GRPO-VPS:可验证过程监督增强 | 无需辅助模型的过程监督,通过模型自身信念动态实现细粒度信用分配 |
高级变体
| 文档 | 内容概述 |
|---|---|
| 高级GRPO变体综述 | Latent-GRPO、SPPO、BPPO、LamPO四大前沿变体的深度解析 |
核心概念速查
算法演进脉络
PPO (2017)
↓
GRPO (2024) ─────→ DAPO (2025)
↓ ↓
└────→ f-GRPO (2026)
↓
高级变体:
├── Latent-GRPO:隐式推理
├── SPPO:序列级PPO
├── BPPO:二值前缀优化
└── LamPO:Lambda风格
关键公式
GRPO组相对优势:
DAPO非对称裁剪:
GRPO-VPS混合优势:
f-GRPO散度框架:
学习路径建议
入门路径
- PPO、GRPO与DAPO对比 — 理解三种核心算法的异同
- 高级GRPO变体 — 了解最新研究前沿
进阶路径
研究路径
- 阅读原论文(arXiv链接见各文档)
- 复现核心算法
- 在自定义任务上实验
相关领域链接
论文推荐
必读论文
- Schulman et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347
- DeepSeek-AI (2025). DeepSeekMath: Pushing the Limits of Mathematical Reasoning. arXiv:2402.03300
- Yu et al. (2025). DAPO. arXiv:2503.14476
进阶论文
- Haldar et al. (2026). f-GRPO. arXiv:2602.05946
- Wang et al. (2026). SPPO. arXiv:2604.08865
- Wang et al. (2026). GRPO-VPS. arXiv:2604.20659
前沿论文
- Deng et al. (2026). Latent-GRPO. arXiv:2604.27998
- Zhao et al. (2026). BPPO. arXiv:2605.28028
- Wang (2026). GIFT. arXiv:2510.23868