专题介绍

本专题系统介绍大语言模型(LLM)强化学习后训练的核心算法与最新进展,涵盖从经典PPO到前沿GRPO变体的完整知识体系。


内容导航

基础算法

文档内容概述
PPO、GRPO与DAPO算法对比分析三种核心RL后训练算法的数学形式、关键差异、实验对比与实践指南
f-GRPO:基于散度的强化学习统一框架f-GRPO与GIFT算法:将f-散度理论引入LLM对齐

过程监督与推理增强

文档内容概述
GRPO-VPS:可验证过程监督增强无需辅助模型的过程监督,通过模型自身信念动态实现细粒度信用分配

高级变体

文档内容概述
高级GRPO变体综述Latent-GRPO、SPPO、BPPO、LamPO四大前沿变体的深度解析

核心概念速查

算法演进脉络

PPO (2017)
    ↓
GRPO (2024) ─────→ DAPO (2025)
    ↓              ↓
    └────→ f-GRPO (2026)
    ↓
高级变体:
├── Latent-GRPO:隐式推理
├── SPPO:序列级PPO
├── BPPO:二值前缀优化
└── LamPO:Lambda风格

关键公式

GRPO组相对优势:

DAPO非对称裁剪:

GRPO-VPS混合优势:

f-GRPO散度框架:


学习路径建议

入门路径

  1. PPO、GRPO与DAPO对比 — 理解三种核心算法的异同
  2. 高级GRPO变体 — 了解最新研究前沿

进阶路径

  1. f-GRPO框架 — 深入理论,理解散度视角的统一性
  2. GRPO-VPS — 掌握过程监督技术

研究路径

  1. 阅读原论文(arXiv链接见各文档)
  2. 复现核心算法
  3. 在自定义任务上实验

相关领域链接


论文推荐

必读论文

  1. Schulman et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347
  2. DeepSeek-AI (2025). DeepSeekMath: Pushing the Limits of Mathematical Reasoning. arXiv:2402.03300
  3. Yu et al. (2025). DAPO. arXiv:2503.14476

进阶论文

  1. Haldar et al. (2026). f-GRPO. arXiv:2602.05946
  2. Wang et al. (2026). SPPO. arXiv:2604.08865
  3. Wang et al. (2026). GRPO-VPS. arXiv:2604.20659

前沿论文

  1. Deng et al. (2026). Latent-GRPO. arXiv:2604.27998
  2. Zhao et al. (2026). BPPO. arXiv:2605.28028
  3. Wang (2026). GIFT. arXiv:2510.23868