Metaphor

标签: grpo

此标签下有10条笔记。

2026年6月20日
强化学习后训练专题索引
2026年6月20日
大型推理模型的自我改进技术 (HSIR)
2026年6月20日
高级GRPO变体综述：Latent-GRPO、SPPO、BPPO与LamPO
2026年6月20日
f-GRPO：基于散度的强化学习统一框架
2026年6月20日
GRPO-VPS：可验证过程监督增强的组相对策略优化
2026年6月20日
PPO、GRPO与DAPO算法对比分析
2026年5月17日
GRPO理论基础与LLM对齐
2026年5月08日
Elastic Reasoning：可扩展的思维链推理框架
2026年5月03日
dUltra：强化学习加速扩散语言模型
2026年5月01日
推理模型架构

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community