Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: gpg
此标签下有1条笔记。
2026年5月17日
Group Policy Gradient 简单有效的LLM推理强化学习
reinforcement-learning
gpg
llm-training
group-policy-gradient
reasoning