Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: grpo
此标签下有4条笔记。
2026年5月17日
GRPO理论基础与LLM对齐
reinforcement-learning
grpo
llm-alignment
policy-gradient
2026年5月08日
Elastic Reasoning:可扩展的思维链推理框架
elastic-reasoning
chain-of-thought
reasoning-models
inference-time-scaling
grpo
test-time-compute
2026年5月03日
dUltra:强化学习加速扩散语言模型
diffusion
reinforcement-learning
language-model
grpo
2026年5月01日
推理模型架构
reasoning-models
o1
r1
openai
deepseek
grpo
reinforcement-learning