Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: llm-training
此标签下有6条笔记。
2026年5月17日
Group Policy Gradient 简单有效的LLM推理强化学习
reinforcement-learning
gpg
llm-training
group-policy-gradient
reasoning
2026年5月14日
RLVR推理能力训练
rlvr
reinforcement-learning
reasoning
llm-training
2026年5月12日
DAPO(离散策略优化算法)
reinforcement-learning
llm-training
policy-optimization
alignment
2026年5月12日
GRPO(组相对策略优化)
reinforcement-learning
llm-training
policy-optimization
2026年5月12日
ORPO(Odds Ratio Preference Optimization)
orpo
preference-optimization
alignment
llm-training
reinforcement-learning
2026年5月08日
UltraLong-8B:从128K到4M上下文训练
long-context
llm-training
context-extension
nvidia