Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: divergence
此标签下有1条笔记。
2026年6月20日
f-GRPO:基于散度的强化学习统一框架
reinforcement-learning
llm-alignment
grpo
dpo
divergence