Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: rl-tango
此标签下有1条笔记。
2026年5月16日
RL Tango - 生成器-验证器协同强化推理
rl-tango
generator-verifier
process-reward-model
reinforcement-learning
llm-reasoning