Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: reward-modeling
此标签下有3条笔记。
2026年5月17日
RLHF奖励建模与对齐最新进展
reinforcement-learning
rlhf
reward-modeling
alignment
2026年5月16日
RM-R1 - 作为推理的奖励建模
rm-r1
reward-modeling
reasoning
process-reward-model
llm
2026年5月05日
RLHF奖励建模新进展
reinforcement-learning
rlhf
reward-modeling
llm-alignment