Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: rlhf
此标签下有8条笔记。
2026年5月12日
强化学习专题索引
reinforcement-learning
machine-learning
index
rlhf
2026年5月17日
RLHF奖励建模与对齐最新进展
reinforcement-learning
rlhf
reward-modeling
alignment
2026年5月12日
KTO(Kahneman-Tversky优化)
alignment
kto
rlhf
preference-optimization
kahneman-tversky
2026年5月11日
LLM训练流程详解
llm
training
rlhf
sft
2026年5月10日
Teaching Claude Why:对齐的原理教学
ai-safety
alignment
constitutional-ai
rlhf
2026年5月05日
RLHF奖励建模新进展
reinforcement-learning
rlhf
reward-modeling
llm-alignment
2026年4月30日
RLHF:人类反馈强化学习
reinforcement-learning
rlhf
llm-alignment
instructgpt
2026年4月16日
AI对齐技术详解
alignment
rlhf
constitutional-ai
dpo
llm
training