Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: llm-alignment
此标签下有1条笔记。
2026年4月30日
RLHF:人类反馈强化学习
reinforcement-learning
rlhf
llm-alignment
instructgpt