Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: preference-optimization
此标签下有2条笔记。
2026年5月12日
KTO(Kahneman-Tversky优化)
alignment
kto
rlhf
preference-optimization
kahneman-tversky
2026年5月12日
ORPO(Odds Ratio Preference Optimization)
orpo
preference-optimization
alignment
llm-training
reinforcement-learning