Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: orpo
此标签下有1条笔记。
2026年5月12日
ORPO(Odds Ratio Preference Optimization)
orpo
preference-optimization
alignment
llm-training
reinforcement-learning