Metaphor

标签: rlhf

此标签下有8条笔记。

2026年5月12日
强化学习专题索引
2026年5月17日
RLHF奖励建模与对齐最新进展
2026年5月12日
KTO（Kahneman-Tversky优化）
2026年5月11日
LLM训练流程详解
2026年5月10日
Teaching Claude Why：对齐的原理教学
2026年5月05日
RLHF奖励建模新进展
2026年4月30日
RLHF：人类反馈强化学习
2026年4月16日
AI对齐技术详解

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community