Metaphor

标签: llm-alignment

此标签下有7条笔记。

2026年6月20日
f-GRPO：基于散度的强化学习统一框架
2026年5月17日
GRPO理论基础与LLM对齐
2026年5月05日
RLHF奖励建模新进展
2026年5月02日
代理调优与线性对齐方法
2026年5月02日
无训练In-Decoding对齐方法
2026年5月02日
训练无关的后解码对齐方法
2026年4月30日
RLHF：人类反馈强化学习

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community