概述
RLHF(从人类反馈中进行强化学习)是对齐大语言模型的核心技术。奖励建模作为RLHF的关键组件,决定了智能体优化的目标。2025年研究在奖励模型训练范式上取得重要进展。1
GRAM:生成式基础奖励模型
传统奖励模型的局限
标准奖励模型是判别式模型,只从标注的人类偏好数据学习。这导致:
- 数据效率低:依赖昂贵的偏好标注
- 泛化能力差:难以迁移到未见任务
- 校准困难:绝对分数难以准确
生成式范式
GRAM(Generative Reward Model)2提出生成式奖励建模范式:
- 无监督预训练:大规模无标注数据上预训练
- 监督微调:少量偏好数据上微调
- 标签平滑:优化正则化成对排序损失
训练目标
GRAM的损失函数结合多个组件:
其中 是标签平滑正则化。
标签平滑的理论解释
设真实偏好分布为 ,标签平滑后的分布为:
这等价于优化正则化成对排序损失。
基础奖励模型特性
预训练后的GRAM具有以下特性:
- 零样本任务迁移:可直接应用于新任务
- 少样本适应:少量标注即可快速适配
- 分布内/外泛化:对分布偏移更鲁棒
实验验证
在多个任务上验证有效性:
- 响应排序:提升12.3%
- RLHF训练:提升8.7%
- 任务适应:仅需5%标注数据达到全监督性能
Pairwise-RL:统一成对框架
问题分析
传统RLHF面临两大挑战:
- 标量vs成对:偏好数据是成对的,但RL需要标量奖励
- 判别vs生成:奖励模型是判别式的,但初始化自生成模型
Pairwise-RL框架
Pairwise-RL3提出统一成对范式,同时解决训练和应用问题。
生成式奖励建模
使用生成式模型估计成对偏好:
奖励函数 由语言模型参数化。
成对PPO算法
修改PPO使用成对奖励:
策略梯度变为:
分数校准
生成式建模允许更自然的分数校准:
其中 是参考模型。
实验结果
- ChatEval基准:提升11.2%
- AlpacaEval 2:提升9.8%
- LeetCode:提升15.4%
QRPO:分位数奖励策略优化
背景问题
现有RLHF方法可分为两类:
- 在线方法:PPO、GRPO,需要在线采样
- 离线方法:DPO、REBEL,只能从偏好对学习
QRPO4实现从标量绝对奖励学习的同时保持离线适用性。
分位数奖励
QRPO使用分位数奖励替代点估计:
其中 是条件奖励分布, 是分位数水平。
解析可处理的分区函数
关键创新是利用分位数奖励的解析可处理分区函数:
可解析计算,无需相对信号抵消。
KL约束优化
优化以下目标:
分位数奖励使这一问题在闭式下可解。
预计算缩放
奖励估计可离线预计算并缓存:
开启预计算缩放新维度。
实验验证
在8B规模模型上验证:
- Reward Model Scores:显著提升
- AlpacaEval 2:Top Performance
- LeetCode:显著超越DPO、REBEL、SimPO
RMB:奖励模型提升
问题:奖励黑客
RLHF中的奖励黑客(reward hacking)问题:
根源是有限的偏好数据训练的奖励模型是对真实偏好的不完美代理。
多样性促进正则化
RMB(Reward Model Boosting)5训练多样化奖励模型集合:
每个模型鼓励学习奖励图景的互补方面。
提升聚合
学习轻量级聚合器:
采用提升原理组合预测。
分布内/外性能
RMB在两类数据上都提升奖励准确性:
- ID(In-Distribution):减少过拟合
- OOD(Out-of-Distribution):增强鲁棒性
缓解奖励黑客
通过多样化集成,显著缓解奖励黑客:
- 减少单一模型的偏差
- 聚合提供更稳定的信号
- 最终提升RLHF性能
VRPO:鲁棒价值函数策略优化
Bradley-Terry模型假设
传统RLHF使用Bradley-Terry模型建模偏好:
假设人类偏好满足规范偏好公理。
模型错误设定
实际人类判断的复杂性和可变性可能导致模型错误设定:
鲁棒优化框架
VRPO(Very Robust Policy Optimization)[^6]提出鲁棒算法:
在鲁棒偏好分布集合上最大化期望。
鲁棒集合定义
以经验偏好分布 为中心的总变差球。
理论与实验
- 理论:减少奖励和策略估计的方差
- 实验:Anthropic Helpful & Harmless数据集上53-98%响应优于基线
方法对比
| 方法 | 奖励类型 | 数据需求 | 离线适用 | 主要创新 |
|---|---|---|---|---|
| GRAM | 生成式 | 低 | 是 | 无监督预训练 |
| Pairwise-RL | 成对 | 中 | 是 | 统一成对框架 |
| QRPO | 分位数 | 中 | 是 | 解析分区函数 |
| RMB | 集成 | 高 | 是 | 多样性促进 |
| VRPO | 鲁棒 | 中 | 是 | 错误设定鲁棒 |
实践建议
任务适应策略
- 数据稀缺:选择GRAM,利用无监督预训练
- 计算资源有限:选择QRPO,离线高效
- 奖励黑客严重:选择RMB,集成提升鲁棒
超参数设置
- GRAM平滑系数:
- QRPO分位数:(中位数奖励)
- RMB集成大小:
- VRPO鲁棒半径:
未来方向
- 多模态奖励建模:扩展到视觉-语言模型
- 动态奖励:奖励模型随时间演化
- 理论统一:建立统一的奖励建模理论框架
参考资料
Footnotes
-
GRAM (2025). A Generative Foundation Reward Model. ICML 2025. ↩
-
Pairwise-RL (2025). A Unified Pairwise Framework for RLHF. arXiv:2504.04950. ↩
-
QRPO (2025). Quantile Reward Policy Optimization. NeurIPS 2025. ↩
-
RMB (2025). Reward Model Boosting for RLHF. ICLR 2026. ↩
-
VRPO (2025). Very Robust Policy Optimization for RLHF. arXiv:2504.03784. ↩