RLHF奖励建模新进展

概述

RLHF（从人类反馈中进行强化学习）是对齐大语言模型的核心技术。奖励建模作为RLHF的关键组件，决定了智能体优化的目标。2025年研究在奖励模型训练范式上取得重要进展。¹

GRAM：生成式基础奖励模型

传统奖励模型的局限

标准奖励模型是判别式模型，只从标注的人类偏好数据学习。这导致：

数据效率低：依赖昂贵的偏好标注
泛化能力差：难以迁移到未见任务
校准困难：绝对分数难以准确

生成式范式

GRAM（Generative Reward Model）²提出生成式奖励建模范式：

无监督预训练：大规模无标注数据上预训练
监督微调：少量偏好数据上微调
标签平滑：优化正则化成对排序损失

训练目标

GRAM的损失函数结合多个组件：

L_{GRAM} = L_{pretrain} + λ_{1} L_{SFT} + λ_{2} L_{smooth}

其中 $L_{smooth}$ 是标签平滑正则化。

标签平滑的理论解释

设真实偏好分布为 $p^{*}$ ，标签平滑后的分布为：

\overset{p}{^} (y_{1} ≻ y_{0}) = α \cdot 1_{y_{1} ≻ y_{0}} + (1 - α) \cdot p^{*} (y_{1} ≻ y_{0})

这等价于优化正则化成对排序损失。

基础奖励模型特性

预训练后的GRAM具有以下特性：

零样本任务迁移：可直接应用于新任务
少样本适应：少量标注即可快速适配
分布内/外泛化：对分布偏移更鲁棒

实验验证

在多个任务上验证有效性：

响应排序：提升12.3%
RLHF训练：提升8.7%
任务适应：仅需5%标注数据达到全监督性能

Pairwise-RL：统一成对框架

问题分析

传统RLHF面临两大挑战：

标量vs成对：偏好数据是成对的，但RL需要标量奖励
判别vs生成：奖励模型是判别式的，但初始化自生成模型

Pairwise-RL框架

Pairwise-RL³提出统一成对范式，同时解决训练和应用问题。

生成式奖励建模

使用生成式模型估计成对偏好：

P (y_{1} ≻ y_{0} ∣ x) = σ (r (x, y_{1}) - r (x, y_{0}))

奖励函数 $r$ 由语言模型参数化。

成对PPO算法

修改PPO使用成对奖励：

A_{pair} (y_{1}, y_{0}) = r (x, y_{1}) - r (x, y_{0})

策略梯度变为：

\nabla_{θ} J (π_{θ}) \approx E_{x, y_{1}, y_{0}} [A_{pair} (y_{1}, y_{0}) \cdot \nabla_{θ} lo g π_{θ} (y_{1} ∣ x)]

分数校准

生成式建模允许更自然的分数校准：

\overset{r}{^} (x, y) = lo g π (y ∣ x) - lo g π_{0} (y ∣ x)

其中 $π_{0}$ 是参考模型。

实验结果

ChatEval基准：提升11.2%
AlpacaEval 2：提升9.8%
LeetCode：提升15.4%

QRPO：分位数奖励策略优化

背景问题

现有RLHF方法可分为两类：

在线方法：PPO、GRPO，需要在线采样
离线方法：DPO、REBEL，只能从偏好对学习

QRPO⁴实现从标量绝对奖励学习的同时保持离线适用性。

分位数奖励

QRPO使用分位数奖励替代点估计：

\overset{r}{^}_{τ} (x, y) = F_{R ∣ X}^{- 1} (τ)

其中 $F_{R ∣ X}$ 是条件奖励分布， $τ$ 是分位数水平。

解析可处理的分区函数

关键创新是利用分位数奖励的解析可处理分区函数：

Z (x) = \int_{y} exp (\overset{r}{^}_{τ} (x, y)) d y

可解析计算，无需相对信号抵消。

KL约束优化

优化以下目标：

π max E_{x, y \sim π} [\overset{r}{^}_{τ} (x, y)] - λ \cdot KL (π ∣∣ π_{ref})

分位数奖励使这一问题在闭式下可解。

预计算缩放

奖励估计可离线预计算并缓存：

\overset{r}{^}_{τ}^{cached} (x, y) = MLP_{ϕ} ([x; y])

开启预计算缩放新维度。

实验验证

在8B规模模型上验证：

Reward Model Scores：显著提升
AlpacaEval 2：Top Performance
LeetCode：显著超越DPO、REBEL、SimPO

RMB：奖励模型提升

问题：奖励黑客

RLHF中的奖励黑客（reward hacking）问题：

π max \overset{r}{^} \approx π max r^{*} 但 π 可能降低真实性能

根源是有限的偏好数据训练的奖励模型是对真实偏好的不完美代理。

多样性促进正则化

RMB（Reward Model Boosting）⁵训练多样化奖励模型集合：

R = {r_{ϕ_{1}}, r_{ϕ_{2}}, \dots, r_{ϕ_{K}}}

每个模型鼓励学习奖励图景的互补方面。

提升聚合

学习轻量级聚合器：

\overset{r}{^}_{final} (x, y) = Aggregator ({r_{k} (x, y)}_{k = 1}^{K})

采用提升原理组合预测。

分布内/外性能

RMB在两类数据上都提升奖励准确性：

ID（In-Distribution）：减少过拟合
OOD（Out-of-Distribution）：增强鲁棒性

缓解奖励黑客

通过多样化集成，显著缓解奖励黑客：

减少单一模型的偏差
聚合提供更稳定的信号
最终提升RLHF性能

VRPO：鲁棒价值函数策略优化

Bradley-Terry模型假设

传统RLHF使用Bradley-Terry模型建模偏好：

P (y_{1} ≻ y_{0} ∣ x) = \frac{1}{1 + exp ( - ( r ( x , y _{1} ) - r ( x , y _{0} )))}

假设人类偏好满足规范偏好公理。

模型错误设定

实际人类判断的复杂性和可变性可能导致模型错误设定：

P_{true} (y_{1} ≻ y_{0} ∣ x) \neq = P_{BT} (y_{1} ≻ y_{0} ∣ x)

鲁棒优化框架

VRPO（Very Robust Policy Optimization）[^6]提出鲁棒算法：

π max P \in P_{robust} min E_{P} [pref ∣ π]

在鲁棒偏好分布集合上最大化期望。

鲁棒集合定义

P_{robust} = {P : D_{TV} (P, \hat{P}) \leq ϵ}

以经验偏好分布 $\hat{P}$ 为中心的总变差球。

理论与实验

理论：减少奖励和策略估计的方差
实验：Anthropic Helpful & Harmless数据集上53-98%响应优于基线

方法对比

方法	奖励类型	数据需求	离线适用	主要创新
GRAM	生成式	低	是	无监督预训练
Pairwise-RL	成对	中	是	统一成对框架
QRPO	分位数	中	是	解析分区函数
RMB	集成	高	是	多样性促进
VRPO	鲁棒	中	是	错误设定鲁棒

实践建议

任务适应策略

数据稀缺：选择GRAM，利用无监督预训练
计算资源有限：选择QRPO，离线高效
奖励黑客严重：选择RMB，集成提升鲁棒

超参数设置

GRAM平滑系数： $α \in [0.1, 0.3]$
QRPO分位数： $τ \in [0.5, 0.7]$ （中位数奖励）
RMB集成大小： $K \in [5, 10]$
VRPO鲁棒半径： $ϵ \in [0.05, 0.15]$

未来方向

多模态奖励建模：扩展到视觉-语言模型
动态奖励：奖励模型随时间演化
理论统一：建立统一的奖励建模理论框架

参考资料

GRAM (2025). A Generative Foundation Reward Model. ICML 2025. ↩
Pairwise-RL (2025). A Unified Pairwise Framework for RLHF. arXiv:2504.04950. ↩
QRPO (2025). Quantile Reward Policy Optimization. NeurIPS 2025. ↩
RMB (2025). Reward Model Boosting for RLHF. ICLR 2026. ↩
VRPO (2025). Very Robust Policy Optimization for RLHF. arXiv:2504.03784. ↩

Metaphor

探索

RLHF奖励建模新进展

概述

GRAM：生成式基础奖励模型

传统奖励模型的局限

生成式范式

训练目标

标签平滑的理论解释

基础奖励模型特性

实验验证

Pairwise-RL：统一成对框架

问题分析

Pairwise-RL框架

生成式奖励建模

成对PPO算法

分数校准

实验结果

QRPO：分位数奖励策略优化

背景问题

分位数奖励

解析可处理的分区函数

KL约束优化

预计算缩放

实验验证

RMB：奖励模型提升

问题：奖励黑客

多样性促进正则化

提升聚合

分布内/外性能

缓解奖励黑客

VRPO：鲁棒价值函数策略优化

Bradley-Terry模型假设

模型错误设定

鲁棒优化框架

鲁棒集合定义

理论与实验

方法对比

实践建议

任务适应策略

超参数设置

未来方向

参考资料

Footnotes

关系图谱

目录

反向链接