概述

RLHF(从人类反馈中进行强化学习)是对齐大语言模型的核心技术。奖励建模作为RLHF的关键组件,决定了智能体优化的目标。2025年研究在奖励模型训练范式上取得重要进展。1

GRAM:生成式基础奖励模型

传统奖励模型的局限

标准奖励模型是判别式模型,只从标注的人类偏好数据学习。这导致:

  1. 数据效率低:依赖昂贵的偏好标注
  2. 泛化能力差:难以迁移到未见任务
  3. 校准困难:绝对分数难以准确

生成式范式

GRAM(Generative Reward Model)2提出生成式奖励建模范式:

  1. 无监督预训练:大规模无标注数据上预训练
  2. 监督微调:少量偏好数据上微调
  3. 标签平滑:优化正则化成对排序损失

训练目标

GRAM的损失函数结合多个组件:

其中 是标签平滑正则化。

标签平滑的理论解释

设真实偏好分布为 ,标签平滑后的分布为:

这等价于优化正则化成对排序损失

基础奖励模型特性

预训练后的GRAM具有以下特性:

  1. 零样本任务迁移:可直接应用于新任务
  2. 少样本适应:少量标注即可快速适配
  3. 分布内/外泛化:对分布偏移更鲁棒

实验验证

在多个任务上验证有效性:

  • 响应排序:提升12.3%
  • RLHF训练:提升8.7%
  • 任务适应:仅需5%标注数据达到全监督性能

Pairwise-RL:统一成对框架

问题分析

传统RLHF面临两大挑战:

  1. 标量vs成对:偏好数据是成对的,但RL需要标量奖励
  2. 判别vs生成:奖励模型是判别式的,但初始化自生成模型

Pairwise-RL框架

Pairwise-RL3提出统一成对范式,同时解决训练和应用问题。

生成式奖励建模

使用生成式模型估计成对偏好:

奖励函数 由语言模型参数化。

成对PPO算法

修改PPO使用成对奖励:

策略梯度变为:

分数校准

生成式建模允许更自然的分数校准:

其中 是参考模型。

实验结果

  • ChatEval基准:提升11.2%
  • AlpacaEval 2:提升9.8%
  • LeetCode:提升15.4%

QRPO:分位数奖励策略优化

背景问题

现有RLHF方法可分为两类:

  1. 在线方法:PPO、GRPO,需要在线采样
  2. 离线方法:DPO、REBEL,只能从偏好对学习

QRPO4实现从标量绝对奖励学习的同时保持离线适用性

分位数奖励

QRPO使用分位数奖励替代点估计:

其中 是条件奖励分布, 是分位数水平。

解析可处理的分区函数

关键创新是利用分位数奖励的解析可处理分区函数

可解析计算,无需相对信号抵消。

KL约束优化

优化以下目标:

分位数奖励使这一问题在闭式下可解。

预计算缩放

奖励估计可离线预计算并缓存:

开启预计算缩放新维度。

实验验证

在8B规模模型上验证:

  • Reward Model Scores:显著提升
  • AlpacaEval 2:Top Performance
  • LeetCode:显著超越DPO、REBEL、SimPO

RMB:奖励模型提升

问题:奖励黑客

RLHF中的奖励黑客(reward hacking)问题:

根源是有限的偏好数据训练的奖励模型是对真实偏好的不完美代理。

多样性促进正则化

RMB(Reward Model Boosting)5训练多样化奖励模型集合

每个模型鼓励学习奖励图景的互补方面。

提升聚合

学习轻量级聚合器:

采用提升原理组合预测。

分布内/外性能

RMB在两类数据上都提升奖励准确性:

  • ID(In-Distribution):减少过拟合
  • OOD(Out-of-Distribution):增强鲁棒性

缓解奖励黑客

通过多样化集成,显著缓解奖励黑客:

  • 减少单一模型的偏差
  • 聚合提供更稳定的信号
  • 最终提升RLHF性能

VRPO:鲁棒价值函数策略优化

Bradley-Terry模型假设

传统RLHF使用Bradley-Terry模型建模偏好:

假设人类偏好满足规范偏好公理

模型错误设定

实际人类判断的复杂性和可变性可能导致模型错误设定:

鲁棒优化框架

VRPO(Very Robust Policy Optimization)[^6]提出鲁棒算法:

在鲁棒偏好分布集合上最大化期望。

鲁棒集合定义

以经验偏好分布 为中心的总变差球。

理论与实验

  • 理论:减少奖励和策略估计的方差
  • 实验:Anthropic Helpful & Harmless数据集上53-98%响应优于基线

方法对比

方法奖励类型数据需求离线适用主要创新
GRAM生成式无监督预训练
Pairwise-RL成对统一成对框架
QRPO分位数解析分区函数
RMB集成多样性促进
VRPO鲁棒错误设定鲁棒

实践建议

任务适应策略

  1. 数据稀缺:选择GRAM,利用无监督预训练
  2. 计算资源有限:选择QRPO,离线高效
  3. 奖励黑客严重:选择RMB,集成提升鲁棒

超参数设置

  • GRAM平滑系数
  • QRPO分位数(中位数奖励)
  • RMB集成大小
  • VRPO鲁棒半径

未来方向

  1. 多模态奖励建模:扩展到视觉-语言模型
  2. 动态奖励:奖励模型随时间演化
  3. 理论统一:建立统一的奖励建模理论框架

参考资料

Footnotes

  1. GRAM (2025). A Generative Foundation Reward Model. ICML 2025.

  2. Pairwise-RL (2025). A Unified Pairwise Framework for RLHF. arXiv:2504.04950.

  3. QRPO (2025). Quantile Reward Policy Optimization. NeurIPS 2025.

  4. RMB (2025). Reward Model Boosting for RLHF. ICLR 2026.

  5. VRPO (2025). Very Robust Policy Optimization for RLHF. arXiv:2504.03784.