无折扣策略梯度理论(γ=1)
经典策略梯度理论假设折扣因子 ,这在许多实际应用(如LLM微调)中并不成立。Lee & Ryu (2025) 提供了首个无折扣MDP策略梯度的严格理论分析。
1. 为什么需要 γ=1 理论?
1.1 LLM微调中的问题
在大语言模型(LLM)的强化学习微调中:
- 序列级奖励:奖励在整个序列末尾给出
- 无折扣目标:每个token对最终结果的贡献同等重要
- 实践中使用 或
1.2 传统理论的局限性
| 设置 | 传统理论 | 无折扣设置 |
|---|---|---|
| 折扣 | ||
| 回报 | ||
| 值函数 | 有界 | 可能无界 |
| 收敛性 | 已有证明 | 缺失 |
1.3 核心挑战
- 值函数无界: 可能趋向无穷
- 状态访问分布:不再存在唯一的平稳分布
- 振荡行为:策略可能在状态间振荡
2. 瞬态访问测度
2.1 状态分类
在无折扣设置下,状态分为两类:
| 类型 | 定义 | 性质 |
|---|---|---|
| 瞬态状态 | 从起始状态出发,期望访问次数有限 | 最终离开 |
| 常返状态 | 期望无限次访问 | 形成环 |
2.2 瞬态访问测度定义
定义(瞬态访问测度):
对于起始分布 和策略 ,定义:
物理意义:从起始分布出发,状态 的期望累积访问次数。
2.3 关键引理
引理(瞬态访问的不变性):
对于具有全支持的随机策略(softmax策略),瞬态-常返分类不依赖于策略。
即:若状态 对某策略是瞬态的,则对所有具有全支持的策略都是瞬态的。
证明思路:
- Softmax策略 对所有动作成立
- 存在从任意状态到达任意其他状态的非零概率路径
- 因此状态分类由MDP拓扑决定,与特定策略无关
3. 无折扣目标函数
3.1 累积平均回报目标
由于 ,定义长期平均回报:
3.2 瞬态目标函数
另一种选择是只关注瞬态状态的回报:
其中 是平均奖励。
3.3 Lee & Ryu 目标
论文使用瞬态累积奖励:
其中 是权重函数, 对瞬态状态, 对常返状态。
4. 策略梯度定理(无折扣)
4.1 定理陈述
定理(无折扣策略梯度定理):
对于无折扣MDP和瞬态目标函数,策略梯度为:
其中 是瞬态回报:
4.2 证明概要
- 瞬态访问测度的递归形式:
- 目标函数的梯度:
-
对数梯度恒等式:同折扣情况
-
期望展开:得到最终的梯度表达式
4.3 与折扣情况的对比
| 方面 | 折扣设置 | 无折扣设置 |
|---|---|---|
| 值函数 | 有界 | 可能无界 |
| 状态分布 | 平稳分布 | 瞬态访问测度 |
| 梯度形式 | 相似 | 需要修正 |
| 收敛性 | 已有 | 新理论保证 |
5. 瞬态相对值函数
5.1 相对值函数定义
定义瞬态相对值函数:
其中 。
5.2 Bellman方程
5.3 优势函数形式
在无折扣设置下:
6. 收敛性分析
6.1 收敛定理
定理(无折扣策略梯度收敛):
在以下条件下,策略梯度方法收敛到局部最优策略:
- MDP的瞬态-常返分类存在
- 策略是softmax参数化
- 学习率满足Robbins-Monro条件
- 瞬态值函数 有界
6.2 收敛速率
论文给出的收敛速率为 (期望意义上)。
6.3 与LLM微调的关联
LLM生成序列: [token_1, token_2, ..., token_N]
↓ ↓ ↓
R=0 R=0 R=reward
γ = 1: 每个token对最终奖励同等重要
7. 实用意义
7.1 理论基础
- 首次为LLM微调中使用的设置提供了理论保证
- 解释了为什么实践中策略梯度在LLM微调中有效
- 指出了可能的失效情况
7.2 实践指导
- 状态分类:识别瞬态vs常返状态
- 权重设计:对不同状态使用不同权重
- 收敛监测:监控瞬态值函数的稳定性
7.3 未来方向
- 扩展到部分可观测MDP(POMDP)
- 处理奖励稀疏问题
- 分析更复杂的策略参数化
8. 代码示例
import torch
import torch.nn as nn
class UndiscountedPG:
def __init__(self, policy, optimizer, lr):
self.policy = policy
self.optimizer = optimizer
def compute_transient_returns(self, rewards, weights):
"""计算瞬态回报"""
returns = []
G = 0
for r, w in zip(reversed(rewards), reversed(weights)):
G = r * w + G
returns.insert(0, G)
return torch.tensor(returns, dtype=torch.float32)
def update(self, states, actions, rewards, weights):
"""无折扣策略梯度更新"""
returns = self.compute_transient_returns(rewards, weights)
log_probs = self.policy.log_prob(states, actions)
loss = -(log_probs * returns).sum()
self.optimizer.zero_grad()
loss.backward()
self.optimizer.step()
return loss.item()9. 与其他工作的联系
9.1 REINFORCE with Any LR
Robertson et al. (NeurIPS 2025) 证明REINFORCE在任意学习率下收敛,与本文的无折扣分析互补。
9.2 Post-Training Theory
Mousavi-Hosseini & Erdogdu (2026) 进一步分析了LLM后训练的基模型壁垒问题。
9.3 Base Model Barrier
10. 参考文献
相关主题:策略梯度定理 | REINFORCE任意学习率收敛 | PPO全局收敛性理论