无折扣策略梯度理论(γ=1)

经典策略梯度理论假设折扣因子 ,这在许多实际应用(如LLM微调)中并不成立。Lee & Ryu (2025) 提供了首个无折扣MDP策略梯度的严格理论分析。

1. 为什么需要 γ=1 理论?

1.1 LLM微调中的问题

在大语言模型(LLM)的强化学习微调中:

  • 序列级奖励:奖励在整个序列末尾给出
  • 无折扣目标:每个token对最终结果的贡献同等重要
  • 实践中使用

1.2 传统理论的局限性

设置传统理论无折扣设置
折扣
回报
值函数有界可能无界
收敛性已有证明缺失

1.3 核心挑战

  1. 值函数无界 可能趋向无穷
  2. 状态访问分布:不再存在唯一的平稳分布
  3. 振荡行为:策略可能在状态间振荡

2. 瞬态访问测度

2.1 状态分类

在无折扣设置下,状态分为两类:

类型定义性质
瞬态状态从起始状态出发,期望访问次数有限最终离开
常返状态期望无限次访问形成环

2.2 瞬态访问测度定义

定义(瞬态访问测度):
对于起始分布 和策略 ,定义:

物理意义:从起始分布出发,状态 的期望累积访问次数。

2.3 关键引理

引理(瞬态访问的不变性):
对于具有全支持的随机策略(softmax策略),瞬态-常返分类不依赖于策略

即:若状态 对某策略是瞬态的,则对所有具有全支持的策略都是瞬态的。

证明思路

  • Softmax策略 对所有动作成立
  • 存在从任意状态到达任意其他状态的非零概率路径
  • 因此状态分类由MDP拓扑决定,与特定策略无关

3. 无折扣目标函数

3.1 累积平均回报目标

由于 ,定义长期平均回报

3.2 瞬态目标函数

另一种选择是只关注瞬态状态的回报:

其中 是平均奖励。

3.3 Lee & Ryu 目标

论文使用瞬态累积奖励

其中 是权重函数, 对瞬态状态, 对常返状态。

4. 策略梯度定理(无折扣)

4.1 定理陈述

定理(无折扣策略梯度定理):
对于无折扣MDP和瞬态目标函数,策略梯度为:

其中 瞬态回报

4.2 证明概要

  1. 瞬态访问测度的递归形式
  1. 目标函数的梯度
  1. 对数梯度恒等式:同折扣情况

  2. 期望展开:得到最终的梯度表达式

4.3 与折扣情况的对比

方面折扣设置无折扣设置
值函数 有界可能无界
状态分布平稳分布 瞬态访问测度
梯度形式相似需要修正
收敛性已有新理论保证

5. 瞬态相对值函数

5.1 相对值函数定义

定义瞬态相对值函数

其中

5.2 Bellman方程

5.3 优势函数形式

在无折扣设置下:

6. 收敛性分析

6.1 收敛定理

定理(无折扣策略梯度收敛):
在以下条件下,策略梯度方法收敛到局部最优策略:

  1. MDP的瞬态-常返分类存在
  2. 策略是softmax参数化
  3. 学习率满足Robbins-Monro条件
  4. 瞬态值函数 有界

6.2 收敛速率

论文给出的收敛速率为 (期望意义上)。

6.3 与LLM微调的关联

LLM生成序列: [token_1, token_2, ..., token_N]
                ↓         ↓            ↓
              R=0        R=0         R=reward

γ = 1: 每个token对最终奖励同等重要

7. 实用意义

7.1 理论基础

  • 首次为LLM微调中使用的设置提供了理论保证
  • 解释了为什么实践中策略梯度在LLM微调中有效
  • 指出了可能的失效情况

7.2 实践指导

  1. 状态分类:识别瞬态vs常返状态
  2. 权重设计:对不同状态使用不同权重
  3. 收敛监测:监控瞬态值函数的稳定性

7.3 未来方向

  1. 扩展到部分可观测MDP(POMDP)
  2. 处理奖励稀疏问题
  3. 分析更复杂的策略参数化

8. 代码示例

import torch
import torch.nn as nn
 
class UndiscountedPG:
    def __init__(self, policy, optimizer, lr):
        self.policy = policy
        self.optimizer = optimizer
        
    def compute_transient_returns(self, rewards, weights):
        """计算瞬态回报"""
        returns = []
        G = 0
        for r, w in zip(reversed(rewards), reversed(weights)):
            G = r * w + G
            returns.insert(0, G)
        return torch.tensor(returns, dtype=torch.float32)
    
    def update(self, states, actions, rewards, weights):
        """无折扣策略梯度更新"""
        returns = self.compute_transient_returns(rewards, weights)
        
        log_probs = self.policy.log_prob(states, actions)
        loss = -(log_probs * returns).sum()
        
        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()
        
        return loss.item()

9. 与其他工作的联系

9.1 REINFORCE with Any LR

Robertson et al. (NeurIPS 2025) 证明REINFORCE在任意学习率下收敛,与本文的无折扣分析互补。

9.2 Post-Training Theory

Mousavi-Hosseini & Erdogdu (2026) 进一步分析了LLM后训练的基模型壁垒问题。

9.3 Base Model Barrier

10. 参考文献


相关主题策略梯度定理 | REINFORCE任意学习率收敛 | PPO全局收敛性理论