无折扣策略梯度理论（γ=1）

经典策略梯度理论假设折扣因子 $γ < 1$ ，这在许多实际应用（如LLM微调）中并不成立。Lee & Ryu (2025) 提供了首个无折扣MDP策略梯度的严格理论分析。

1. 为什么需要 γ=1 理论？

1.1 LLM微调中的问题

在大语言模型（LLM）的强化学习微调中：

序列级奖励：奖励在整个序列末尾给出
无折扣目标：每个token对最终结果的贡献同等重要
实践中使用 $γ = 1$ 或 $γ \approx 1$

1.2 传统理论的局限性

设置	传统理论	无折扣设置
折扣	$γ < 1$	$γ = 1$
回报	$G_{t} = \sum γ^{k} R_{t + k}$	$G_{t} = \sum R_{t + k}$
值函数	有界	可能无界
收敛性	已有证明	缺失

1.3 核心挑战

值函数无界： $V^{π} (s)$ 可能趋向无穷
状态访问分布：不再存在唯一的平稳分布
振荡行为：策略可能在状态间振荡

2. 瞬态访问测度

2.1 状态分类

在无折扣设置下，状态分为两类：

类型	定义	性质
瞬态状态	从起始状态出发，期望访问次数有限	最终离开
常返状态	期望无限次访问	形成环

2.2 瞬态访问测度定义

定义（瞬态访问测度）：
对于起始分布 $ρ$ 和策略 $π$ ，定义：

μ_{ρ}^{π} (s) = E_{π} [t = 0 \sum \infty 1 (S_{t} = s) S_{0} \sim ρ]

物理意义：从起始分布出发，状态 $s$ 的期望累积访问次数。

2.3 关键引理

引理（瞬态访问的不变性）：
对于具有全支持的随机策略（softmax策略），瞬态-常返分类不依赖于策略。

即：若状态 $s$ 对某策略是瞬态的，则对所有具有全支持的策略都是瞬态的。

证明思路：

Softmax策略 $π_{θ} (a ∣ s) > 0$ 对所有动作成立
存在从任意状态到达任意其他状态的非零概率路径
因此状态分类由MDP拓扑决定，与特定策略无关

3. 无折扣目标函数

3.1 累积平均回报目标

由于 $γ = 1$ ，定义长期平均回报：

\overset{ˉ}{J} (θ) = T \to \infty lim \frac{1}{T} E_{π} [t = 0 \sum T - 1 R_{t}]

3.2 瞬态目标函数

另一种选择是只关注瞬态状态的回报：

J (θ) = E_{π} [t = 0 \sum \infty (R_{t} - \overset{r}{ˉ}^{π}) S_{0} \sim ρ]

其中 $\overset{r}{ˉ}^{π}$ 是平均奖励。

3.3 Lee & Ryu 目标

论文使用瞬态累积奖励：

J (θ) = E_{π} [t = 0 \sum \infty R_{t} \cdot w (S_{t}) S_{0} \sim ρ]

其中 $w (s)$ 是权重函数， $w (s) = 1$ 对瞬态状态， $w (s) = 0$ 对常返状态。

4. 策略梯度定理（无折扣）

4.1 定理陈述

定理（无折扣策略梯度定理）：
对于无折扣MDP和瞬态目标函数，策略梯度为：

\nabla_{θ} J (θ) = E_{π} [t = 0 \sum \infty \nabla_{θ} lo g π_{θ} (A_{t} ∣ S_{t}) \cdot Ψ_{t}]

其中 $Ψ_{t}$ 是瞬态回报：

Ψ_{t} = k = t \sum \infty R_{k} \cdot w (S_{k})

4.2 证明概要

瞬态访问测度的递归形式：

μ_{ρ}^{π} (s) = ρ (s) + s^{'} \sum μ_{ρ}^{π} (s^{'}) \cdot a \sum π (a ∣ s^{'}) \cdot T (s ∣ s^{'} ∣ a)

目标函数的梯度：

\nabla_{θ} J = s \sum μ_{ρ}^{π} (s) a \sum \nabla_{θ} π (a ∣ s) \cdot Q^{π} (s, a)

对数梯度恒等式：同折扣情况
期望展开：得到最终的梯度表达式

4.3 与折扣情况的对比

方面	折扣设置	无折扣设置
值函数	$V^{π} (s)$ 有界	可能无界
状态分布	平稳分布 $d^{π} (s)$	瞬态访问测度 $μ_{ρ}^{π} (s)$
梯度形式	相似	需要修正
收敛性	已有	新理论保证

5. 瞬态相对值函数

5.1 相对值函数定义

定义瞬态相对值函数：

h^{π} (s) = E_{π} [t = 0 \sum \infty (R_{t} - \overset{r}{ˉ}^{π}) S_{0} = s]

其中 $\overset{r}{ˉ}^{π} = \sum_{s} d^{π} (s) \cdot r (s, π (s))$ 。

5.2 Bellman方程

h^{π} (s) = r (s, π (s)) - \overset{r}{ˉ}^{π} + s^{'} \sum T (s^{'} ∣ s, π (s)) \cdot h^{π} (s^{'})

5.3 优势函数形式

在无折扣设置下：

A^{π} (s, a) = Q^{π} (s, a) - V_{a vg}^{π} (s) = h^{π} (s, a) - h^{π} (s)

6. 收敛性分析

6.1 收敛定理

定理（无折扣策略梯度收敛）：
在以下条件下，策略梯度方法收敛到局部最优策略：

MDP的瞬态-常返分类存在
策略是softmax参数化
学习率满足Robbins-Monro条件
瞬态值函数 $h^{π}$ 有界

6.2 收敛速率

论文给出的收敛速率为 $O (1/ T)$ （期望意义上）。

6.3 与LLM微调的关联

LLM生成序列: [token_1, token_2, ..., token_N]
                ↓         ↓            ↓
              R=0        R=0         R=reward

γ = 1: 每个token对最终奖励同等重要

7. 实用意义

7.1 理论基础

首次为LLM微调中使用的 $γ = 1$ 设置提供了理论保证
解释了为什么实践中策略梯度在LLM微调中有效
指出了可能的失效情况

7.2 实践指导

状态分类：识别瞬态vs常返状态
权重设计：对不同状态使用不同权重
收敛监测：监控瞬态值函数的稳定性

7.3 未来方向

扩展到部分可观测MDP（POMDP）
处理奖励稀疏问题
分析更复杂的策略参数化

8. 代码示例

import torch
import torch.nn as nn
 
class UndiscountedPG:
    def __init__(self, policy, optimizer, lr):
        self.policy = policy
        self.optimizer = optimizer
        
    def compute_transient_returns(self, rewards, weights):
        """计算瞬态回报"""
        returns = []
        G = 0
        for r, w in zip(reversed(rewards), reversed(weights)):
            G = r * w + G
            returns.insert(0, G)
        return torch.tensor(returns, dtype=torch.float32)
    
    def update(self, states, actions, rewards, weights):
        """无折扣策略梯度更新"""
        returns = self.compute_transient_returns(rewards, weights)
        
        log_probs = self.policy.log_prob(states, actions)
        loss = -(log_probs * returns).sum()
        
        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()
        
        return loss.item()

9. 与其他工作的联系

9.1 REINFORCE with Any LR

Robertson et al. (NeurIPS 2025) 证明REINFORCE在任意学习率下收敛，与本文的无折扣分析互补。

9.2 Post-Training Theory

Mousavi-Hosseini & Erdogdu (2026) 进一步分析了LLM后训练的基模型壁垒问题。

9.3 Base Model Barrier

总误差 \geq f (Likelihood Quantile of Base Model)

Metaphor

探索

无折扣策略梯度理论（γ=1）

无折扣策略梯度理论（γ=1）

1. 为什么需要 γ=1 理论？

1.1 LLM微调中的问题

1.2 传统理论的局限性

1.3 核心挑战

2. 瞬态访问测度

2.1 状态分类

2.2 瞬态访问测度定义

2.3 关键引理

3. 无折扣目标函数

3.1 累积平均回报目标

3.2 瞬态目标函数

3.3 Lee & Ryu 目标

4. 策略梯度定理（无折扣）

4.1 定理陈述

4.2 证明概要

4.3 与折扣情况的对比

5. 瞬态相对值函数

5.1 相对值函数定义

5.2 Bellman方程

5.3 优势函数形式

6. 收敛性分析

6.1 收敛定理

6.2 收敛速率

6.3 与LLM微调的关联

7. 实用意义

7.1 理论基础

7.2 实践指导

7.3 未来方向

8. 代码示例

9. 与其他工作的联系

9.1 REINFORCE with Any LR

9.2 Post-Training Theory

9.3 Base Model Barrier

10. 参考文献

关系图谱

目录

反向链接