离线强化学习理论新进展

概述

离线强化学习（Offline RL）允许智能体从预先收集的数据集学习策略，无需与环境主动交互。这对于自动驾驶、医疗治疗等安全关键应用至关重要。2025年理论研究在多个方面取得突破。¹

大状态空间离线RL理论

问题设置

在大型或无限状态空间MDP中，传统的表格方法不再适用。理论需要处理：

函数近似误差：值函数由参数化函数近似
分布偏移：学到的策略可能访问分布外状态
覆盖假设：数据集覆盖与目标策略覆盖的关系

表达性假设

现代理论引入两类核心假设：

Bellman完备性：对于所有策略 $π$ ，值函数类 $F$ 满足：

\forall f \in F, T^{π} f \in F

即值函数的Bellman更新仍在函数类内。

可达性：数据集 $D$ 对目标策略 $π^{*}$ 提供某种覆盖：

d_{π^{*}} (s) \leq C \cdot d_{D} (s)

其中 $d_{π^{*}}$ 是折扣状态分布， $d_{D}$ 是数据分布。

算法分类体系

假设类型	算法代表	覆盖要求	复杂度保证
全局覆盖	Fitted Q-Iteration	均匀覆盖	弱
单策略覆盖	Pessimistic OPE	目标策略覆盖	中等
部分覆盖	Feature Occupancy	单方向覆盖	最弱

平均奖励MDP理论

平均奖励设置

折扣奖励在无限 horizon 任务中可能不合适。平均奖励MDP优化：

J (π) = T \to \infty lim \frac{1}{T} E [t = 0 \sum T - 1 r_{t}]

偏差跨度

偏差跨度（bias span）是平均奖励MDP的核心概念：

span (h^{π}) = s max h^{π} (s) - s min h^{π} (s)

其中 $h^{π}$ 是相对值函数。

单策略样本复杂度

Zurek等人提出首个完全单策略的样本复杂度界：

O (\frac{span ( h ^{π^{*}} ) \cdot lo g ( 1/ δ )}{ϵ ^{2}})

只依赖于目标策略的偏差跨度，无需均匀混合时间。

策略命中半径

引入策略命中半径作为新的复杂性度量：

r_{hit} (π^{*}) = s max E_{π} [τ_{hit} (s)]

衡量从任意状态到达目标策略支持区域的期望时间。

稀疏鲁棒离线RL

问题定义

高维稀疏MDP设置下，数据可能被对手恶意污染。稀疏鲁棒离线RL同时处理：

稀疏性：只有少数状态-动作对有非零奖励
腐败鲁棒性：部分轨迹被任意扰动

稀疏单集中性

假设数据集在目标策略的支撑集上集中：

d_{π^{*}} (s) > 0 ⟹ d_{D} (s) > 0

但不需要对其他状态的条件。

LSVI的局限性

标准LSVI（最小二乘值迭代）在稀疏设置下表现不佳：

过度悲观的奖金：点态悲观奖金在稀疏区域过大
分析失效：传统分析依赖均匀覆盖假设

稀疏鲁棒估计器

提出稀疏鲁棒actor-critic方法：

\hat{Q}^{robust} (s, a) = P \in P_{robust} min E_{P} [r + γV (s^{'})]

使用集合 $P_{robust}$ 而非点态估计器。

腐败鲁棒性

即使在强污染设置下（ $ϵ$ -contamination），算法仍然鲁棒：

∥ P_{true} - P_{adv} ∥_{1} \leq ϵ

自适应数据收集理论

问题背景

传统理论假设数据由单一固定日志策略收集。自适应数据收集允许日志策略根据历史数据自适应调整。

自适应设置定义

设 $t$ 时刻的日志策略为 $π_{t}$ ，则：

π_{t} \in Π_{adap} = {π : π 可由历史数据 h_{0 : t - 1} 构建}

最优速率恢复

对于表格MDP，证明最小最大下界为：

Ω (\frac{∣ S ∣∣ A ∣}{N})

其中 $N$ 是总样本数。自适应设置可以恢复这一最优速率。

实例依赖界

进一步推导实例依赖的界：

E [OPE Error] \leq \frac{I ( π ^{*} ; D )}{N}

其中 $I$ 是互信息，衡量日志策略与目标策略的信息重叠。

特征占用梯度上升

线性可实现设置

假设奖励和转移函数在已知特征映射 $ϕ : S \to R^{d}$ 下线性可实现：

r (s, a) = ϕ (s)^{⊤} w_{r}, P (\cdot ∣ s, a) \approx ϕ (\cdot)^{⊤} W_{P}

特征占用定义

策略的特征占用定义为：

μ^{π} = E_{π} [t = 0 \sum \infty γ^{t} ϕ (s_{t})] \in R^{d}

线性规划形式

最优控制问题可写为特征占用空间的线性规划：

w max w^{⊤} μ s.t. μ \in O, A μ \leq b

其中 $O$ 是特征占用可达集。

梯度上升算法

直接对目标函数 $w^{⊤} μ$ 进行梯度上升：

μ_{k + 1} = μ_{k} + η \cdot \nabla_{μ} (w^{⊤} μ) = μ_{k} + η \cdot w

在特征空间而非原始状态空间操作，大大降低了复杂度。

弱覆盖条件

证明样本复杂度只要求数据覆盖特征空间的一个方向：

ϕ^{⊤} Σ_{D} ϕ \geq c > 0

而非完整子空间覆盖。

理论到实践的桥梁

覆盖假设的实践意义

假设强度	覆盖要求	实践可行性	理论保证
均匀覆盖	全空间	低	强
全策略覆盖	所有策略	中	中
单策略覆盖	目标策略	高	中
特征覆盖	特征方向	高	弱-中

悲观主义的必要性

理论研究证实，悲观主义是处理分布偏移的必要组件：

\hat{V}^{pess} (s) = π max P \in P min E_{P} [r + γV (s^{'})]

悲观避免了对未覆盖区域过度乐观的估计。

模型选择与覆盖

实践中选择模型复杂度需要权衡：

F min {approx (F) + est (F, D)}

近似误差与估计误差的平衡。

未来开放问题

部分覆盖下的最优保证：单策略覆盖是否是最弱的可行假设？
计算-统计权衡：理论最优算法是否计算高效？
非线性函数近似：线性假设之外的理论？
Transformer架构：自注意力在离线RL中的理论理解？

参考资料

Statistical Science (2025). Offline Reinforcement Learning in Large State Spaces: Algorithms and Guarantees. ↩

Metaphor

探索

离线强化学习理论新进展

概述

大状态空间离线RL理论

问题设置

表达性假设

算法分类体系

平均奖励MDP理论

平均奖励设置

偏差跨度

单策略样本复杂度

策略命中半径

稀疏鲁棒离线RL

问题定义

稀疏单集中性

LSVI的局限性

稀疏鲁棒估计器

腐败鲁棒性

自适应数据收集理论

问题背景

自适应设置定义

最优速率恢复

实例依赖界

特征占用梯度上升

线性可实现设置

特征占用定义

线性规划形式

梯度上升算法

弱覆盖条件

理论到实践的桥梁

覆盖假设的实践意义

悲观主义的必要性

模型选择与覆盖

未来开放问题

参考资料

关系图谱

目录

反向链接

Metaphor

探索

离线强化学习理论新进展

概述

大状态空间离线RL理论

问题设置

表达性假设

算法分类体系

平均奖励MDP理论

平均奖励设置

偏差跨度

单策略样本复杂度

策略命中半径

稀疏鲁棒离线RL

问题定义

稀疏单集中性

LSVI的局限性

稀疏鲁棒估计器

腐败鲁棒性

自适应数据收集理论

问题背景

自适应设置定义

最优速率恢复

实例依赖界

特征占用梯度上升

线性可实现设置

特征占用定义

线性规划形式

梯度上升算法

弱覆盖条件

理论到实践的桥梁

覆盖假设的实践意义

悲观主义的必要性

模型选择与覆盖

未来开放问题

参考资料

Footnotes

关系图谱

目录

反向链接