概述

离线强化学习(Offline RL)允许智能体从预先收集的数据集学习策略,无需与环境主动交互。这对于自动驾驶、医疗治疗等安全关键应用至关重要。2025年理论研究在多个方面取得突破。1

大状态空间离线RL理论

问题设置

在大型或无限状态空间MDP中,传统的表格方法不再适用。理论需要处理:

  1. 函数近似误差:值函数由参数化函数近似
  2. 分布偏移:学到的策略可能访问分布外状态
  3. 覆盖假设:数据集覆盖与目标策略覆盖的关系

表达性假设

现代理论引入两类核心假设:

Bellman完备性:对于所有策略 ,值函数类 满足:

即值函数的Bellman更新仍在函数类内。

可达性:数据集 对目标策略 提供某种覆盖:

其中 是折扣状态分布, 是数据分布。

算法分类体系

假设类型算法代表覆盖要求复杂度保证
全局覆盖Fitted Q-Iteration均匀覆盖
单策略覆盖Pessimistic OPE目标策略覆盖中等
部分覆盖Feature Occupancy单方向覆盖最弱

平均奖励MDP理论

平均奖励设置

折扣奖励在无限 horizon 任务中可能不合适。平均奖励MDP优化:

偏差跨度

偏差跨度(bias span)是平均奖励MDP的核心概念:

其中 是相对值函数。

单策略样本复杂度

Zurek等人提出首个完全单策略的样本复杂度界:

只依赖于目标策略的偏差跨度,无需均匀混合时间。

策略命中半径

引入策略命中半径作为新的复杂性度量:

衡量从任意状态到达目标策略支持区域的期望时间。

稀疏鲁棒离线RL

问题定义

高维稀疏MDP设置下,数据可能被对手恶意污染。稀疏鲁棒离线RL同时处理:

  1. 稀疏性:只有少数状态-动作对有非零奖励
  2. 腐败鲁棒性:部分轨迹被任意扰动

稀疏单集中性

假设数据集在目标策略的支撑集上集中:

但不需要对其他状态的条件。

LSVI的局限性

标准LSVI(最小二乘值迭代)在稀疏设置下表现不佳:

  1. 过度悲观的奖金:点态悲观奖金在稀疏区域过大
  2. 分析失效:传统分析依赖均匀覆盖假设

稀疏鲁棒估计器

提出稀疏鲁棒actor-critic方法:

使用集合 而非点态估计器。

腐败鲁棒性

即使在强污染设置下(-contamination),算法仍然鲁棒:

自适应数据收集理论

问题背景

传统理论假设数据由单一固定日志策略收集。自适应数据收集允许日志策略根据历史数据自适应调整。

自适应设置定义

时刻的日志策略为 ,则:

最优速率恢复

对于表格MDP,证明最小最大下界为:

其中 是总样本数。自适应设置可以恢复这一最优速率。

实例依赖界

进一步推导实例依赖的界:

其中 是互信息,衡量日志策略与目标策略的信息重叠。

特征占用梯度上升

线性可实现设置

假设奖励和转移函数在已知特征映射 下线性可实现:

特征占用定义

策略的特征占用定义为:

线性规划形式

最优控制问题可写为特征占用空间的线性规划:

其中 是特征占用可达集。

梯度上升算法

直接对目标函数 进行梯度上升:

在特征空间而非原始状态空间操作,大大降低了复杂度。

弱覆盖条件

证明样本复杂度只要求数据覆盖特征空间的一个方向:

而非完整子空间覆盖。

理论到实践的桥梁

覆盖假设的实践意义

假设强度覆盖要求实践可行性理论保证
均匀覆盖全空间
全策略覆盖所有策略
单策略覆盖目标策略
特征覆盖特征方向弱-中

悲观主义的必要性

理论研究证实,悲观主义是处理分布偏移的必要组件:

悲观避免了对未覆盖区域过度乐观的估计。

模型选择与覆盖

实践中选择模型复杂度需要权衡:

近似误差与估计误差的平衡。

未来开放问题

  1. 部分覆盖下的最优保证:单策略覆盖是否是最弱的可行假设?
  2. 计算-统计权衡:理论最优算法是否计算高效?
  3. 非线性函数近似:线性假设之外的理论?
  4. Transformer架构:自注意力在离线RL中的理论理解?

参考资料

Footnotes

  1. Statistical Science (2025). Offline Reinforcement Learning in Large State Spaces: Algorithms and Guarantees.