概述
离线强化学习(Offline RL)允许智能体从预先收集的数据集学习策略,无需与环境主动交互。这对于自动驾驶、医疗治疗等安全关键应用至关重要。2025年理论研究在多个方面取得突破。1
大状态空间离线RL理论
问题设置
在大型或无限状态空间MDP中,传统的表格方法不再适用。理论需要处理:
- 函数近似误差:值函数由参数化函数近似
- 分布偏移:学到的策略可能访问分布外状态
- 覆盖假设:数据集覆盖与目标策略覆盖的关系
表达性假设
现代理论引入两类核心假设:
Bellman完备性:对于所有策略 ,值函数类 满足:
即值函数的Bellman更新仍在函数类内。
可达性:数据集 对目标策略 提供某种覆盖:
其中 是折扣状态分布, 是数据分布。
算法分类体系
| 假设类型 | 算法代表 | 覆盖要求 | 复杂度保证 |
|---|---|---|---|
| 全局覆盖 | Fitted Q-Iteration | 均匀覆盖 | 弱 |
| 单策略覆盖 | Pessimistic OPE | 目标策略覆盖 | 中等 |
| 部分覆盖 | Feature Occupancy | 单方向覆盖 | 最弱 |
平均奖励MDP理论
平均奖励设置
折扣奖励在无限 horizon 任务中可能不合适。平均奖励MDP优化:
偏差跨度
偏差跨度(bias span)是平均奖励MDP的核心概念:
其中 是相对值函数。
单策略样本复杂度
Zurek等人提出首个完全单策略的样本复杂度界:
只依赖于目标策略的偏差跨度,无需均匀混合时间。
策略命中半径
引入策略命中半径作为新的复杂性度量:
衡量从任意状态到达目标策略支持区域的期望时间。
稀疏鲁棒离线RL
问题定义
高维稀疏MDP设置下,数据可能被对手恶意污染。稀疏鲁棒离线RL同时处理:
- 稀疏性:只有少数状态-动作对有非零奖励
- 腐败鲁棒性:部分轨迹被任意扰动
稀疏单集中性
假设数据集在目标策略的支撑集上集中:
但不需要对其他状态的条件。
LSVI的局限性
标准LSVI(最小二乘值迭代)在稀疏设置下表现不佳:
- 过度悲观的奖金:点态悲观奖金在稀疏区域过大
- 分析失效:传统分析依赖均匀覆盖假设
稀疏鲁棒估计器
提出稀疏鲁棒actor-critic方法:
使用集合 而非点态估计器。
腐败鲁棒性
即使在强污染设置下(-contamination),算法仍然鲁棒:
自适应数据收集理论
问题背景
传统理论假设数据由单一固定日志策略收集。自适应数据收集允许日志策略根据历史数据自适应调整。
自适应设置定义
设 时刻的日志策略为 ,则:
最优速率恢复
对于表格MDP,证明最小最大下界为:
其中 是总样本数。自适应设置可以恢复这一最优速率。
实例依赖界
进一步推导实例依赖的界:
其中 是互信息,衡量日志策略与目标策略的信息重叠。
特征占用梯度上升
线性可实现设置
假设奖励和转移函数在已知特征映射 下线性可实现:
特征占用定义
策略的特征占用定义为:
线性规划形式
最优控制问题可写为特征占用空间的线性规划:
其中 是特征占用可达集。
梯度上升算法
直接对目标函数 进行梯度上升:
在特征空间而非原始状态空间操作,大大降低了复杂度。
弱覆盖条件
证明样本复杂度只要求数据覆盖特征空间的一个方向:
而非完整子空间覆盖。
理论到实践的桥梁
覆盖假设的实践意义
| 假设强度 | 覆盖要求 | 实践可行性 | 理论保证 |
|---|---|---|---|
| 均匀覆盖 | 全空间 | 低 | 强 |
| 全策略覆盖 | 所有策略 | 中 | 中 |
| 单策略覆盖 | 目标策略 | 高 | 中 |
| 特征覆盖 | 特征方向 | 高 | 弱-中 |
悲观主义的必要性
理论研究证实,悲观主义是处理分布偏移的必要组件:
悲观避免了对未覆盖区域过度乐观的估计。
模型选择与覆盖
实践中选择模型复杂度需要权衡:
近似误差与估计误差的平衡。
未来开放问题
- 部分覆盖下的最优保证:单策略覆盖是否是最弱的可行假设?
- 计算-统计权衡:理论最优算法是否计算高效?
- 非线性函数近似:线性假设之外的理论?
- Transformer架构:自注意力在离线RL中的理论理解?
参考资料
Footnotes
-
Statistical Science (2025). Offline Reinforcement Learning in Large State Spaces: Algorithms and Guarantees. ↩