离线强化学习简介

1. 背景与定义

离线强化学习（Offline Reinforcement Learning），又称批量强化学习（Batch Reinforcement Learning），是指从固定的数据集中学习最优策略的强化学习方法，无需与环境进行在线交互。

π^{*} = ar g π max E_{τ \sim π} [R (τ)]

其中，数据集 $D = {(s_{t}, a_{t}, r_{t}, s_{t + 1})}_{t = 1}^{N}$ 是预先收集的，无法通过交互获取新的数据。

1.1 与在线RL的核心区别

特性	在线强化学习	离线强化学习
数据收集	实时与环境交互	使用预先收集的数据集
探索策略	可主动探索	固定数据集，无探索
样本效率	较低（需大量交互）	较高（利用已有数据）
安全性	探索可能有风险	无风险（不开环交互）
应用场景	游戏、模拟环境	医疗、自动驾驶、工业控制

2. 核心挑战：外推误差

离线RL面临的最大挑战是外推误差（Extrapolation Error）。这是由于在估计未见过的状态-动作对的Q值时，值函数会错误地外推到数据分布之外。

2.1 Bootstrapping与分布偏移

在标准Q-learning中，TD目标使用下一个状态的最大Q值：

y_{t} = r_{t} + γ a^{'} max Q (s_{t + 1}, a^{'})

当 $s_{t + 1}$ 在数据集中出现但对应的最优动作 $a^{'}$ 未出现时，Q函数需要外推到未见过的动作，这会导致：

过度乐观估计：Q值被高估
复合误差：错误传播导致策略崩溃

2.2 三种数据约束类型

根据[Foster et al., 2022]的理论分析，离线RL的约束可分为：

约束类型	描述	限制程度
支持约束（Support Constraint）	策略只能在数据覆盖的状态-动作对上执行	最宽松
密度约束（Density Constraint）	策略选择的动作分布不能偏离数据分布太远	中等
样本约束（Sample Constraint）	每个状态-动作对只能被选择有限次	最严格

2.3 分布偏移的可视化

数据分布                     策略选择的分布
┌────────────────┐          ┌────────────────┐
│   ████         │          │   ████████████ │
│   ████  ████   │   ⟶     │   █████████████│
│      ████      │          │        ████████│
│                │          │                │
│   已知数据区域  │          │   OOD区域(危险)│
└────────────────┘          └────────────────┘

3. 离线RL的两大目标

离线RL需要在两个目标之间权衡¹：

3.1 策略改进

学习一个优于行为策略的策略：

π_{θ} > π_{β}

其中 $π_{β}$ 是生成数据集的策略（行为策略）。

3.2 分布约束

避免策略偏离数据分布太远，防止OOD动作导致灾难性错误：

π (a ∣ s) \approx π_{β} (a ∣ s), \forall (s, a) \in D

3.3 权衡关系

策略改进 ↑                    分布偏离 ↓
    │                         │
    │      理想平衡点          │
    │         ●               │
    │        /│\              │
    │       / │ \             │
    │      /  │  \            │
    │     /   │   \           │
    └────●────●────●───────────┘
         ↑    ↑    ↑
      保守    平衡   激进

4. 核心算法分类

离线RL算法主要分为以下几类：

4.1 行为克隆与策略约束方法

直接约束策略与行为策略的相似度：

Behavior Cloning (BC)：纯模仿学习，性能受限于数据集
TD3+BC²：在TD3基础上加入BC正则项
Critic Regularized Regression (CRR)：基于优势函数的加权BC

4.2 悲观主义方法

通过惩罚OOD动作的值估计：

Conservative Q-Learning (CQL)³：惩罚高估的Q值
Implicit Q-Learning (IQL)⁴：避免显式评估OOD动作
Pessimistic PDENF：基于粒子网络的悲观估计

4.3 基于模型的方法

学习环境的动力学模型：

MOPO⁵：基于模型的离线策略优化
COMBO⁶：结合模型不确定性量化的悲观方法

4.4 序列建模方法

将RL问题转化为序列建模：

Decision Transformer⁷：使用Transformer建模轨迹
Trajectory Transformer：基于GPT的轨迹生成

5. 理论基础：Bellman完备性

离线RL的理论分析引入了**Bellman完备性（Bellman-Completeness）**假设⁸：

5.1 定义

一个值函数类 $F$ 是Bellman完备的，当且仅当对于所有 $f \in F$ ：

T f \in F

其中 $T$ 是Bellman算子。

5.2 意义

如果真实Q函数属于 $F$ ，则离线学习是可行的
如果不满足，则无论算法如何设计，都无法保证学习到好策略

6. 应用场景

6.1 机器人控制

利用人类演示数据学习操作策略
避免真实机器人上的破坏性探索

6.2 自动驾驶

从驾驶日志中学习决策策略
处理罕见危险场景

6.3 医疗决策

从历史治疗记录中学习最优治疗方案
确保患者安全

6.4 推荐系统

从用户行为日志中优化推荐策略
平衡探索与利用

7. Benchmark数据集

D4RL（Datasets for Deep Data-Driven Reinforcement Learning）是最常用的离线RL基准：

环境	特点
MuJoCo Locomotion	机器人运动任务，medium/expert/replay数据
AntMaze	迷宫导航，需要多步推理
Kitchen	机器人厨房任务，部分可观测
Adroit	灵巧操作任务，数据稀少

8. 参考文献

Kumar et al. “Conservative Q-Learning for Offline Reinforcement Learning” (NeurIPS 2020) https://arxiv.org/abs/2006.04779 ↩
Fujimoto & Gu. “A Minimalist Approach to Offline Reinforcement Learning” (NeurIPS 2021) https://arxiv.org/abs/2106.06860 ↩
Kumar et al. “Conservative Q-Learning for Offline Reinforcement Learning” (NeurIPS 2020) ↩
Kostrikov et al. “Offline Reinforcement Learning with Implicit Q-Learning” (ICLR 2022) https://arxiv.org/abs/2110.06169 ↩
Yu et al. “MOPO: Model-based Offline Policy Optimization” (NeurIPS 2020) https://arxiv.org/abs/2005.13239 ↩
Yu et al. “COMBO: Conservative Offline Model-Based Policy Optimization” (NeurIPS 2021) https://arxiv.org/abs/2102.08363 ↩
Chen et al. “Decision Transformer: Reinforcement Learning via Sequence Modeling” (NeurIPS 2021) https://arxiv.org/abs/2106.01345 ↩
Chen & Jiang. “Offline Reinforcement Learning: Fundamental Barriers for Value Function Approximation” (COLT 2022) ↩

Metaphor

探索

离线强化学习简介

离线强化学习简介

1. 背景与定义

1.1 与在线RL的核心区别

2. 核心挑战：外推误差

2.1 Bootstrapping与分布偏移

2.2 三种数据约束类型

2.3 分布偏移的可视化

3. 离线RL的两大目标

3.1 策略改进

3.2 分布约束

3.3 权衡关系

4. 核心算法分类

4.1 行为克隆与策略约束方法

4.2 悲观主义方法

4.3 基于模型的方法

4.4 序列建模方法

5. 理论基础：Bellman完备性

5.1 定义

5.2 意义

6. 应用场景

6.1 机器人控制

6.2 自动驾驶

6.3 医疗决策

6.4 推荐系统

7. Benchmark数据集

8. 参考文献

关系图谱

目录

反向链接

Metaphor

探索

离线强化学习简介

离线强化学习简介

1. 背景与定义

1.1 与在线RL的核心区别

2. 核心挑战：外推误差

2.1 Bootstrapping与分布偏移

2.2 三种数据约束类型

2.3 分布偏移的可视化

3. 离线RL的两大目标

3.1 策略改进

3.2 分布约束

3.3 权衡关系

4. 核心算法分类

4.1 行为克隆与策略约束方法

4.2 悲观主义方法

4.3 基于模型的方法

4.4 序列建模方法

5. 理论基础：Bellman完备性

5.1 定义

5.2 意义

6. 应用场景

6.1 机器人控制

6.2 自动驾驶

6.3 医疗决策

6.4 推荐系统

7. Benchmark数据集

8. 参考文献

Footnotes

关系图谱

目录

反向链接