离线强化学习
离线强化学习(Offline/Batch Reinforcement Learning)是指从预先收集的数据集中学习最优策略,无需与环境进行在线交互。
模块内容
核心概念
- 离线强化学习简介 — 基本概念、挑战、算法分类
算法详解
- 离线强化学习算法分类 — BC、CQL、IQL、TD3+BC、CRR等核心算法
- Decision Transformer — 序列建模方法
- 基于模型的离线RL — MOPO、COMBO等
核心挑战
- 外推误差:值函数对未见过的状态-动作对的外推估计
- 分布偏移:策略与数据分布的差异
- 信用分配:从有限数据中学习最优策略
主要方法
| 类型 | 代表算法 | 核心思想 |
|---|---|---|
| 策略约束 | TD3+BC, CRR | 限制策略偏离行为策略 |
| 悲观主义 | CQL, IQL | 惩罚OOD动作的高估计 |
| 基于模型 | MOPO, COMBO | 学习动力学模型生成数据 |
| 序列建模 | Decision Transformer | 将RL建模为序列问题 |
参考文献
- Kumar et al. “Conservative Q-Learning for Offline Reinforcement Learning” (NeurIPS 2020)
- Kostrikov et al. “IQL” (ICLR 2022)
- Chen et al. “Decision Transformer” (NeurIPS 2021)