离线强化学习

离线强化学习（Offline/Batch Reinforcement Learning）是指从预先收集的数据集中学习最优策略，无需与环境进行在线交互。

模块内容

核心概念

离线强化学习简介 — 基本概念、挑战、算法分类

算法详解

离线强化学习算法分类 — BC、CQL、IQL、TD3+BC、CRR等核心算法
Decision Transformer — 序列建模方法
基于模型的离线RL — MOPO、COMBO等

核心挑战

外推误差：值函数对未见过的状态-动作对的外推估计
分布偏移：策略与数据分布的差异
信用分配：从有限数据中学习最优策略

主要方法

类型	代表算法	核心思想
策略约束	TD3+BC, CRR	限制策略偏离行为策略
悲观主义	CQL, IQL	惩罚OOD动作的高估计
基于模型	MOPO, COMBO	学习动力学模型生成数据
序列建模	Decision Transformer	将RL建模为序列问题

参考文献

Kumar et al. “Conservative Q-Learning for Offline Reinforcement Learning” (NeurIPS 2020)
Kostrikov et al. “IQL” (ICLR 2022)
Chen et al. “Decision Transformer” (NeurIPS 2021)

此文件夹下有4条笔记。