离线强化学习

离线强化学习(Offline/Batch Reinforcement Learning)是指从预先收集的数据集中学习最优策略,无需与环境进行在线交互。

模块内容

核心概念

算法详解

核心挑战

  1. 外推误差:值函数对未见过的状态-动作对的外推估计
  2. 分布偏移:策略与数据分布的差异
  3. 信用分配:从有限数据中学习最优策略

主要方法

类型代表算法核心思想
策略约束TD3+BC, CRR限制策略偏离行为策略
悲观主义CQL, IQL惩罚OOD动作的高估计
基于模型MOPO, COMBO学习动力学模型生成数据
序列建模Decision Transformer将RL建模为序列问题

参考文献

  • Kumar et al. “Conservative Q-Learning for Offline Reinforcement Learning” (NeurIPS 2020)
  • Kostrikov et al. “IQL” (ICLR 2022)
  • Chen et al. “Decision Transformer” (NeurIPS 2021)