多智能体强化学习

多智能体强化学习(MARL)研究多个智能体在共享环境中的协同决策问题。

模块内容

核心概念

算法详解

核心挑战

  1. 非平稳性:环境对单个智能体来说是变化的
  2. 信用分配:衡量每个智能体的贡献
  3. 协调问题:智能体间需要协调行动
  4. 维度灾难:联合动作空间指数增长

CTDE范式

中心化训练+去中心化执行(CTDE)是最流行的MARL范式:

  • 训练时:可访问全局状态和所有动作
  • 执行时:只能访问局部观察

主要方法

类型代表算法特点
值函数分解VDN, QMIX, QTRAN可分解联合Q函数
策略梯度COMA, MADDPG使用反事实基线
通信方法DIAL, CommNet学习通信协议

参考文献

  • Sunehag et al. “VDN” (AAMAS 2017)
  • Rashid et al. “QMIX” (ICML 2018)
  • Son et al. “QTRAN” (ICML 2019)
  • Foerster et al. “COMA” (AAAI 2018)