多智能体强化学习
多智能体强化学习(MARL)研究多个智能体在共享环境中的协同决策问题。
模块内容
核心概念
- 多智能体强化学习简介 — 问题设置、分类体系、核心挑战
算法详解
- MARL值函数分解 — VDN、QMIX、QTRAN等
- MARL策略梯度方法 — COMA、MADDPG、MAVEN等
- MARL通信与协调 — 显式/隐式通信、图神经网络
核心挑战
- 非平稳性:环境对单个智能体来说是变化的
- 信用分配:衡量每个智能体的贡献
- 协调问题:智能体间需要协调行动
- 维度灾难:联合动作空间指数增长
CTDE范式
中心化训练+去中心化执行(CTDE)是最流行的MARL范式:
- 训练时:可访问全局状态和所有动作
- 执行时:只能访问局部观察
主要方法
| 类型 | 代表算法 | 特点 |
|---|---|---|
| 值函数分解 | VDN, QMIX, QTRAN | 可分解联合Q函数 |
| 策略梯度 | COMA, MADDPG | 使用反事实基线 |
| 通信方法 | DIAL, CommNet | 学习通信协议 |
参考文献
- Sunehag et al. “VDN” (AAMAS 2017)
- Rashid et al. “QMIX” (ICML 2018)
- Son et al. “QTRAN” (ICML 2019)
- Foerster et al. “COMA” (AAAI 2018)