多智能体强化学习

多智能体强化学习（MARL）研究多个智能体在共享环境中的协同决策问题。

模块内容

核心概念

多智能体强化学习简介 — 问题设置、分类体系、核心挑战

算法详解

MARL值函数分解 — VDN、QMIX、QTRAN等
MARL策略梯度方法 — COMA、MADDPG、MAVEN等
MARL通信与协调 — 显式/隐式通信、图神经网络

核心挑战

非平稳性：环境对单个智能体来说是变化的
信用分配：衡量每个智能体的贡献
协调问题：智能体间需要协调行动
维度灾难：联合动作空间指数增长

CTDE范式

中心化训练+去中心化执行（CTDE）是最流行的MARL范式：

训练时：可访问全局状态和所有动作
执行时：只能访问局部观察

主要方法

类型	代表算法	特点
值函数分解	VDN, QMIX, QTRAN	可分解联合Q函数
策略梯度	COMA, MADDPG	使用反事实基线
通信方法	DIAL, CommNet	学习通信协议

参考文献

Sunehag et al. “VDN” (AAMAS 2017)
Rashid et al. “QMIX” (ICML 2018)
Son et al. “QTRAN” (ICML 2019)
Foerster et al. “COMA” (AAAI 2018)

此文件夹下有4条笔记。