概述
欢迎来到多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)专题。本专题系统整理了从基础理论到前沿应用的完整知识体系,涵盖合作、竞争和混合博弈场景。
内容导航
团队竞争博弈与均衡学习
| 文件 | 描述 |
|---|---|
| 团队竞争博弈与全局Nash均衡 | 团队竞争博弈(Team Competitive Games)的定义与均衡学习算法 |
| 凸马尔可夫博弈 | 凸马尔可夫博弈的数学框架与求解方法 |
| K-Level策略梯度 | 递归对手建模与Level-K博弈理论 |
策略推理与通信协议
可扩展MARL算法
| 文件 | 描述 |
|---|---|
| 可扩展MARL与Transformer | 序列模型架构、Oryx框架、新基准测试 |
| TAAC团队注意力Actor-Critic | 团队协作的注意力机制设计 |
| LLM驱动的多智能体协调 | 大语言模型赋能的智能协调 |
| Oryx可扩展序列MARL | 基于Transformer的大规模MARL |
算法基础
学习路径建议
入门路径
基础理论
│
├─→ 1. 强化学习基础
│ ├─→ [[../reinforcement-learning/mdp-basics|MDP基础]]
│ ├─→ [[../reinforcement-learning/bellman-equations|贝尔曼方程]]
│ └─→ [[../reinforcement-learning/policy-gradient|策略梯度]]
│
├─→ 2. MARL入门
│ ├─→ [[multi-agent-rl-introduction|MARL基础]]
│ └─→ [[marl-value-factorization|值分解基础]]
│
└─→ 3. 经典算法
├─→ [[marl-policy-gradient|策略梯度MARL]]
└─→ [[marl-communication|通信协议]]
进阶路径
合作博弈深化
│
├─→ 1. CTDE范式
│ ├─→ [[marl-value-factorization|VDN/QMIX深入理解]]
│ └─→ [[team-competition-global-nash|全局Nash均衡]]
│
├─→ 2. 协调机制
│ ├─→ [[deep-meta-coordination-graphs|协调图学习]]
│ └─→ [[emergent-coordination-phase-structure|涌现协调]]
│
├─→ 3. 通信与协作
│ ├─→ [[emergent-communication-protocols|涌现通信]]
│ └─→ [[llm-driven-multi-agent-coordination|LLM协调]]
│
└─→ 4. 规模化
└─→ [[scalable-multi-agent-rl-transformers|Transformer MARL]]
研究前沿路径
前沿专题
│
├─→ 1. 理论基础
│ ├─→ [[convex-markov-games|凸博弈理论]]
│ └─→ [[k-level-policy-gradients|Level-K推理]]
│
├─→ 2. 架构创新
│ ├─→ [[oryx-scalable-multi-agent-sequence|Oryx框架]]
│ └─→ [[taac-team-attention-actor-critic|团队注意力]]
│
├─→ 3. 通信涌现
│ └─→ [[emergent-communication-protocols|语言涌现]]
│
└─→ 4. 实践应用
└─→ [[../reinforcement-learning/index|RLHF与对齐]](跨领域)
核心概念速查表
博弈论基础
| 概念 | 英文 | 定义 |
|---|---|---|
| 马尔可夫博弈 | Markov Game | 多智能体MDP的扩展,个智能体共享状态转移 |
| 纳什均衡 | Nash Equilibrium | 无智能体能通过单方面改变策略获益 |
| 全局Nash均衡 | Global Nash Equilibrium | 所有智能体联合最优的均衡概念 |
| 斯塔克尔伯格均衡 | Stackelberg Equilibrium | 存在领导-跟随者层次结构的均衡 |
| 相关均衡 | Correlated Equilibrium | 协调者可以建议动作的弱均衡概念 |
| team game | Team Game | 同一团队的智能体共享奖励 |
马尔可夫博弈的形式化
一个 智能体的马尔可夫博弈定义为:
- :联合状态空间
- :智能体 的动作空间
- :转移概率
- :智能体 的奖励
MARL算法分类
按学习范式
| 类型 | 代表算法 | 特点 |
|---|---|---|
| 独立学习 | IQL, IA2C | 各智能体独立学习,非平稳环境 |
| 完全合作 | VDN, QMIX, QTRAN | 共享团队奖励 |
| 完全竞争 | Minimax-Q, Nash-Q | 零和博弈 |
| 混合博弈 | Nash-Q, WoLF-ICQ | 一般和博弈 |
按架构范式
| 范式 | 全称 | 说明 |
|---|---|---|
| CTDE | Centralized Training, Decentralized Execution | 训练时全局信息,执行时局部观察 |
| CDM | Centralized Decision | 中央化决策,单一控制器 |
| DDM | Distributed Decision | 完全分布式决策 |
CTDE方法详解
┌─────────────────────────────────────────────┐
│ 训练阶段(可访问全局信息) │
│ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ Agent 1 │ │ Agent 2 │... │ Agent N │ │
│ │ Q₁(s,a) │ │ Q₂(s,a) │ │ Qₙ(s,a) │ │
│ └────┬────┘ └────┬────┘ └────┬────┘ │
│ │ │ │ │
│ └──────────────┼──────────────┘ │
│ ▼ │
│ ┌─────────────┐ │
│ │ Mixer Network │ ← QMIX/QTRAN │
│ └─────────────┘ │
└─────────────────────────────────────────────┘
│
▼ 训练完成
┌─────────────────────────────────────────────┐
│ 执行阶段(仅局部观察) │
│ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ Agent 1 │ │ Agent 2 │... │ Agent N │ │
│ │ Q₁(o₁,a₁)│ │ Q₂(o₂,a₂)│ │ Qₙ(oₙ,aₙ)│ │
│ └─────────┘ └─────────┘ └─────────┘ │
└─────────────────────────────────────────────┘
关键定理
1. 值函数分解定理(VDN)
可加性条件:如果满足:
则团队奖励的最优可以通过独立优化每个 获得。
2. QMIX单调性条件
如果存在单调混合器 使得:
则可以保证IGM(Individual-Global-Max)一致性。
3. 弗里斯比-卢卡斯定理(Multi-Agent Generalization)
多智能体设置下的泛化误差界:
其中 是智能体数, 是复杂度度量, 是样本数。
核心公式速查表
FCP迭代公式
Fully Cooperative Policy (FCP) 迭代用于求解团队博弈的纳什均衡:
固定点条件:
cMG目标函数
合作马尔可夫博弈(cooperative Markov Game, cMG)的目标:
梯度公式(智能体 ):
K-Level梯度
K-Level递归对手建模的梯度:
其中:
- Level-0:随机策略
- Level-1:假设对手随机
- Level-K:假设对手是Level-(K-1)
相关主题链接
强化学习基础
| 链接 | 描述 |
|---|---|
| MDP基础 | 马尔可夫决策过程入门 |
| 贝尔曼方程 | 动态规划基础 |
| 策略梯度 | 单智能体策略优化 |
| Actor-Critic | 策略-价值混合框架 |
MARL进阶
博弈论
通信与协调
可扩展学习
| 链接 | 描述 |
|---|---|
| Transformer MARL | 大规模MARL |
| Oryx | 序列MARL框架 |
附录
术语表
| 英文 | 中文 | 说明 |
|---|---|---|
| Multi-Agent RL (MARL) | 多智能体强化学习 | 多个智能体同时学习的RL |
| Centralized Training Decentralized Execution (CTDE) | 中心化训练去中心化执行 | 训练利用全局信息,执行只用局部观察 |
| Individual-Global-Max (IGM) | 个体-全局最大一致性 | 局部最优动作的argmax等于全局最优 |
| Value Factorization | 值分解 | 将联合Q函数分解为独立Q函数 |
| Credit Assignment | 信用分配 | 衡量个体对团队的贡献 |
| Coordination Graph | 协调图 | 表示智能体间依赖关系的图结构 |
| Nash Equilibrium | 纳什均衡 | 博弈中的稳定状态 |
| Stackelberg Game | 斯塔克尔伯格博弈 | 领导-跟随者博弈结构 |
| Emergent Communication | 涌现通信 | 从交互中自发产生的通信协议 |
| Level-K Reasoning | Level-K推理 | 递归对手建模 |
常用环境
| 环境 | 类型 | 说明 |
|---|---|---|
| Multi-Agent Particle Env (MPE) | 合作/竞争 | 粒子环境基准 |
| StarCraft II (SMAC) | 合作 | 微管理任务 |
| Hanabi | 合作 | 不完全信息纸牌游戏 |
| Grounded Communication | 合作 | 视觉语言导航 |
| Overcooked | 合作 | 厨房协调任务 |
| MaMuJoCo | 合作 | 多机械臂控制 |
论文推荐
经典工作
| 年份 | 论文 | 会议 | 影响 |
|---|---|---|---|
| 2017 | VDN | AAMAS | 值分解奠基工作 |
| 2018 | QMIX | ICML | monotonic mixing |
| 2018 | COMA | AAAI | counterfactual baseline |
| 2019 | QTRAN | ICML | 理论上保证IGM |
| 2019 | MADDPG | NeurIPS | 连续动作MARL |
前沿工作
| 年份 | 论文 | 会议 | 贡献 |
|---|---|---|---|
| 2024 | Oryx | NeurIPS | Transformer MARL |
| 2025 | TAAC | ICLR | 团队注意力 |
| 2025 | Emergent Protocols | ICML | 语言涌现 |
| 2025 | Scalable MARL | ICLR | 规模化理论 |