概述

欢迎来到多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)专题。本专题系统整理了从基础理论到前沿应用的完整知识体系,涵盖合作、竞争和混合博弈场景。

内容导航

团队竞争博弈与均衡学习

文件描述
团队竞争博弈与全局Nash均衡团队竞争博弈(Team Competitive Games)的定义与均衡学习算法
凸马尔可夫博弈凸马尔可夫博弈的数学框架与求解方法
K-Level策略梯度递归对手建模与Level-K博弈理论

策略推理与通信协议

文件描述
涌现通信协议从信号游戏到自然语言的涌现通信机制
MARL通信与协调显式/隐式通信、图神经网络在协调中的应用
深度元协调图可学习的协调图结构与图神经网络
涌现协调相变结构协调行为的涌现机制与相变分析

可扩展MARL算法

文件描述
可扩展MARL与Transformer序列模型架构、Oryx框架、新基准测试
TAAC团队注意力Actor-Critic团队协作的注意力机制设计
LLM驱动的多智能体协调大语言模型赋能的智能协调
Oryx可扩展序列MARL基于Transformer的大规模MARL

算法基础

文件描述
MARL基础问题设置、分类体系、核心挑战
MARL值分解VDN、QMIX、QTRAN等值函数分解方法
MARL策略梯度COMA、MADDPG等策略梯度方法

学习路径建议

入门路径

基础理论
│
├─→ 1. 强化学习基础
│     ├─→ [[../reinforcement-learning/mdp-basics|MDP基础]]
│     ├─→ [[../reinforcement-learning/bellman-equations|贝尔曼方程]]
│     └─→ [[../reinforcement-learning/policy-gradient|策略梯度]]
│
├─→ 2. MARL入门
│     ├─→ [[multi-agent-rl-introduction|MARL基础]]
│     └─→ [[marl-value-factorization|值分解基础]]
│
└─→ 3. 经典算法
      ├─→ [[marl-policy-gradient|策略梯度MARL]]
      └─→ [[marl-communication|通信协议]]

进阶路径

合作博弈深化
│
├─→ 1. CTDE范式
│     ├─→ [[marl-value-factorization|VDN/QMIX深入理解]]
│     └─→ [[team-competition-global-nash|全局Nash均衡]]
│
├─→ 2. 协调机制
│     ├─→ [[deep-meta-coordination-graphs|协调图学习]]
│     └─→ [[emergent-coordination-phase-structure|涌现协调]]
│
├─→ 3. 通信与协作
│     ├─→ [[emergent-communication-protocols|涌现通信]]
│     └─→ [[llm-driven-multi-agent-coordination|LLM协调]]
│
└─→ 4. 规模化
      └─→ [[scalable-multi-agent-rl-transformers|Transformer MARL]]

研究前沿路径

前沿专题
│
├─→ 1. 理论基础
│     ├─→ [[convex-markov-games|凸博弈理论]]
│     └─→ [[k-level-policy-gradients|Level-K推理]]
│
├─→ 2. 架构创新
│     ├─→ [[oryx-scalable-multi-agent-sequence|Oryx框架]]
│     └─→ [[taac-team-attention-actor-critic|团队注意力]]
│
├─→ 3. 通信涌现
│     └─→ [[emergent-communication-protocols|语言涌现]]
│
└─→ 4. 实践应用
      └─→ [[../reinforcement-learning/index|RLHF与对齐]](跨领域)

核心概念速查表

博弈论基础

概念英文定义
马尔可夫博弈Markov Game多智能体MDP的扩展,个智能体共享状态转移
纳什均衡Nash Equilibrium无智能体能通过单方面改变策略获益
全局Nash均衡Global Nash Equilibrium所有智能体联合最优的均衡概念
斯塔克尔伯格均衡Stackelberg Equilibrium存在领导-跟随者层次结构的均衡
相关均衡Correlated Equilibrium协调者可以建议动作的弱均衡概念
team gameTeam Game同一团队的智能体共享奖励

马尔可夫博弈的形式化

一个 智能体的马尔可夫博弈定义为:

  • :联合状态空间
  • :智能体 的动作空间
  • :转移概率
  • :智能体 的奖励

MARL算法分类

按学习范式

类型代表算法特点
独立学习IQL, IA2C各智能体独立学习,非平稳环境
完全合作VDN, QMIX, QTRAN共享团队奖励
完全竞争Minimax-Q, Nash-Q零和博弈
混合博弈Nash-Q, WoLF-ICQ一般和博弈

按架构范式

范式全称说明
CTDECentralized Training, Decentralized Execution训练时全局信息,执行时局部观察
CDMCentralized Decision中央化决策,单一控制器
DDMDistributed Decision完全分布式决策

CTDE方法详解

┌─────────────────────────────────────────────┐
│              训练阶段(可访问全局信息)          │
│                                              │
│  ┌─────────┐    ┌─────────┐    ┌─────────┐  │
│  │ Agent 1 │    │ Agent 2 │... │ Agent N │  │
│  │ Q₁(s,a) │    │ Q₂(s,a) │    │ Qₙ(s,a) │  │
│  └────┬────┘    └────┬────┘    └────┬────┘  │
│       │              │              │        │
│       └──────────────┼──────────────┘        │
│                      ▼                        │
│              ┌─────────────┐                  │
│              │  Mixer Network │ ← QMIX/QTRAN  │
│              └─────────────┘                  │
└─────────────────────────────────────────────┘
                      │
                      ▼ 训练完成
┌─────────────────────────────────────────────┐
│              执行阶段(仅局部观察)              │
│                                              │
│  ┌─────────┐    ┌─────────┐    ┌─────────┐  │
│  │ Agent 1 │    │ Agent 2 │... │ Agent N │  │
│  │ Q₁(o₁,a₁)│   │ Q₂(o₂,a₂)│   │ Qₙ(oₙ,aₙ)│  │
│  └─────────┘    └─────────┘    └─────────┘  │
└─────────────────────────────────────────────┘

关键定理

1. 值函数分解定理(VDN)

可加性条件:如果满足:

则团队奖励的最优可以通过独立优化每个 获得。

2. QMIX单调性条件

如果存在单调混合器 使得:

则可以保证IGM(Individual-Global-Max)一致性。

3. 弗里斯比-卢卡斯定理(Multi-Agent Generalization)

多智能体设置下的泛化误差界:

其中 是智能体数, 是复杂度度量, 是样本数。


核心公式速查表

FCP迭代公式

Fully Cooperative Policy (FCP) 迭代用于求解团队博弈的纳什均衡:

固定点条件

cMG目标函数

合作马尔可夫博弈(cooperative Markov Game, cMG)的目标:

梯度公式(智能体 ):

K-Level梯度

K-Level递归对手建模的梯度:

其中:

  • Level-0:随机策略
  • Level-1:假设对手随机
  • Level-K:假设对手是Level-(K-1)

相关主题链接

强化学习基础

链接描述
MDP基础马尔可夫决策过程入门
贝尔曼方程动态规划基础
策略梯度单智能体策略优化
Actor-Critic策略-价值混合框架

MARL进阶

链接描述
基本MARL问题定义与分类
基于价值的MARLQ-Learning扩展
策略梯度MARLPG方法扩展

博弈论

链接描述
凸马尔可夫博弈合作博弈的凸分析
K-Level推理博弈论视角的递归建模

通信与协调

链接描述
MARL通信显式/隐式通信
涌现通信语言涌现研究

可扩展学习

链接描述
Transformer MARL大规模MARL
Oryx序列MARL框架

附录

术语表

英文中文说明
Multi-Agent RL (MARL)多智能体强化学习多个智能体同时学习的RL
Centralized Training Decentralized Execution (CTDE)中心化训练去中心化执行训练利用全局信息,执行只用局部观察
Individual-Global-Max (IGM)个体-全局最大一致性局部最优动作的argmax等于全局最优
Value Factorization值分解将联合Q函数分解为独立Q函数
Credit Assignment信用分配衡量个体对团队的贡献
Coordination Graph协调图表示智能体间依赖关系的图结构
Nash Equilibrium纳什均衡博弈中的稳定状态
Stackelberg Game斯塔克尔伯格博弈领导-跟随者博弈结构
Emergent Communication涌现通信从交互中自发产生的通信协议
Level-K ReasoningLevel-K推理递归对手建模

常用环境

环境类型说明
Multi-Agent Particle Env (MPE)合作/竞争粒子环境基准
StarCraft II (SMAC)合作微管理任务
Hanabi合作不完全信息纸牌游戏
Grounded Communication合作视觉语言导航
Overcooked合作厨房协调任务
MaMuJoCo合作多机械臂控制

论文推荐

经典工作

年份论文会议影响
2017VDNAAMAS值分解奠基工作
2018QMIXICMLmonotonic mixing
2018COMAAAAIcounterfactual baseline
2019QTRANICML理论上保证IGM
2019MADDPGNeurIPS连续动作MARL

前沿工作

年份论文会议贡献
2024OryxNeurIPSTransformer MARL
2025TAACICLR团队注意力
2025Emergent ProtocolsICML语言涌现
2025Scalable MARLICLR规模化理论

参考

此文件夹下有14条笔记。