Federated Learning Fundamentals

1. 定义与背景

1.1 联邦学习的起源

联邦学习（Federated Learning, FL）由McMahan等人在2017年提出，旨在解决数据孤岛和隐私保护问题。其核心思想是：

“将模型送到数据所在的地方，而非将数据汇聚到模型所在的地方”

传统机器学习需要将分散在各地的数据收集到中央服务器进行训练，这面临：

隐私泄露风险：敏感数据在传输和存储过程中可能被攻击
通信带宽瓶颈：大规模数据的传输成本高昂
数据主权问题：各地数据法规限制数据跨境流动

1.2 联邦学习的形式化定义

设共有 $K$ 个客户端参与训练，每个客户端 $k$ 拥有本地数据集 $D_{k}$ ，目标是学习全局模型参数 $w$ ，使得全局目标函数最小化：

w min F (w) 其中 F (w) = k = 1 \sum K p_{k} \cdot F_{k} (w)

其中 $p_{k} = \frac{∣ D _{k} ∣}{\sum _{j} ∣ D _{j} ∣}$ 是客户端 $k$ 的权重， $F_{k} (w) = \frac{1}{∣ D _{k} ∣} \sum_{z \in D_{k}} f (w, z)$ 是客户端 $k$ 的本地经验风险。

1.3 联邦学习 vs 传统分布式学习

特性	传统分布式学习	联邦学习
数据分布	数据可集中存储	数据始终留在本地
节点可信度	通常可信	可能存在恶意节点
通信模式	高带宽、低延迟	低带宽、高延迟
数据异构性	通常IID	通常非IID
节点规模	数个-数十个	数百-数百万
系统异构性	环境一致	设备差异大

2. 联邦学习的核心挑战

2.1 统计异构性（Statistical Heterogeneity）

非独立同分布（Non-IID）数据是联邦学习面临的核心挑战。设 $P_{k}$ 为客户端 $k$ 的数据分布，理想情况下 $P_{k} = P$ 对所有 $k$ 成立。但在实际场景中：

特征分布偏移（Feature Distribution Skew）：不同客户端的特征分布不同
标签分布偏移（Label Distribution Skew）：不同客户端的标签分布不同
数量偏移（Quantity Skew）：不同客户端的数据量差异巨大
同步偏移（Temporal Skew）：数据随时间变化

非IID数据会导致：

客户端漂移（Client Drift）：本地模型偏离全局最优
收敛困难：全局收敛速度下降甚至发散
性能下降：最终模型在某些客户端上表现不佳

2.2 系统异构性（System Heterogeneity）

异构类型	具体表现	影响
计算能力	不同设备的CPU/GPU性能差异	本地训练时间不一致
存储能力	可用内存和存储空间不同	限制模型规模
通信带宽	网络条件差异巨大	通信成为瓶颈
连接稳定性	设备可能随时离线	部分设备无法参与
电池状态	移动设备电池有限	影响参与意愿

2.3 隐私与安全挑战

2.3.1 隐私泄露风险

即使只上传模型参数，攻击者仍可通过以下方式获取隐私信息：

梯度反演攻击（Gradient Inversion Attack）
- 通过上传的梯度重建原始训练数据
- Zhu等人在2019年证明可以100%恢复原始图像
成员推断攻击（Membership Inference Attack）
- 判断某样本是否参与训练
- 利用模型对训练数据的”记忆”
模型反演攻击（Model Inversion Attack）
- 从模型参数恢复敏感训练数据

2.3.2 恶意攻击

拜占庭攻击（Byzantine Attack）
- 恶意客户端上传任意错误的模型更新
- 可导致全局模型完全失效
后门攻击（Backdoor Attack）
- 在模型中植入隐藏的后门
- 在特定输入下触发恶意行为
模型投毒（Model Poisoning）
- 通过修改本地模型影响全局模型
- 可与拜占庭攻击结合

2.4 通信效率挑战

联邦学习中通信是主要瓶颈：

模型参数量可达数十亿
通信轮次可能需要数千次
移动设备带宽有限且不稳定

3. 联邦学习的分类体系

3.1 按数据分区方式

联邦学习
├── 水平联邦学习 (Horizontal FL)
│   ├── 各方拥有相同特征，不同样本
│   └── 场景：跨银行、跨医院的联合建模
│
├── 垂直联邦学习 (Vertical FL)
│   ├── 各方拥有相同样本，不同特征
│   └── 场景：银行+电商联合建模
│
└── 联邦迁移学习 (Federated Transfer Learning)
    ├── 各方样本和特征都部分重叠
    └── 场景：跨领域知识迁移

3.2 按网络拓扑结构

拓扑类型	特点	典型场景
中心化FL	中心服务器协调	传统FL场景
去中心化FL	点对点通信	分布式网络
分层FL	多级聚合	大规模部署
星型拓扑	中心-边缘结构	物联网场景

3.3 按参与方式

参与方式	描述	优缺点
全量参与	所有客户端每轮都参与	收敛稳定，但通信开销大
随机抽样	每轮随机选择部分客户端	通信高效，但方差大
分层抽样	按能力分层，层内随机	平衡效率与质量
基于重要性	选择”重要”客户端	可加速收敛，但需先验知识

4. 联邦学习的基本流程

4.1 标准FedAvg算法流程

def FedAvg(K, T, η):
    """
    K: 客户端数量
    T: 总通信轮次
    η: 学习率
    """
    w_0 = 初始化全局模型
    
    for t in range(T):
        # 1. 服务器选择客户端子集 S_t
        S_t = select_clients(K, fraction=C)
        
        # 2. 服务器向选中客户端分发当前模型
        for k in S_t:
            send(w_t to client k)
        
        # 3. 各客户端执行本地训练
        for k in S_t:
            w_{t+1}^k = 本地训练(w_t, D_k, η)
        
        # 4. 客户端上传本地更新
        for k in S_t:
            Δ_k = w_{t+1}^k - w_t
            upload(Δ_k to server)
        
        # 5. 服务器聚合更新
        w_{t+1} = w_t + Σ_{k∈S_t} (n_k/n) * Δ_k
    
    return w_T

4.2 单轮通信的详细过程

┌─────────────────────────────────────────────────────────────┐
│                     服务器端                                 │
│  ┌──────────┐    分发模型    ┌──────────┐                 │
│  │ w_t      │ ────────────▶ │ Client 1 │                 │
│  └──────────┘               └──────────┘                 │
│       ▲                          │                        │
│       │                          │ 本地训练                │
│       │                          ▼                        │
│       │                     ┌──────────┐                 │
│       │                     │ w_t+1^1  │                 │
│       │                     └──────────┘                 │
│       │                          │                        │
│       │                     上传更新                      │
│       │                          │                        │
│       └──────────────────────────┘                        │
│                    聚合更新                                 │
└─────────────────────────────────────────────────────────────┘

4.3 本地训练的具体实现

def local_train(w, D_k, η, E):
    """
    w: 接收到的全局模型
    D_k: 客户端k的本地数据
    η: 学习率
    E: 本地epoch数
    """
    for epoch in range(E):
        for batch in DataLoader(D_k):
            # 计算梯度
            g = ∇F_k(w, batch)
            # 更新本地模型
            w = w - η * g
    return w

5. 联邦学习的评估指标

5.1 模型性能指标

指标	定义	适用场景
测试准确率	全局模型在测试集上的准确率	分类任务
AUC-ROC	曲线下面积	分类任务
MSE/MAE	均方/绝对误差	回归任务
困惑度	语言模型性能	NLP任务

5.2 效率指标

指标	定义	优化目标
通信轮次	达到目标性能所需的通信次数	越少越好
通信成本	每轮传输的数据量	越小越好
本地计算量	客户端本地计算量	根据设备能力
收敛速度	随轮次的性能提升	越快越好

5.3 隐私与安全指标

指标	定义	衡量标准
隐私预算	ε-δ差分隐私参数	越小越隐私
攻击成功率	攻击者成功窃取信息的概率	越低越好
鲁棒性	对恶意攻击的抵抗力	越强越好

6. 联邦学习的应用场景

6.1 移动端应用

应用	数据来源	隐私保护需求
Gboard输入法	用户打字习惯	保护输入隐私
健康App	用户健康数据	医疗隐私法规
个性化推荐	用户行为数据	商业机密保护

6.2 医疗健康

跨医院联合诊断：多家医院联合训练诊断模型
罕见病研究：汇聚稀缺病例数据
药物发现：加速新药研发

6.3 金融领域

反欺诈模型：银行间共享欺诈模式
信用评估：多源数据融合评估
量化投资：保护投资策略

6.4 物联网

智能家居：设备协同学习用户习惯
自动驾驶：车队共享驾驶经验
工业物联网：预测性维护

7. 与其他隐私保护技术的关系

7.1 联邦学习 vs 差分隐私

特性	联邦学习	差分隐私
保护对象	数据不离开本地	添加噪声保护单个记录
组合方式	可叠加使用	可在FL中使用DP
隐私保证	取决于实现	数学保证

7.2 联邦学习 vs 安全多方计算

特性	联邦学习	安全多方计算
计算方式	本地计算+参数聚合	密态计算
通信开销	模型参数通信	交互式协议
组合方式	可结合MPC	可在FL中使用MPC

7.3 三者结合

现代隐私保护系统通常采用多层防护：

数据隐私保护体系
├── 联邦学习：数据不出本地
├── 差分隐私：输出扰动保护
└── 安全多方计算：计算过程保护

8. 参考文献

9. 相关主题

fedavg-fedprox-algorithms — FedAvg与FedProx算法详解
federated-learning-non-iid-heterogeneity — 非IID数据问题
scaffold-fednova-algorithms — 方差缩减算法
personalized-federated-learning — 个性化联邦学习
federated-learning-privacy-dp — 差分隐私保护
byzantine-attacks-defense — 拜占庭攻击防御
secure-aggregation — 安全聚合协议

Metaphor

探索