联邦学习基础

联邦学习（Federated Learning, FL）是一种去中心化机器学习范式，允许多个客户端（如移动设备、边缘节点或机构）在不集中敏感数据的情况下协作训练共享模型¹。这种去中心化方法解决了数据隐私、安全性和法规遵从性问题，使其在医疗、金融和智能物联网系统等领域特别有吸引力。

1. 核心思想与动机

1.1 传统集中式学习的局限

在传统集中式学习方法中，所有训练数据被收集到中央服务器进行模型训练。这种方法面临以下挑战：

隐私泄露风险：敏感数据（如医疗记录、金融信息）集中存储，容易成为攻击目标
通信开销巨大：将大量原始数据传输到中央服务器需要消耗大量带宽
法规限制：GDPR、HIPAA等法规限制了数据的集中处理

1.2 联邦学习的解决方案

联邦学习通过以下原则解决上述问题：

数据最小化：训练数据保留在本地设备上，只传输模型更新
本地计算：客户端在本地数据上执行训练，只分享模型参数更新
隐私保护：原始数据永不离开客户端，只有聚焦的更新被传输

联邦学习的通用流程如下：

w min k = 1 \sum K \frac{n _{k}}{n} L_{k} (w)

其中 $L_{k} (w)$ 是第 $k$ 个客户端的本地损失函数。

2. FedAvg算法详解

Federated Averaging（FedAvg）算法是联邦学习的基础算法，由McMahan等人于2017年提出¹。

2.1 算法流程

算法1：FedAvg

服务器端：
1. 初始化全局模型参数 w₀
2. 对于每轮 t = 1, 2, ...:
   a. 选择一组客户端 Cₜ
   b. 对于每个客户端 k ∈ Cₜ:
      - 发送当前全局模型 wₜ
      - 接收客户端更新 wₜ₊₁ᵏ
   c. 聚合更新：wₜ₊₁ = Σₖ (nₖ/n) wₜ₊₁ᵏ

客户端（对于每个 k ∈ Cₜ）:
1. 接收全局模型 wₜ
2. 本地训练 E 轮：
   for i in 1 to E:
     w = w - η ∇Lₖ(w)  # 本地梯度下降
3. 返回更新后的模型 wₜ₊₁ᵏ

2.2 数学表示

设 $w_{t}$ 为第 $t$ 轮的全局模型， $w_{t}^{k}$ 为客户端 $k$ 接收全局模型后的本地模型。客户端本地训练 $E$ 个epoch后：

w_{t + 1}^{k} = w_{t} - η e = 1 \sum E \nabla L_{k}^{(e)} (w_{t}^{(e - 1)})

服务器端聚合：

w_{t + 1} = k \in S_{t} \sum \frac{n _{k}}{n _{S}} w_{t + 1}^{k}

其中 $S_{t}$ 是第 $t$ 轮参与的客户端集合， $n_{k}$ 是客户端 $k$ 的样本数。

2.3 通信效率分析

FedAvg通过以下方式降低通信成本：

策略	效果
本地多轮更新	减少通信轮数 10-100×
部分参与	每轮只传输部分客户端更新
模型压缩	量化/稀疏化进一步减少开销

3. 客户端选择与参与策略

3.1 随机采样

最常见的策略是随机均匀采样：

P (选择客户端 k) = \frac{1}{K}

优势：保证聚合的无偏性
挑战：可能选择数据分布不具代表性的客户端

3.2 分层采样

基于预定义的分层（如设备类型、数据分布）进行采样：

P (选择客户端 k ∣ 属于层 l) = \frac{1}{∣ 层 l ∣}

适用场景：处理异构设备和大数据分布差异。

3.3 重要性采样

根据客户端数据量或历史贡献进行加权采样：

P (选择客户端 k) = \frac{n _{k}}{\sum _{j \in K} n _{j}}

其中 $n_{k}$ 是客户端 $k$ 的本地样本数。

4. 本地更新方法

4.1 随机梯度下降（SGD）

最基本的本地更新规则：

w_{t + 1}^{k} = w_{t} - η \nabla L_{k} (w_{t})

其中 $η$ 是学习率， $L_{k}$ 是客户端 $k$ 的本地损失函数。

4.2 自适应优化器

在本地训练中使用Adam等自适应优化器：

# 客户端本地训练示例
def local_train(client_model, local_data, lr=0.01, epochs=5):
    optimizer = torch.optim.Adam(client_model.parameters(), lr=lr)
    for epoch in range(epochs):
        for batch in local_data:
            optimizer.zero_grad()
            loss = compute_loss(client_model, batch)
            loss.backward()
            optimizer.step()
    return client_model.state_dict()

4.3 邻近项正则化（Proximal Term）

为处理非IID数据，引入邻近项正则化：

w_{t + 1}^{k} = w_{t} - η \nabla L_{k} (w_{t}) - η ρ (w_{t} - w_{t - 1})

其中 $ρ$ 是邻近项系数，用于约束本地模型不过分偏离全局模型。

5. 非IID数据挑战

5.1 IID vs Non-IID假设

IID（独立同分布）：

所有客户端数据来自相同分布
$P_{data} = P_{1} = P_{2} = \dots = P_{K}$

Non-IID（非独立同分布）：

各客户端数据分布不同
$P_{k} (x, y) \neq = P_{j} (x, y)$ for $k \neq = j$

5.2 Non-IID数据的影响

非IID数据会导致客户端漂移（Client Drift）：

∥ w_{t}^{k} - w^{*} ∥ \geq ∥ w^{*} - w_{t} ∥

其中 $w^{*}$ 是全局最优解。客户端漂移导致：

收敛速度下降
模型性能退化（精度下降可达29%）
极端情况下可能无法收敛

5.3 数据异质性类型

类型	描述	影响程度
标签偏斜	每个客户端只有部分类别的数据	最严重
特征偏斜	不同客户端的特征分布不同	中等
数量偏斜	各客户端数据量差异大	较小
时空偏斜	数据随时间和空间变化	较严重

6. 联邦学习设置

6.1 Cross-device设置

适用于大规模移动设备和物联网场景：

客户端数量：数千到数百万
参与率：通常1-10%
特点：
- 无状态客户端
- 约束设备和网络条件
- 需要处理客户端掉线

6.2 Cross-silo设置

适用于机构间合作（如医院、银行）：

客户端数量：数十到数百
参与率：通常接近100%
特点：
- 有状态客户端
- 数据分布极端不均衡
- 需要更强的隐私保证

7. 通信效率优化

7.1 梯度压缩

通过量化或稀疏化减少通信量：

# Top-K稀疏化示例
def top_k_sparsify(gradient, sparsity=0.9):
    """保留最大的k个元素，其余置零"""
    k = int(len(gradient) * (1 - sparsity))
    indices = torch.argsort(torch.abs(gradient))[-k:]
    sparse_grad = torch.zeros_like(gradient)
    sparse_grad[indices] = gradient[indices]
    return sparse_grad

7.2 量化方法

方法	压缩比	精度损失
二值化	32×	较高
ternarize	16-32×	中等
随机量化	4-8×	较低

7.3 本地训练+压缩结合

LoCoDL算法结合本地训练和压缩²：

双加速通信复杂度
适用于异构设置
支持多种无偏压缩器

8. 隐私与安全

8.1 固有隐私优势

联邦学习通过数据最小化提供固有隐私优势：

原始数据永不离开本地
只传输聚焦的模型更新
减少数据暴露面

8.2 额外隐私措施

技术	作用	开销
安全聚合（SecAgg）	隐藏个体更新	高
差分隐私（DP）	防止数据推断	中等
同态加密	密态计算	很高

9. 总结

联邦学习为隐私保护的分布式机器学习提供了强大框架。其核心挑战包括：

拜占庭攻击：恶意客户端可能上传伪造的模型更新
非IID数据：数据异质性导致客户端漂移和性能退化
通信效率：大规模部署的瓶颈
隐私泄露：模型更新仍可能泄露敏感信息

后续章节将深入探讨这些挑战及相应的解决方案。

参考资料

McMahan et al. “Communication-Efficient Learning of Deep Networks from Decentralized Data” (AISTATS 2017) ↩ ↩²
LoCoDL: “Communication-Efficient Distributed Learning with Local Training and Compression” (ICLR 2025) ↩

Metaphor

探索

Federated Learning Fundamentals

联邦学习基础

1. 核心思想与动机

1.1 传统集中式学习的局限

1.2 联邦学习的解决方案

2. FedAvg算法详解

2.1 算法流程

2.2 数学表示

2.3 通信效率分析

3. 客户端选择与参与策略

3.1 随机采样

3.2 分层采样

3.3 重要性采样

4. 本地更新方法

4.1 随机梯度下降（SGD）

4.2 自适应优化器

4.3 邻近项正则化（Proximal Term）

5. 非IID数据挑战

5.1 IID vs Non-IID假设

5.2 Non-IID数据的影响

5.3 数据异质性类型

6. 联邦学习设置

6.1 Cross-device设置

6.2 Cross-silo设置

7. 通信效率优化

7.1 梯度压缩

7.2 量化方法

7.3 本地训练+压缩结合

8. 隐私与安全

8.1 固有隐私优势

8.2 额外隐私措施

9. 总结

参考资料

关系图谱

目录

Metaphor

探索

Federated Learning Fundamentals

联邦学习基础

1. 核心思想与动机

1.1 传统集中式学习的局限

1.2 联邦学习的解决方案

2. FedAvg算法详解

2.1 算法流程

2.2 数学表示

2.3 通信效率分析

3. 客户端选择与参与策略

3.1 随机采样

3.2 分层采样

3.3 重要性采样

4. 本地更新方法

4.1 随机梯度下降（SGD）

4.2 自适应优化器

4.3 邻近项正则化（Proximal Term）

5. 非IID数据挑战

5.1 IID vs Non-IID假设

5.2 Non-IID数据的影响

5.3 数据异质性类型

6. 联邦学习设置

6.1 Cross-device设置

6.2 Cross-silo设置

7. 通信效率优化

7.1 梯度压缩

7.2 量化方法

7.3 本地训练+压缩结合

8. 隐私与安全

8.1 固有隐私优势

8.2 额外隐私措施

9. 总结

参考资料

Footnotes

关系图谱

目录