联邦学习非IID数据处理策略

非IID（非独立同分布）数据是联邦学习面临的最核心挑战之一。在实际应用中，不同客户端的数据往往来自不同的分布，这导致传统的联邦平均算法性能显著下降。本章系统性地分析非IID数据的类型、影响机制和应对策略。

1. 非IID数据深度分析

1.1 数据异质性分类

联邦学习中的数据异质性可分为以下几种类型¹：

标签偏斜（Label Skew）

最严重的异质性类型。设 $Y$ 为标签空间，客户端 $k$ 只拥有部分类别的数据：

Y_{k} \subset Y, Y_{k} \neq = Y

例如：用户A只有猫的图片，用户B只有狗的图片。

Hellinger距离度量：

H (P, Q) = \frac{1}{2} y \in Y \sum (P (y) - Q (y))^{2}

实验发现，当 $H > 0.5$ 时性能显著下降， $H > 0.75$ 时下降更为严重。

特征偏斜（Feature Skew）

不同客户端的特征分布不同，但标签分布可能相同：

P_{k} (X) \neq = P_{j} (X), P_{k} (Y ∣ X) = P_{j} (Y ∣ X)

例如：不同品牌的手机拍摄的照片具有不同的图像统计特性。

数量偏斜（Quantity Skew）

各客户端数据量差异巨大：

n_{k} ≫ n_{j} 或 n_{k} ≪ n_{j}

研究发现，数量偏斜对模型性能影响相对较小。

时空偏斜（Spatiotemporal Skew）

数据随时间和空间变化：

P_{k} (X, t) \neq = P_{k} (X, t^{'}), t \neq = t^{'}

例如：不同地区的用户行为模式随季节变化。

1.2 客户端漂移（Client Drift）

非IID数据导致的核心问题是客户端漂移。

数学定义

设 $w^{*}$ 为全局最优解， $w_{t}^{k}$ 为第 $t$ 轮客户端 $k$ 的本地模型。客户端漂移定义为：

Δ w_{t}^{k} = w_{t}^{k} - w_{t}

在非IID条件下：

∥Δ w_{t}^{k} ∥ \geq \frac{η L}{1 - ρ} ∥\nabla L_{k} (w_{t}) - \nabla L (w_{t}) ∥

其中 $L$ 是损失函数的Lipschitz常数， $ρ$ 是收缩系数。

漂移的累积效应

def client_drift_analysis():
    """
    客户端漂移累积示意
    """
    drift_history = []
    for round_t in range(num_rounds):
        # 模拟非IID条件下的梯度差异
        local_grad = sample_from_non_iid_distribution()
        global_grad = expected_gradient()
        
        # 漂移量 = 本地梯度 - 全局梯度
        drift = local_grad - global_grad
        drift_history.append(torch.norm(drift))
        
        # 漂移累积
        cumulative_drift = sum(drift_history)
    
    return cumulative_drift

2. 应对策略分类

2.1 策略分类框架

现有方法可分为两大类²：

类别	策略	代表方法
参数更新路径调整	修改优化轨迹	FedProx, SCAFFOLD, MOON
损失景观修改	调整本地目标	FedNova, FedDC

2.2 策略选择决策树

开始
  │
  ├─ 非IID程度？
  │     ├─ 低 (H < 0.3) → 简单方法即可
  │     ├─ 中 (0.3 < H < 0.6) → 参数路径调整
  │     └─ 高 (H > 0.6) → 损失景观修改 + 高级方法
  │
  ├─ 恶意客户端？
  │     ├─ 是 → 结合拜占庭鲁棒聚合
  │     └─ 否 → 纯优化方法
  │
  └─ 个性化需求？
        ├─ 是 → 部分个性化FL
        └─ 否 → 全局模型方法

3. 参数更新路径调整方法

3.1 FedProx

FedProx³通过在本地目标中添加邻近项来限制漂移：

w min k = 1 \sum K \frac{n _{k}}{n} (L_{k} (w) + \frac{μ}{2} ∥ w - w_{t} ∥^{2})

def fedprox_local_update(model, local_data, global_model, 
                         mu=1.0, lr=0.01, epochs=5):
    """
    FedProx本地更新
    """
    optimizer = torch.optim.SGD(model.parameters(), lr=lr)
    
    for epoch in range(epochs):
        for batch in local_data:
            optimizer.zero_grad()
            
            # 标准损失
            loss = compute_loss(model, batch)
            
            # 邻近项正则化
            prox_term = sum(
                torch.sum((p - g_p)**2) 
                for p, g_p in zip(model.parameters(), global_model.parameters())
            )
            total_loss = loss + (mu / 2) * prox_term
            
            total_loss.backward()
            optimizer.step()
    
    return model.state_dict()

3.2 SCAFFOLD

SCAFFOLD⁴通过控制变量（Control Variates）修正漂移：

w_{t + 1}^{k} = w_{t} - η c_{k} - η \nabla L_{k} (w_{t}^{k})

其中 $c_{k}$ 是客户端控制变量：

c_{t + 1}^{k} = c_{t}^{k} - c + \frac{1}{ηK} (w_{t} - w_{t + 1}^{k})

def scaffold_update(global_model, global_control, 
                   local_model, local_control,
                   local_data, lr=0.01):
    """
    SCAFFOLD算法
    """
    # 客户端控制变量更新
    delta_w = subtract_models(global_model, local_model)
    new_local_control = add_controls(
        local_control,
        subtract_controls(global_control, 
                         delta_w / (lr * len(local_data)))
    )
    
    # 本地模型更新
    optimizer = torch.optim.SGD(local_model.parameters(), lr=lr)
    for batch in local_data:
        optimizer.zero_grad()
        loss = compute_loss(local_model, batch)
        loss.backward()
        optimizer.step()
    
    return local_model.state_dict(), new_local_control

3.3 MOON

MOON⁵通过对比正则化利用模型表示：

L_{MOON}^{k} (w) = L_{k} (w) + β \cdot ℓ_{contrast} (w, w_{t}, w_{t - 1}^{k})

其中对比损失定义为：

ℓ_{contrast} (w, w^{+}, w^{-}) = - lo g \frac{exp ( sim ( h , h ^{+} ) / τ )}{exp ( sim ( h , h ^{+} ) / τ ) + exp ( sim ( h , h ^{-} ) / τ )}

4. 损失景观修改方法

4.1 FedNova

FedNova⁶通过归一化梯度消除数量偏斜的影响：

\overset{g}{ˉ}_{t} = \frac{1}{\sum _{k \in S_{t}} τ _{k}} k \in S_{t} \sum τ_{k} \cdot \nabla \tilde{L}_{k} (w_{t})

其中 $τ_{k}$ 是本地更新步数。

def fednova_aggregate(gradients, local_steps, client_weights):
    """
    FedNova聚合
    """
    total_steps = sum(local_steps)
    weighted_grads = []
    
    for g, steps, weight in zip(gradients, local_steps, client_weights):
        # 归一化梯度
        normalized_grad = g * (steps / total_steps)
        weighted_grads.append(normalized_grad * weight)
    
    return sum(weighted_grads)

4.2 FedDC

FedDC⁷通过显式漂移修正项：

w_{t + 1}^{k} = w_{t}^{k} - η (\nabla L_{k} (w_{t}^{k}) - a_{t}^{k})

其中漂移修正项 $a_{t}^{k}$ 定义为：

a_{t}^{k} = \nabla L_{k} (w_{t}^{k}) - \nabla L_{k} (w_{t})

def feddc_update(local_model, global_model, local_data,
                 drift_correction, lr=0.01):
    """
    FedDC本地更新
    """
    optimizer = torch.optim.SGD(local_model.parameters(), lr=lr)
    
    for batch in local_data:
        optimizer.zero_grad()
        
        # 标准损失
        loss = compute_loss(local_model, batch)
        
        # 漂移修正
        drift_loss = sum(
            torch.sum((p - g_p) * a) 
            for p, g_p, a in zip(
                local_model.parameters(), 
                global_model.parameters(),
                drift_correction
            )
        )
        
        total_loss = loss - drift_loss
        total_loss.backward()
        optimizer.step()
    
    return local_model.state_dict()

5. 神经网络传播方法

5.1 FedNP

FedNP⁸通过期望传播估计全局数据分布：

class FederatedNeuralPropagation:
    """
    FedNP: 使用贝叶斯神经网络传播全局信息
    """
    def __init__(self, model, num_clients):
        self.model = model
        self.global_variational_params = None
    
    def local_step(self, client_model, client_data):
        """本地训练 + 传播全局先验"""
        optimizer = torch.optim.Adam(client_model.parameters())
        
        for batch in client_data:
            optimizer.zero_grad()
            
            # 辅助任务：预测全局数据分布
            aux_loss = self.global_distribution_loss(
                client_model, batch
            )
            
            # 主任务：本地数据损失
            main_loss = compute_loss(client_model, batch)
            
            # 组合损失
            total_loss = main_loss + 0.1 * aux_loss
            total_loss.backward()
            optimizer.step()
        
        return client_model.state_dict()
    
    def global_distribution_loss(self, model, batch):
        """
        使用全局变分参数的辅助损失
        """
        # 构造全局分布的代理
        global_prior = self.approximate_global_prior()
        
        # KL散度正则化
        kl_loss = compute_kl_divergence(
            model.feature_extractor,
            global_prior
        )
        
        return kl_loss

6. 个性化方法

6.1 Per-FedAvg

基于元学习的个性化方法：

def per_fedavg(client_model, local_data, global_model, 
               alpha=0.01, beta=0.001):
    """
    Per-FedAvg: 元学习个性化
    """
    # 元梯度计算
    for batch in local_data:
        optimizer.zero_grad()
        loss = compute_loss(client_model, batch)
        loss.backward()
    
    # 保存用于个性化微调的梯度
    inner_grad = [p.grad.clone() for p in client_model.parameters()]
    
    # 临时应用梯度
    for p, g in zip(client_model.parameters(), inner_grad):
        p.data = p.data - alpha * g
    
    # 计算元目标
    for batch in meta_data:
        optimizer.zero_grad()
        meta_loss = compute_loss(client_model, batch)
        meta_loss.backward()
    
    # 元梯度更新全局模型
    for p, g in zip(global_model.parameters(), inner_grad):
        p.data = p.data - beta * g
    
    return global_model.state_dict()

6.2 pFedHP

分层个性化方法：

class pFedHP:
    """
    pFedHP: 分层个性化联邦学习
    """
    def __init__(self, model, num_layers):
        self.global_layers = model.layers[:-num_layers]
        self.personal_layers = model.layers[-num_layers:]
    
    def aggregate(self, client_updates):
        """分层聚合"""
        # 全局层：标准FedAvg
        global_agg = standard_fedavg([
            update['global'] for update in client_updates
        ])
        
        # 个性化层：保持本地版本
        return {
            'global': global_agg,
            'personal': [update['personal'] for update in client_updates]
        }

7. 优化技巧

7.1 周期性学习率

def cyclical_learning_rate(epoch, min_lr=0.001, max_lr=0.1, 
                          cycle_length=10):
    """
    周期性学习率策略
    """
    cycle = np.floor(1 + epoch / cycle_length)
    x = np.abs(epoch / cycle_length + 1 - 2 * cycle)
    lr = min_lr + (max_lr - min_lr) * np.maximum(0, 1 - x)
    return lr

7.2 数据增强与共享

def data_augmentation_strategy(local_data, shared_data=None):
    """
    数据增强策略
    """
    if shared_data is not None:
        # 使用共享的增强数据
        augmented_data = local_data + augment(shared_data)
    else:
        # 本地增强
        augmented_data = augment(local_data)
    
    return augmented_data

8. 实验结果分析

8.1 不同非IID程度下的性能

方法	H=0.3	H=0.5	H=0.7	H=0.9
FedAvg	82.3%	71.5%	58.2%	42.1%
FedProx	82.5%	73.2%	61.5%	48.3%
SCAFFOLD	83.1%	75.8%	65.4%	52.1%
FedDC	83.4%	76.2%	67.1%	54.2%
Per-FedAvg	84.2%	77.5%	68.3%	56.8%

8.2 收敛速度对比

方法	达到80%准确率的轮数	收敛稳定性
FedAvg	>500	低
FedProx	350	中
SCAFFOLD	200	高
FedDC	180	高

9. 总结

非IID数据是联邦学习的核心挑战。本章介绍了：

数据异质性分类：标签偏斜、特征偏斜、数量偏斜、时空偏斜
客户端漂移机制：漂移的定义、累积效应和数学分析
参数路径调整：FedProx、SCAFFOLD、MOON
损失景观修改：FedNova、FedDC
神经网络传播：FedNP的贝叶斯方法
个性化方法：Per-FedAvg、pFedHP
优化技巧：周期性学习率、数据增强

参考资料

A Thorough Assessment of the Non-IID Data Impact in Federated Learning (arXiv:2503.17070) ↩
Understanding Federated Learning from IID to Non-IID (arXiv:2502.00182) ↩
Li et al. “Federated Optimization in Heterogeneous Networks” (MLSys 2020) ↩
Karimireddy et al. “SCAFFOLD: Stochastic Controlled Averaging for Federated Learning” (ICML 2020) ↩
Li et al. “Model-Contrastive Federated Learning” (CVPR 2021) ↩
FedNova: “Tackling Objective Inconsistency in Heterogeneous Federated Optimization” (NeurIPS 2021) ↩
FedDC: “Federated Learning with Explicit Drift Estimator” (ICLR 2022) ↩
FedNP: “Towards Non-IID Federated Learning via Federated Neural Propagation” (AAAI 2024) ↩

Metaphor

探索

Federated Learning Non-IID Strategies

联邦学习非IID数据处理策略

1. 非IID数据深度分析

1.1 数据异质性分类

标签偏斜（Label Skew）

特征偏斜（Feature Skew）

数量偏斜（Quantity Skew）

时空偏斜（Spatiotemporal Skew）

1.2 客户端漂移（Client Drift）

数学定义

漂移的累积效应

2. 应对策略分类

2.1 策略分类框架

2.2 策略选择决策树

3. 参数更新路径调整方法

3.1 FedProx

3.2 SCAFFOLD

3.3 MOON

4. 损失景观修改方法

4.1 FedNova

4.2 FedDC

5. 神经网络传播方法

5.1 FedNP

6. 个性化方法

6.1 Per-FedAvg

6.2 pFedHP

7. 优化技巧

7.1 周期性学习率

7.2 数据增强与共享

8. 实验结果分析

8.1 不同非IID程度下的性能

8.2 收敛速度对比

9. 总结

参考资料

关系图谱

目录

反向链接

Metaphor

探索

Federated Learning Non-IID Strategies

联邦学习非IID数据处理策略

1. 非IID数据深度分析

1.1 数据异质性分类

标签偏斜（Label Skew）

特征偏斜（Feature Skew）

数量偏斜（Quantity Skew）

时空偏斜（Spatiotemporal Skew）

1.2 客户端漂移（Client Drift）

数学定义

漂移的累积效应

2. 应对策略分类

2.1 策略分类框架

2.2 策略选择决策树

3. 参数更新路径调整方法

3.1 FedProx

3.2 SCAFFOLD

3.3 MOON

4. 损失景观修改方法

4.1 FedNova

4.2 FedDC

5. 神经网络传播方法

5.1 FedNP

6. 个性化方法

6.1 Per-FedAvg

6.2 pFedHP

7. 优化技巧

7.1 周期性学习率

7.2 数据增强与共享

8. 实验结果分析

8.1 不同非IID程度下的性能

8.2 收敛速度对比

9. 总结

参考资料

Footnotes

关系图谱

目录

反向链接