幅度剪枝机制深度分析

1. 概述

幅度剪枝 (Magnitude Pruning) 是神经网络压缩中最直观且应用最广泛的方法之一。顾名思义，它根据权重的**幅度（绝对值）**来决定保留或移除哪些连接：幅度大的权重被认为更重要，因此被保留；幅度小的权重被剪枝¹。

尽管幅度剪枝看似简单直接，其背后却蕴含着深刻的理论和实践洞察：

为什么幅度可以代表重要性？ — 这涉及神经网络的表示学习和损失景观
迭代剪枝为何优于一次剪枝？ — 这涉及训练动态和表示适应
如何设计有效的重训练策略？ — 这涉及微调和再训练的优化

本文将深入分析幅度剪枝的机制，揭示其成功的根本原因，并讨论最新的研究成果。

2. 幅度剪枝基础

2.1 形式化定义

定义（幅度剪枝）： 给定网络权重矩阵 $W$ 和目标稀疏度 $s \in [0, 1]$ ，幅度剪枝选择最小幅度的权重进行移除：

m_{i} = {01 if ∣ w_{i} ∣ \leq τ if ∣ w_{i} ∣ > τ

其中 $τ$ 是阈值，满足 $\frac{1}{n} \sum_{i} 1 (∣ w_{i} ∣ \leq τ) = s$ 。

2.2 幅度剪枝的变体

方法	描述	特点
全局幅度剪枝	在所有层中统一选择最小幅度	简单，可能导致层间稀疏度不均
分层幅度剪枝	每层独立剪枝到相同比例	各层保持相同稀疏度
基于敏感性的剪枝	根据层敏感性调整剪枝率	更精细，效果更好

2.3 幅度与重要性的关系

为什么幅度可以代表重要性？一个直觉性的解释是：

损失景观解释：在训练过程中，网络权重朝着减少损失的方向更新。幅度大的权重对损失的影响更大，因此更重要。
信息编码解释：大幅度权重编码了更多的信息，如果将其置零，会损失更多关于输入模式的信息。
正则化解释：训练过程隐式地正则化权重幅度，使其与任务重要性相关联。

3. 迭代幅度剪枝 (IMP)

3.1 为什么需要迭代？

实验表明，一次性大幅度的剪枝（如80%）会导致严重的性能下降，而渐进式迭代剪枝可以保持甚至提升性能。

实验对比（CIFAR-10, VGG-16）：

剪枝策略	最终稀疏度	测试准确率
无剪枝	0%	93.5%
一次剪枝80%	80%	91.2%
迭代剪枝（每轮20%）	80%	93.0%
迭代剪枝（每轮20%）	95%	91.8%

3.2 IMP算法详解

def iterative_magnitude_pruning(model, train_loader, test_loader,
                                 sparsity_target=0.9, 
                                 pruning_epochs=10,
                                 retrain_epochs=5,
                                 pruning_steps=4):
    """
    迭代幅度剪枝 (Iterative Magnitude Pruning, IMP)
    
    参数:
        model: 要剪枝的模型
        sparsity_target: 目标稀疏度 (如0.9表示90%稀疏)
        pruning_epochs: 每轮剪枝前的训练轮数
        retrain_epochs: 剪枝后的重训练轮数
        pruning_steps: 剪枝步骤数
    """
    current_sparsity = 0
    sparsity_per_step = 1 - (1 - sparsity_target) ** (1 / pruning_steps)
    
    for step in range(pruning_steps):
        # 1. 训练网络
        print(f"Step {step+1}/{pruning_steps}: Training to target sparsity {current_sparsity:.1%}")
        train(model, train_loader, epochs=pruning_epochs)
        
        # 2. 计算剪枝阈值
        all_weights = concatenate_weights(model)
        threshold = np.percentile(np.abs(all_weights), sparsity_per_step * 100)
        
        # 3. 应用剪枝掩码
        apply_magnitude_mask(model, threshold)
        
        # 4. 重训练被剪枝的网络
        print(f"Retraining sparse network...")
        train(model, train_loader, epochs=retrain_epochs)
        
        current_sparsity = 1 - (1 - sparsity_per_step) ** (step + 1)
        
        # 5. 评估当前性能
        accuracy = evaluate(model, test_loader)
        print(f"Sparsity: {current_sparsity:.1%}, Accuracy: {accuracy:.2f}%")
    
    return model

3.3 剪枝调度策略

3.3.1 均匀调度

最常用的策略：每步剪枝相同比例：

s_{t} = 1 - (1 - s_{T})^{t / T}

其中 $T$ 是总步数， $s_{T}$ 是最终稀疏度。

3.3.2 早期快速剪枝

实验发现，早期训练阶段剪枝更有效：

def aggressive_early_pruning(sparsity_schedule):
    """
    早期快速剪枝策略
    """
    return [
        # (sparsity, train_epochs_before_pruning)
        (0.0, 15),    # 初始训练
        (0.7, 5),     # 早期激进剪枝
        (0.85, 5),    # 继续剪枝
        (0.90, 5),    # 最终稀疏度
        (0.90, 10),   # 充分重训练
    ]

4. 幅度剪枝的理论分析

4.1 泛化边界理论

最新的理论工作为幅度剪枝提供了泛化保证。核心定理如下：

定理（稀疏矩阵Sketch泛化界）： 设 $f$ 为剪枝后的神经网络，其参数为 $θ_{S}$ （仅包含被保留的参数）。那么，以概率至少 $1 - δ$ ，有：

R (f) \leq \hat{R} (f) + O (\frac{r \cdot lo g ( d / δ )}{n})

其中 $r$ 是剪枝后参数的有效秩， $d$ 是原始参数维度， $n$ 是样本数。

关键洞察：这个界表明，稀疏度本身不是决定泛化能力的因素，而是参数的有效秩（即参数矩阵的结构复杂度）才是关键。

4.2 损失景观几何分析

ICLR 2025的最新工作从损失景观几何角度分析了迭代幅度剪枝²：

体积分析：迭代剪枝过程中的解空间体积
曲率分析：Hessian特征值的演化
模式连接性：不同稀疏网络之间的线性插值

核心发现：迭代剪枝在参数空间中保持更好的几何性质，允许网络在稀疏状态下继续有效优化。

4.3 非高斯统计与局部感受野

ICLR 2025的另一项突破性研究揭示了IMP发现好彩票的机制：³

4.3.1 核心发现

实验观察：IMP能够发现具有局部感受野 (Local Receptive Fields) 的子网络，这是哺乳动物视觉皮层和卷积神经网络的特征。

机制解释：

幅度剪枝系统性地增加预激活的非高斯统计量
非高斯性驱动形成局部化的反馈循环
这种反馈循环最终产生局部感受野结构

4.3.2 腔方法 (Cavity Method)

研究者开发了”腔方法”来测量单个权重对表示统计的影响：

def cavity_method(model, layer, weight_indices, input_data):
    """
    腔方法：测量单个权重对表示统计的影响
    
    核心思想：比较包含某个权重和排除该权重时的表示差异
    """
    # 1. 获取原始激活
    original_activation = get_activation(model, layer, input_data)
    
    # 2. "移除"特定权重（但不实际修改权重）
    def forward_with_cavity(weight_indices):
        # 使用leave-one-out梯度估计
        leave_one_out_grad = torch.autograd.grad(
            outputs=original_activation.sum(),
            inputs=layer.weight,
            create_graph=False
        )[0]
        
        # 预测移除后的激活变化
        predicted_change = -leave_one_out_grad[weight_indices] * layer.weight[weight_indices]
        return original_activation + predicted_change
    
    # 3. 计算影响
    cavity_activation = forward_with_cavity(weight_indices)
    influence = torch.norm(original_activation - cavity_activation)
    
    return influence

4.3.3 理论与实验的对应

理论预测	实验观察
非高斯性增加	预激活峰度从3增加到>10
局部反馈循环	发现局部感受野结构
幅度排序有效性	与信息论指标高度相关

5. 重训练策略比较

5.1 三种主要策略

剪枝后的重训练是关键步骤。主要有三种策略：

5.1.1 Fine-tuning (微调)

def finetune(model, mask, train_loader, lr=0.01, epochs=10):
    """
    标准微调：使用大学习率继续训练被剪枝的网络
    """
    optimizer = torch.optim.SGD(model.parameters(), lr=lr, momentum=0.9)
    
    for epoch in range(epochs):
        for batch in train_loader:
            optimizer.zero_grad()
            output = model(batch.input)
            loss = F.cross_entropy(output, batch.target)
            loss.backward()
            
            # 只更新被保留的权重
            for name, param in model.named_parameters():
                if 'weight' in name:
                    param.grad *= mask[name]
            
            optimizer.step()

5.1.2 Weight Rewinding (权重回绕)

def weight_rewinding(model, mask, checkpoint, train_loader, epochs=10):
    """
    权重回绕：回到训练早期的权重值
    """
    # 加载早期检查点
    load_weights_from_checkpoint(model, checkpoint.early_weights)
    apply_mask(model, mask)
    
    # 使用原始学习率调度继续训练
    optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)
    scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=epochs)
    
    for epoch in range(epochs):
        train_epoch(model, train_loader, optimizer)
        scheduler.step()

5.1.3 Learning Rate Rewinding (LRR)

def lr_rewinding(model, mask, checkpoint, train_loader, epochs=10):
    """
    学习率回绕：使用最终学习率调度训练早期权重
    """
    # 加载早期权重
    load_weights_from_checkpoint(model, checkpoint.early_weights)
    apply_mask(model, mask)
    
    # 使用与训练末期相同的学习率调度
    # 但应用于早期权重
    optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)
    scheduler = torch.optim.lr_scheduler.CosineAnnealingWarmRestarts(
        optimizer, T_0=10, T_mult=2
    )
    
    for epoch in range(epochs):
        train_epoch(model, train_loader, optimizer)
        scheduler.step()

5.2 策略比较

策略	原理	优点	缺点	适用场景
Fine-tuning	继续训练当前权重	简单直接	可能陷入局部最优	低稀疏度
Weight Rewinding	回到早期权重	理论支持	需要保存检查点	高稀疏度
LR Rewinding	使用最终学习率调度训练早期权重	综合优势	实现稍复杂	通用场景

5.3 何时使用何种策略

def choose_retrain_strategy(sparsity, training_dynamics):
    """
    根据场景选择重训练策略
    """
    if sparsity < 0.5:
        # 低稀疏度：标准微调足够
        return "finetune", {"lr": 0.01}
    
    elif sparsity < 0.8:
        # 中等稀疏度：LR Rewinding
        return "lr_rewinding", {"early_checkpoint": training_dynamics.early}
    
    else:
        # 高稀疏度：Weight Rewinding
        return "weight_rewinding", {"early_checkpoint": training_dynamics.early}

6. 一次式 vs 渐进式剪枝

6.1 最新基准研究

NeurIPS 2024的最新研究系统比较了一次式和渐进式剪枝⁴：

6.1.1 关键发现

低稀疏度区域 (<80%)：
- 一次式剪枝表现更好
- 需要的总训练时间更少
- 因为不需要多次重训练
高稀疏度区域 (>80%)：
- 渐进式剪枝明显优于一次式
- 需要多次迭代才能找到好的稀疏子结构
- 允许网络在稀疏过程中适应
迭代几何剪枝：
- 结合了几何信息和幅度信息
- 在所有稀疏度下都表现良好

6.1.2 混合策略

最优策略可能是先一次式剪枝到中等稀疏度，再渐进式剪枝到目标稀疏度：

def hybrid_pruning(model, target_sparsity=0.9):
    """
    混合剪枝策略
    """
    if target_sparsity <= 0.7:
        # 低稀疏度目标：直接一次式
        threshold = compute_threshold(model, target_sparsity)
        apply_pruning(model, threshold)
        finetune(model, epochs=10)
    else:
        # 高稀疏度目标：先一次式到70%，再渐进式
        threshold_70 = compute_threshold(model, 0.7)
        apply_pruning(model, threshold_70)
        finetune(model, epochs=5)
        
        # 渐进式剪枝到目标
        iterative_pruning(model, current_sparsity=0.7, 
                         target_sparsity=target_sparsity)

7. 现代幅度剪枝方法

7.1 LAMP: Layer-Adaptive Magnitude Pruning

LAMP (ICLR 2021) 提出了层级自适应的幅度剪枝⁵：

7.1.1 LAMP Score

核心创新是提出了 LAMP Score，将幅度剪枝重新定义为：

s_{i}^{(l)} = \frac{∣ w _{i}^{(l)} ∣}{( \sum _{j} ( w _{j}^{(l)} ) ^{2} ) ^{1/2}} \cdot d^{(l)}

其中 $d^{(l)}$ 是第 $l$ 层的维度。

直觉：LAMP Score考虑了层间参数规模差异，使跨层的稀疏度分配更加公平。

def lamp_score(weight):
    """
    计算LAMP Score
    """
    # 归一化幅度
    normalized = weight / torch.norm(weight)
    
    # 乘以层维度
    layer_dim = weight.shape[0]
    return torch.abs(normalized) * torch.sqrt(torch.tensor(layer_dim))

7.2 MAP: Magnitude Attention-based Pruning

MAP结合了幅度信息和注意力机制⁶：

class MagnitudeAttentionPruning:
    """
    基于幅度注意力的动态剪枝
    """
    def __init__(self, model, sparsity_schedule):
        self.model = model
        self.sparsity_schedule = sparsity_schedule
        self.epoch = 0
        
    def compute_importance(self, weights, gradients):
        """
        结合幅度和梯度的综合重要性
        """
        magnitude = torch.abs(weights)
        
        # 梯度越大，说明该权重越需要更新
        gradient_importance = torch.abs(gradients)
        
        # 动量累积梯度信息
        if not hasattr(self, 'momentum_grad'):
            self.momentum_grad = gradient_importance
        else:
            self.momentum_grad = 0.9 * self.momentum_grad + 0.1 * gradient_importance
        
        # 综合评分
        return magnitude * torch.log(1 + self.momentum_grad)
    
    def step(self):
        """
        剪枝步骤
        """
        current_sparsity = self.sparsity_schedule(self.epoch)
        
        for name, param in self.model.named_parameters():
            if 'weight' not in name:
                continue
                
            # 计算综合重要性
            importance = self.compute_importance(param, param.grad)
            
            # 计算阈值
            threshold = torch.quantile(importance.flatten(), current_sparsity)
            
            # 应用掩码
            param.data *= (importance > threshold).float()
        
        self.epoch += 1

7.3 极低稀疏率下的挑战与解决

7.3.1 Layer-Collapse问题

当稀疏度过高时，可能出现”层崩溃”现象：

Layer Collapse示意:
原始网络:     [128, 256, 512, 512, 256]
剪枝后:       [128,  16,  32,   8,  16]
             ↑ 某些层几乎被完全剪枝

7.3.2 Minimum Threshold技术

解决Layer-Collapse的方法是设置最小阈值：

def safe_magnitude_pruning(model, target_sparsity, min_neurons_per_layer=8):
    """
    带安全约束的幅度剪枝
    """
    for name, param in model.named_parameters():
        if 'weight' not in name:
            continue
            
        layer = get_layer_by_name(name)
        total_neurons = param.shape[0]
        min_neurons = max(min_neurons_per_layer, int(total_neurons * (1 - target_sparsity)))
        
        # 获取当前幅度排序
        magnitudes = torch.abs(param).flatten()
        sorted_mags, indices = torch.sort(magnitudes, descending=True)
        
        # 确保至少保留min_neurons个参数
        threshold_idx = min(len(sorted_mags) - min_neurons, 
                          int(len(sorted_mags) * target_sparsity))
        threshold = sorted_mags[threshold_idx]
        
        # 应用剪枝
        mask = (torch.abs(param) > threshold).float()
        param.data *= mask

8. 幅度剪枝与其他剪枝方法的比较

8.1 方法对比表

方法	剪枝依据	是否需要数据	计算开销	精度
幅度剪枝	权重幅度	否	低	中等
SNIP	敏感性	是	中等	良好
GraSP	梯度流	是	高	良好
SynFlow	谱范数	否	中等	良好
Oracle	验证集性能	是	极高	最优

8.2 幅度剪枝的合理性

有趣的是，最简单的幅度剪枝往往与更复杂的方法表现相当，甚至更好：

数据集	Oracle	幅度剪枝	SNIP	GraSP
CIFAR-10 (80%)	93.5%	93.0%	92.8%	92.6%
CIFAR-10 (95%)	92.5%	91.8%	91.5%	91.0%
ImageNet (80%)	76.4%	76.2%	76.0%	75.9%

这表明：对于神经网络来说，幅度确实是一个有效的重要性指标。

9. 与彩票假说的联系

幅度剪枝是发现彩票假说中”中奖彩票”的主要方法：

IMP ≈ 彩票发现：迭代幅度剪枝就是寻找中奖彩票的过程
掩码敏感性：中奖彩票的掩码对初始化敏感，这与幅度剪枝的性质一致
早期停止：彩票在训练早期就存在，这解释了为什么IMP不需要完整训练

关键联系

幅度剪枝视角	彩票假说视角
移除小幅度权重	选择”重要”连接
迭代剪枝 + 重训练	识别中奖彩票
掩码固定后继续训练	彩票独立训练

10. 总结与建议

10.1 实践建议

低稀疏度 (<70%)：
- 使用一次式幅度剪枝
- 直接fine-tuning即可
- 无需复杂调度
中等稀疏度 (70-85%)：
- 迭代幅度剪枝（3-5步）
- 使用LAMP进行层级自适应
- 考虑LR Rewinding
高稀疏度 (>85%)：
- 迭代幅度剪枝（5+步）
- 必须使用Weight Rewinding或LR Rewinding
- 设置最小神经元阈值

10.2 代码模板

def recommended_magnitude_pruning(model, train_loader, test_loader,
                                    target_sparsity=0.9,
                                    n_steps=5,
                                    epochs_per_step=10):
    """
    推荐的标准幅度剪枝流程
    """
    # 1. 预训练（如果需要）
    print("Initial training...")
    train(model, train_loader, epochs=20)
    
    # 2. 迭代剪枝
    for step in range(n_steps):
        current_sparsity = 1 - (1 - target_sparsity) / n_steps * (step + 1)
        print(f"\nStep {step+1}/{n_steps}: Target sparsity = {current_sparsity:.1%}")
        
        # 计算阈值
        all_weights = concat([p.data.abs() for p in model.parameters()])
        threshold = np.percentile(all_weights, (1 - current_sparsity) * 100)
        
        # 应用剪枝
        for p in model.parameters():
            mask = (p.data.abs() > threshold).float()
            p.data *= mask
        
        # 评估
        acc = evaluate(model, test_loader)
        print(f"Accuracy after pruning: {acc:.2f}%")
        
        # 重训练
        if step < n_steps - 1 or current_sparsity < target_sparsity:
            train(model, train_loader, epochs=epochs_per_step)
    
    return model

10.3 核心要点

幅度是有效的重要性指标：简单但强大
迭代剪枝优于一次剪枝：允许网络适应
重训练策略很重要：LR Rewinding是综合最优选择
层级自适应更公平：LAMP Score解决了跨层比较问题
稀疏训练与剪枝互补：两者可以结合使用

参考资料

Han, S., et al. (2015). Learning Both Weights and Connections for Efficient Neural Networks. Advances in Neural Information Processing Systems (NeurIPS). https://arxiv.org/abs/1506.02626 ↩
Li, Y., et al. (2025). Insights into the Lottery Ticket Hypothesis and Iterative Magnitude Pruning. International Conference on Learning Representations (ICLR). https://arxiv.org/abs/2403.15022 ↩
An, S., et al. (2025). How Iterative Magnitude Pruning Discovers Local Receptive Fields in Fully Connected Neural Networks. International Conference on Learning Representations (ICLR). https://openreview.net/forum?id=B936pXBrz5 ↩
Wang, H., et al. (2024). How Many Does It Take to Prune a Network: Comparing One-Shot vs. Iterative Pruning Regimes. NeurIPS Workshop. https://openreview.net/pdf?id=XoYiyOLtMv ↩
Lee, N., et al. (2021). Layer-adaptive Sparsity for Magnitude-based Pruning. International Conference on Learning Representations (ICLR). https://arxiv.org/abs/2010.07611 ↩
Chen, T., et al. (2023). Magnitude Attention-based Dynamic Pruning. arXiv. https://arxiv.org/abs/2306.05056 ↩

Metaphor

探索

幅度剪枝机制深度分析

幅度剪枝机制深度分析

1. 概述

2. 幅度剪枝基础

2.1 形式化定义

2.2 幅度剪枝的变体

2.3 幅度与重要性的关系

3. 迭代幅度剪枝 (IMP)

3.1 为什么需要迭代？

3.2 IMP算法详解

3.3 剪枝调度策略

3.3.1 均匀调度

3.3.2 早期快速剪枝

4. 幅度剪枝的理论分析

4.1 泛化边界理论

4.2 损失景观几何分析

4.3 非高斯统计与局部感受野

4.3.1 核心发现

4.3.2 腔方法 (Cavity Method)

4.3.3 理论与实验的对应

5. 重训练策略比较

5.1 三种主要策略

5.1.1 Fine-tuning (微调)

5.1.2 Weight Rewinding (权重回绕)

5.1.3 Learning Rate Rewinding (LRR)

5.2 策略比较

5.3 何时使用何种策略

6. 一次式 vs 渐进式剪枝

6.1 最新基准研究

6.1.1 关键发现

6.1.2 混合策略

7. 现代幅度剪枝方法

7.1 LAMP: Layer-Adaptive Magnitude Pruning

7.1.1 LAMP Score

7.2 MAP: Magnitude Attention-based Pruning

7.3 极低稀疏率下的挑战与解决

7.3.1 Layer-Collapse问题

7.3.2 Minimum Threshold技术

8. 幅度剪枝与其他剪枝方法的比较

8.1 方法对比表

8.2 幅度剪枝的合理性

9. 与彩票假说的联系

关键联系

10. 总结与建议

10.1 实践建议

10.2 代码模板

10.3 核心要点

参考资料

Footnotes

关系图谱

目录