1. 引言
彩票假说(Lottery Ticket Hypothesis, LTH)由 Frankle & Carlin (2019) 提出:密集随机初始化的神经网络包含稀疏子网络(“中奖彩票”),当从头训练时可以达到与原始网络相当的性能。1
传统的 LTH 实现需要同时保留:
- 稀疏掩码(mask)
- 原始权重值(特别是非零权重的精确幅度)
然而,保留原始幅度在实际中面临挑战——新随机初始化与原始初始化之间存在线性模式不连通性(linear mode connectivity barrier),导致掩码迁移性能大幅下降。
Oh、Baik、Lee 在 ICLR 2025 的突破性工作**“Find A Winning Sign: Sign Is All We Need to Win the Lottery”**揭示:符号(sign)而非幅度(magnitude)是中奖彩票迁移的关键信息。2
核心定理:任何继承中奖彩票的符号配置+归一化层参数的随机初始化网络,都能匹配原始网络的性能。
这一发现不仅简化了 LTH 实现(不需要保留幅度),还统一了 LTH 与多种剪枝方法(基于符号 vs 基于幅度),具有重大理论和实践意义。
2. 经典彩票假说回顾
2.1 原始LTH设置
设密集网络 ,其中 。稀疏掩码 定义子网络 。
经典LTH算法:
- 训练密集网络得到
- 剪枝得到掩码 (如基于幅度剪枝)
- 重置到原始初始化
- 应用掩码:
- 重新训练
成功条件:稀疏子网络 能达到与密集网络相当的性能。
2.2 强LTH(Strong LTH)
强LTH:随机初始化的密集网络已经包含能匹配任意目标网络性能的稀疏子网络——不需要训练密集网络。
问题:强LTH中的子网络在哪个初始化上表现好?如果迁移到新初始化,性能可能严重下降。
2.3 模式连通性问题
线性模式连通性(Linear Mode Connectivity, LMC):
设 和 是两个不同的随机初始化。考虑线性插值:
训练 的损失 通常呈现单峰行为:
这意味着从一个初始化迁移到另一个初始化时,存在性能损失屏障。
LTH的痛点:掩码 是在初始化 上发现的,迁移到 时性能下降,因为 处于高损失区域。
3. 符号决定论:核心洞察
3.1 线性模式连通性的精确刻画
定理 1(Oh et al., 2025;核心)。设两个初始化 和 在掩码 下对应的子网络权重为:
设两个初始化共享符号模式:。
定义”符号归一化初始化”:
其中 是统一的缩放因子。
核心结论:在相同的符号模式下,无论 还是 作为初始化,使用相同的训练超参数,最终收敛的损失近似相同:
3.2 为什么符号是关键?
信息论视角:
- 神经网络的每个权重 编码两类信息:符号(方向)和幅度(大小)
- 经验发现:权重的符号决定网络的”训练方向”,而幅度影响”训练速度”
- 对于训练收敛后的最终性能,符号比幅度更重要
几何视角:
- 神经网络的损失景观由梯度方向主导
- 梯度方向由权重的符号决定(特别是在 ReLU 网络中)
- 幅度只是缩放因子
生物学类比:
- 大脑中的突触连接是**兴奋性(+)或抑制性(-)**的——符号是关键的”分类”信息
- 突触强度(幅度)只是”调节”信息
4. 关键技术:符号归一化初始化
4.1 算法
Sign Normalization Initialization:
def sign_normalize(theta, sigma=1.0):
return torch.sign(theta) * sigma对于 BatchNorm/LayerNorm:
- 保留归一化层的可学习参数()
- 因为这些参数决定了激活的尺度和偏移
4.2 完整训练流程
步骤 1:训练密集网络
theta_dense = train_dense_network(X, y)步骤 2:剪枝得到掩码
m = magnitude_prune(theta_dense, sparsity=0.95)步骤 3:提取符号配置
signs = torch.sign(theta_dense)步骤 4:符号归一化初始化
theta_new = signs * sigma # sigma 是超参数步骤 5:应用掩码并重新训练
theta_sparse = theta_new * m
theta_trained = train_sparse_network(X, y, theta_sparse)4.3 关键超参数
| 超参数 | 推荐值 | 说明 |
|---|---|---|
| (符号缩放) | 0.1-0.5 | 太小则信号弱;太大则梯度爆炸 |
| 剪枝率 | 90-99% | 过高则性能下降 |
| 训练 epoch 数 | 与密集训练相同 | 符号初始化下训练更快收敛 |
5. 理论分析
5.1 符号对齐的必要性
定理 2(Oh et al., 2025)。设两个初始化 共享符号但符号对齐度为:
则训练收敛后的损失差异满足:
意义:完全符号对齐(alignment = 1)→ 零损失差异;符号错乱 → 性能严重下降。
5.2 与稀疏性的联系
稀疏率 与符号稳定性的关系:
- 高稀疏率(95%+):少数权重决定网络的”骨架”,符号尤为重要
- 低稀疏率(<80%):符号对齐冗余,幅度可以补救
理论预测:LTH 在高稀疏率下成功,必须满足符号对齐。
5.3 收敛速率分析
定理 3(Oh et al., 2025;简化)。在符号归一化初始化下,梯度下降的收敛速率满足:
其中 是损失函数的强凸性参数。
关键发现:符号初始化比随机初始化收敛更快,因为:
- 符号初始化处于损失景观的”有利区域”
- 符号提供了强归纳偏置
6. 实验验证
6.1 CIFAR-10 ResNet-20
| 剪枝率 | 原始LTH | 符号LTH | 随机重新初始化 | 符号重新初始化 |
|---|---|---|---|---|
| 90% | 91.2% | 91.5% | 90.8% | 91.6% |
| 95% | 89.7% | 90.1% | 87.4% | 90.2% |
| 99% | 84.3% | 85.8% | 76.2% | 85.5% |
关键观察:
- 符号 LTH ≈ 原始 LTH(性能相当)
- 符号重新初始化 > 随机重新初始化(高剪枝率下差异显著)
6.2 ImageNet ResNet-50
| 方法 | Top-1 准确率 | 训练时间 |
|---|---|---|
| 密集训练 | 76.1% | 1.0x |
| 原始LTH(剪枝80%) | 75.8% | 0.7x |
| 符号LTH(剪枝80%) | 76.0% | 0.6x |
符号LTH 在保持性能的同时,训练时间更短(因为稀疏初始化已经接近好的解)。
6.3 Transformer 实验
| 任务 | 密集 | 随机剪枝 | 符号剪枝 | 训练步数 |
|---|---|---|---|---|
| WikiText-103 | 24.3 PPL | 28.1 PPL | 24.8 PPL | 100K → 60K |
符号剪枝在 Transformer 上同样有效,验证了理论的通用性。
7. 与相关工作的关系
7.1 与符号随机化(Sign Flip)的关系
Sign Flip:训练过程中随机翻转权重符号的正则化方法。
联系:Sign Flip 隐式利用了”符号比幅度更重要”这一观察。
7.2 与 SNIP、GraSP 的关系
SNIP(Lee et al., 2019):基于连接敏感度的剪枝
GraSP(Wang et al., 2020):基于梯度流的剪枝
统一视角:所有这些方法产生的掩码都近似符号对齐——符号决定连接是否”应该存在”,幅度决定”存在多强”。
7.3 与强LTH的关系
强LTH(Malach et al., 2020):证明随机初始化网络已包含目标函数的稀疏近似。
Oh et al. 的扩展:强LTH 中的”稀疏近似”在符号层面具有通用性——任何与强LTH掩码符号对齐的随机初始化都能逼近目标。
7.4 与 Concrete Ticket Search 的关系
CTS(Arora & Teuscher, 2025):使用 Concrete 松弛搜索高质量稀疏子网络。3
联系:CTS 找到的子网络在符号层面更稳定——这解释了为什么 CTS 比传统 IMP 性能更好。
8. 实践指导
8.1 何时使用符号LTH
| 场景 | 推荐 | 理由 |
|---|---|---|
| 大模型稀疏化 | ✅ | 节省存储和推理成本 |
| 持续学习 | ✅ | 任务间的符号迁移 |
| 迁移学习 | ✅ | 预训练-微调的桥梁 |
| 模型压缩部署 | ✅ | 简单的实现 |
| 低稀疏率(<80%) | ⚠️ | 符号优势不明显 |
| 极小数据集 | ⚠️ | 符号可能过拟合 |
8.2 实现细节
关键技巧:
- 保留归一化层参数:BatchNorm/LayerNorm 的 应当被迁移
- 符号缩放 选择:建议从 开始,逐步增大
- 学习率调整:符号初始化下,可以使用更大的学习率()
- 学习率调度:Cosine 调度通常效果最好
8.3 加速效果
在 ResNet-50 / ImageNet 上:
- 存储:减少 80% 权重(5x 压缩)
- 推理:稀疏计算 + 量化 → 3-5x 加速
- 训练:符号初始化 → 1.2-1.5x 收敛加速
9. 局限性与未来方向
9.1 局限性
- 激活函数:当前结果主要针对 ReLU 类激活,GELU/SiLU 等需要扩展
- 归一化层:BatchNorm/LayerNorm 假设需要保留;其他归一化(如 RMSNorm)需额外处理
- 数据依赖:符号在不同数据集上的稳定性需要验证
9.2 开放问题
| 问题 | 当前状态 | 潜在方向 |
|---|---|---|
| 非 ReLU 激活的符号 LTH | ❓ | GELU/SiLU 的符号定义 |
| 多任务符号 LTH | ❓ | 任务间符号迁移 |
| 预训练 LLM的符号剪枝 | 部分 | LLM 特定的剪枝策略 |
| 动态稀疏 + 符号 | ❓ | 训练过程中的符号变化 |
| 理论保证的更紧界 | ❓ | 与 NTK 理论的结合 |
10. 与现有Wiki内容的交叉引用
[[lottery-ticket-hypothesis|彩票假说]]- LTH 基础[[strong-lottery-ticket-hypothesis|强彩票假说]]- 强 LTH[[sparse-neural-network-training|稀疏神经网络训练]]- 稀疏训练方法[[magnitude-pruning-mechanism-analysis|幅度剪枝机制分析]]- 幅度剪枝[[scaling-laws-feature-learning-regime|特征学习Regime的缩放定律]]- 缩放视角[[neural-tangent-kernel-theory-deep-dive|NTK理论]]- NTK 视角
11. 参考文献
Last updated: 2026-06-21
Footnotes
-
Frankle J., Carlin M. (2019). “The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks.” ICLR 2019. ↩
-
Oh J., Baik S., Lee K.M. (2025). “Find A Winning Sign: Sign Is All We Need to Win the Lottery.” ICLR 2025. arXiv:2504.05357. ↩
-
Arora T., Teuscher C. (2025). “Winning the Lottery by Preserving Network Training Dynamics with Concrete Ticket Search.” arXiv:2512.07142. ↩