Scaling Collapse与Supercollapse理论
概述
深度学习中一个长期存在的谜题是:尽管神经网络架构、训练算法和数据多样,但计算最优训练下的模型展现出惊人的规律性。arXiv:2507.02119 揭示了Scaling Collapse现象——不同大小模型的损失曲线在归一化后完全重合,并进一步发现Supercollapse——当超参数缩放最优时,归一化差异低于随机种子的噪声floor。1
1. Scaling Collapse现象
1.1 定义
Scaling Collapse:当训练计算量和损失在训练结束时归一化到统一尺度时,不同大小模型的损失曲线精确叠加。
1.2 数学形式
定义归一化损失:
其中:
- :训练计算量
- :模型参数数量
- :随机种子
- :-参数模型的最优训练时长
- :不可约损失(通常为随机初始化损失的期望)
1.3 关键发现
定理1(Scaling Collapse):对于计算最优训练(即 ),归一化损失曲线满足:
这意味着所有模型的损失曲线可通过简单的水平平移叠加。
2. Supercollapse现象
2.1 定义
Supercollapse:当超参数(特别是学习率)按最优方式缩放时,不同模型间的归一化损失差异低于单个模型跨随机种子的噪声水平。
2.2 数学条件
Supercollapse发生的条件:
即:跨种子的噪声大于跨模型大小的差异。
2.3 必要条件
| 条件 | 说明 |
|---|---|
| 学习率衰减 | 恒定学习率下不发生 |
| 计算最优数据指数 | 必须接近理论最优值 |
| 归一化参考 | 需使用随机种子的经验最终损失 |
3. SGD噪声动态模型
3.1 连续时间模型
在梯度流时间 下,离散SGD近似为SDE:
其中:
- :学习率调度
- :噪声协方差
- :布朗运动
3.2 损失动力学近似
在梯度流时间下,简化SDE为:
3.3 解析损失曲线
定义 ,则损失动力学近似为:
其中 是沿轨道的平均噪声协方差。
3.4 关键洞察
发现:只需一个共享参数 即可跨不同学习率调度预测损失曲线!
4. 幂律结构与Collapse的联系
4.1 经典Scaling Laws
经典缩放定律指出性能与计算量的幂律关系:
4.2 Pareto前沿分析
考虑 个可独立缩放的因素(如参数、数据、计算),Pareto前沿满足:
4.3 Collapse的必要条件
定理2:Scaling Collapse发生的必要条件是Pareto前沿上存在”平局”:
即多个因素以相同速率缩放时发生精确叠加。
4.4 与计算最优性的联系
计算最优性迫使:
其中 和 是数据-参数和计算-性能指数。这导致:
从而发生精确的Scaling Collapse。
5. 超参数缩放指南
5.1 学习率缩放
| 参数范围 | 学习率缩放 |
|---|---|
| (P) | |
| 固定 | |
| 其他初始化 | 需经验调整 |
5.2 其他超参数
| 超参数 | 缩放建议 |
|---|---|
| Batch Size | 可固定,不影响Collapse |
| 权重衰减 | (P) |
| Warmup步数 |
5.3 Collapse诊断
检测配置是否为计算最优:
- 训练多个不同大小模型
- 绘制归一化损失曲线
- 观察是否发生Collapse
- 若不Collapse,检查:
- 学习率是否按比例缩放
- 是否使用学习率衰减
- 数据-参数比例是否合理
6. 实用指标
6.1 Collapse质量指标
当 Collapse Score > 1 时发生Supercollapse。
6.2 应用场景
| 场景 | 应用方式 |
|---|---|
| 超参数调优 | 检测当前配置是否计算最优 |
| 架构选择 | 比较不同架构的Collapse质量 |
| 训练效率 | 预测大模型的训练时长 |
| 异常检测 | 发现错误的参数化设置 |
7. 与现有工作的联系
- scaling-laws-feature-learning-regime:Feature Learning Regime下的Scaling Laws
- scaling-laws-linear-regression:线性回归框架下的Scaling Laws
- scaling-collapse-supercollapse:(本文档)
参考文献
Footnotes
-
Qiu, S. et al. (2025). Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks. arXiv:2507.02119. ↩