背景:Scaling Laws与训练动态
近年来,机器学习领域的进展主要由**神经缩放定律(Neural Scaling Laws)**驱动,这些定律揭示了模型性能如何随参数数量、训练数据和计算预算扩展1。其中,计算最优缩放定律(Compute-Optimal Scaling Laws)预测了在给定计算预算下可达到的最小损失。然而,现有研究大多关注最终损失值本身,而对训练过程中的完整损失曲线行为缺乏深入理解。
一个关键的问题是:当模型大小和训练时长同步增长时,什么样的缩放规律支配着神经网络的训练动态?尽管架构、优化器、数据之间的复杂交互使得预测性理论难以建立,Qiu等人(2025)的研究表明,计算最优训练的模型展现出 remarkably precise universality(极为精确的普适性)1。
Scaling Collapse现象
核心发现
Scaling Collapse 描述了一个令人惊讶的现象:不同规模的计算最优训练模型,其完整损失曲线在经过简单的归一化处理后,会坍缩(collapse)到同一条通用曲线上1。
具体而言,当我们将训练计算量 和可归约损失 在训练结束时归一化为1时,不同模型尺寸的损失曲线展现出高度一致的形状:
其中 为初始损失, 为不可约损失(irreducible loss)。
计算归一化下的通用性
这种通用性的数学基础与典型神经缩放定律中的幂律结构密切相关。研究发现,损失-计算的Pareto前沿通常呈现幂律形式:
其中 为缩放指数。当训练按照计算最优的方式进行时(即模型大小与训练时长按照Chinchilla等定律协调扩展),这种幂律结构在整个训练过程中保持一致,从而导致损失曲线的尺度不变性。
幂律结构与超收敛
值得注意的是,这种幂律结构与训练动态中的**超收敛(Superconvergence)**现象存在有趣的关联。Leslie Smith提出的超收敛表明,使用大学习率和学习率循环可以在保持泛化能力的同时大幅加速训练2。
而Scaling Collapse则揭示了另一种形式的普适性:不仅最终性能可预测,整个训练轨迹在尺度变换下都是稳定的。这种稳定性为理解和预测大规模训练提供了重要理论基础。
Supercollapse:LR衰减下的极致收缩
定义与特征
当引入**学习率衰减(Learning Rate Decay)**时,Scaling Collapse的现象会得到显著增强,产生一种更强的形式——Supercollapse1。
Supercollapse的定义是:归一化后不同模型之间的损失曲线差异 小于单个模型在不同随机种子下的损失噪声水平 :
其中 可以达到0.5甚至更大,意味着在训练的大部分后期阶段(约50%或更多),cross-scale的差异已经低于随机性引入的噪声底。
数学刻画
Supercollapse的关键在于学习率衰减期间跨模型差异的精确标度关系。研究发现1:
其中 是瞬时学习率, 是归一化的梯度流时间。这个公式定量解释了学习率衰减如何通过降低噪声水平来改善曲线坍缩效果。
实验验证
Supercollapse已在多种场景中得到验证:
| 实验条件 | 观察结果 |
|---|---|
| 学习率调度 | 各种衰减到零的调度都产生各自的通用曲线 |
| 数据集 | CIFAR-5M、next-token预测等多种数据集 |
| 架构 | Transformer、MLP等多种神经网络 |
| 训练任务 | 图像建模、语言建模 |
所有这些场景中,当使用线性学习率衰减时,Supercollapse现象最为明显和稳定。
理论解释:SGD噪声动态模型
模型建立
为了解释Scaling Collapse和Supercollapse,研究者建立了一个简单但出乎意料地有效的SGD噪声动态模型1。该模型的核心假设包括:
- 梯度噪声的尺度依赖性:在计算最优训练设置下,梯度噪声与模型规模存在特定的标度关系
- 学习率与噪声的相互作用:学习率衰减通过降低噪声的相对影响来改善收敛
预测能力
这个简化的模型能够:
- 准确预测不同学习率调度下各尺度模型的损失曲线
- 定量解释学习率衰减如何导致Supercollapse
- 解释为什么不同架构和数据集都展现出相似的行为
关键洞察
SGD噪声动态分析揭示了一个深刻的事实:学习率衰减不仅有助于优化收敛,更重要的是它通过降低随机梯度噪声的相对影响,使得不同规模模型的行为趋于一致。这为Supercollapse提供了精确的数学解释。
实践意义
超参数转移
Scaling Collapse的一个重要应用是超参数转移(Hyperparameter Transfer)。由于不同规模模型在归一化空间中展现出相似的训练动态,我们可以在小规模模型上调试超参数,然后直接转移到大规模模型:
- 在小规模模型上确定最优学习率调度
- 观察损失曲线是否符合预期的坍缩形状
- 直接应用相同的归一化策略到大规模模型
坏Scaling的诊断
Supercollapse还提供了一个精确且实用的Scaling质量指标1。当观察到以下情况时,可能表明超参数Scaling不理想:
- 归一化损失曲线未能坍缩到单一曲线
- 跨模型差异超过了预期的噪声水平
- 损失曲线的形状偏离了幂律结构
这种诊断方法的优势在于:
- 早期预警:可以在训练早期发现Scaling问题
- 敏感性高:对小规模模型也能有效诊断
- 直观可解释:提供清晰的失败模式信号
早期停止与计算节省
基于Scaling Collapse的预测能力,研究者还展示了如何利用可预测的坍缩曲线进行早期停止,这在大规模超参数调优中可以显著节省计算资源3。
与现有Scaling Laws研究的联系
经典Scaling Laws
Scaling Collapse建立在已有的神经缩放定律研究基础上1:
- Hestness et al. (2017):首次系统研究神经网络的性能缩放
- Kaplan et al. (2020):提出GPT系列的缩放定律
- Hoffmann et al. (2022):Chinchilla定律,优化训练token数量分配
这些研究主要关注最终损失值与计算预算的关系,而Scaling Collapse则将这种可预测性扩展到了完整的训练轨迹。
宽度/深度缩放
Scaling Collapse还与神经网络参数化研究密切相关:
- P(最大更新参数化):确保不同宽度/深度模型的训练动态保持一致
- 无限宽度极限:为理解参数化缩放提供了理论基础
Neural Collapse
与分类任务中的Neural Collapse现象(表示坍缩到类中心、超球面均匀性等)不同4,Scaling Collapse关注的是跨模型规模的通用训练动态,是一个不同层面的普适性现象。
Model Collapse
需要区分的是,Scaling Collapse描述的是正常的、可预测的训练动态,与训练数据污染导致的Model Collapse现象完全不同5。后者描述的是模型在合成数据上反复训练导致的性能退化。
必要条件总结
Supercollapse的出现需要满足以下必要条件1:
- 计算最优训练:模型大小与训练时长按照最优比例协调扩展
- 学习率衰减:学习率需要按照相对训练比例衰减到零
- 幂律计算-损失Pareto前沿:损失-计算关系需要呈现良好的幂律结构
- 准确的不可约损失估计:不可约损失的估计精度影响坍缩质量
结论
Scaling Collapse和Supercollapse揭示了神经网络训练中一个深刻而美丽的普适性现象:尽管模型架构、优化器、数据之间存在复杂的相互作用,计算最优训练的模型在归一化空间中展现出极为精确的一致性。
这一发现不仅具有理论意义,更具有重要的实践价值:
- 为大规模训练提供了可预测性基础
- 提供了Scaling质量的精确诊断工具
- 深化了我们对神经网络训练动态的理解
未来,这一研究可能进一步揭示由计算最优缩放程序诱导的更广泛的动态普适性(dynamical universality)。
参考
Footnotes
-
Qiu, S., Xiao, L., Wilson, A. G., Pennington, J., & Agarwala, A. (2025). Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks. Proceedings of the 42nd International Conference on Machine Learning, PMLR 267:50697-50720. arXiv:2507.02119 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9
-
Smith, L. N. (2017). Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates. arXiv:1708.07120 ↩
-
Scaling with Collapse (2025). Efficient and Predictable Training of LLM Families. arXiv:2509.25087 ↩
-
Papyan, V. (2020). Neural Collapse: A Modern Perspective on an Old Observation. arXiv:2405.17767 ↩
-
Dohmatob, E. (2024). A Tale of Tails: Model Collapse as a Change of Scaling Laws. Proceedings of the 41st International Conference on Machine Learning, PMLR 235:6195-6223 ↩