Scaling Collapse与Supercollapse理论

概述

深度学习中一个长期存在的谜题是:尽管神经网络架构、训练算法和数据多样,但计算最优训练下的模型展现出惊人的规律性。arXiv:2507.02119 揭示了Scaling Collapse现象——不同大小模型的损失曲线在归一化后完全重合,并进一步发现Supercollapse——当超参数缩放最优时,归一化差异低于随机种子的噪声floor。1


1. Scaling Collapse现象

1.1 定义

Scaling Collapse:当训练计算量和损失在训练结束时归一化到统一尺度时,不同大小模型的损失曲线精确叠加。

1.2 数学形式

定义归一化损失:

其中:

  • :训练计算量
  • :模型参数数量
  • :随机种子
  • -参数模型的最优训练时长
  • :不可约损失(通常为随机初始化损失的期望)

1.3 关键发现

定理1(Scaling Collapse):对于计算最优训练(即 ),归一化损失曲线满足:

这意味着所有模型的损失曲线可通过简单的水平平移叠加。


2. Supercollapse现象

2.1 定义

Supercollapse:当超参数(特别是学习率)按最优方式缩放时,不同模型间的归一化损失差异低于单个模型跨随机种子的噪声水平。

2.2 数学条件

Supercollapse发生的条件:

即:跨种子的噪声大于跨模型大小的差异。

2.3 必要条件

条件说明
学习率衰减恒定学习率下不发生
计算最优数据指数 必须接近理论最优值
归一化参考需使用随机种子的经验最终损失

3. SGD噪声动态模型

3.1 连续时间模型

在梯度流时间 下,离散SGD近似为SDE:

其中:

  • :学习率调度
  • :噪声协方差
  • :布朗运动

3.2 损失动力学近似

在梯度流时间下,简化SDE为:

3.3 解析损失曲线

定义 ,则损失动力学近似为:

其中 是沿轨道的平均噪声协方差。

3.4 关键洞察

发现:只需一个共享参数 即可跨不同学习率调度预测损失曲线!


4. 幂律结构与Collapse的联系

4.1 经典Scaling Laws

经典缩放定律指出性能与计算量的幂律关系:

4.2 Pareto前沿分析

考虑 个可独立缩放的因素(如参数、数据、计算),Pareto前沿满足:

4.3 Collapse的必要条件

定理2:Scaling Collapse发生的必要条件是Pareto前沿上存在”平局”:

即多个因素以相同速率缩放时发生精确叠加。

4.4 与计算最优性的联系

计算最优性迫使:

其中 是数据-参数和计算-性能指数。这导致:

从而发生精确的Scaling Collapse


5. 超参数缩放指南

5.1 学习率缩放

参数范围学习率缩放
P)
固定
其他初始化需经验调整

5.2 其他超参数

超参数缩放建议
Batch Size可固定,不影响Collapse
权重衰减P)
Warmup步数

5.3 Collapse诊断

检测配置是否为计算最优:

  1. 训练多个不同大小模型
  2. 绘制归一化损失曲线
  3. 观察是否发生Collapse
  4. 若不Collapse,检查:
    • 学习率是否按比例缩放
    • 是否使用学习率衰减
    • 数据-参数比例是否合理

6. 实用指标

6.1 Collapse质量指标

当 Collapse Score > 1 时发生Supercollapse。

6.2 应用场景

场景应用方式
超参数调优检测当前配置是否计算最优
架构选择比较不同架构的Collapse质量
训练效率预测大模型的训练时长
异常检测发现错误的参数化设置

7. 与现有工作的联系


参考文献

Footnotes

  1. Qiu, S. et al. (2025). Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks. arXiv:2507.02119.