Scaling Collapse与Supercollapse理论

概述

深度学习中一个长期存在的谜题是：尽管神经网络架构、训练算法和数据多样，但计算最优训练下的模型展现出惊人的规律性。arXiv:2507.02119 揭示了Scaling Collapse现象——不同大小模型的损失曲线在归一化后完全重合，并进一步发现Supercollapse——当超参数缩放最优时，归一化差异低于随机种子的噪声floor。¹

1. Scaling Collapse现象

1.1 定义

Scaling Collapse：当训练计算量和损失在训练结束时归一化到统一尺度时，不同大小模型的损失曲线精确叠加。

1.2 数学形式

定义归一化损失：

\tilde{L} (c, p, ω) = \frac{L ( c , p , ω ) - L _{0} ( p , ω )}{L ( c ^{⋆} ( p ) , p , ω ) - L _{0} ( p , ω )}

其中：

$c$ ：训练计算量
$p$ ：模型参数数量
$ω$ ：随机种子
$c^{⋆} (p)$ ： $p$ -参数模型的最优训练时长
$L_{0} (p, ω)$ ：不可约损失（通常为随机初始化损失的期望）

1.3 关键发现

定理1（Scaling Collapse）：对于计算最优训练（即 $c^{⋆} (p) \propto p^{ν / μ}$ ），归一化损失曲线满足：

\tilde{L} (c p^{1/ μ}, p) \approx \tilde{L} (c, p_{0}) \forall p, p_{0}

这意味着所有模型的损失曲线可通过简单的水平平移叠加。

2. Supercollapse现象

2.1 定义

Supercollapse：当超参数（特别是学习率）按最优方式缩放时，不同模型间的归一化损失差异低于单个模型跨随机种子的噪声水平。

2.2 数学条件

Supercollapse发生的条件：

Var_{ω} [\tilde{L} (c, p_{0}, ω)] > p max ∣ \tilde{L} (c, p, ω_{0}) - \tilde{L} (c, p_{0}, ω_{0}) ∣

即：跨种子的噪声大于跨模型大小的差异。

2.3 必要条件

条件	说明
学习率衰减	恒定学习率下不发生
计算最优数据指数 $γ$	必须接近理论最优值
归一化参考	需使用随机种子的经验最终损失

3. SGD噪声动态模型

3.1 连续时间模型

在梯度流时间 $τ$ 下，离散SGD近似为SDE：

d w (τ) = - \nabla L (w) d τ + η (τ) Σ^{1/2} (w) d B (τ) (1)

其中：

$η (τ)$ ：学习率调度
$Σ (w)$ ：噪声协方差
$B (τ)$ ：布朗运动

3.2 损失动力学近似

在梯度流时间下，简化SDE为：

\frac{d L}{d τ} = - ∥\nabla L ∥^{2} + η Tr (Σ) + o (η)

3.3 解析损失曲线

定义 $F (τ) = min_{w} L (w)$ ，则损失动力学近似为：

\overset{ˉ}{L} (τ) \approx F (τ) + \frac{1}{4} η (τ) Tr (\overset{ˉ}{Σ} (τ)) (2)

其中 $\overset{ˉ}{Σ} (τ)$ 是沿轨道的平均噪声协方差。

3.4 关键洞察

发现：只需一个共享参数 $α \approx 0.21$ 即可跨不同学习率调度预测损失曲线！

Tr (Σ) \approx α \cdot η \cdot ∥\nabla L ∥^{2}

4. 幂律结构与Collapse的联系

4.1 经典Scaling Laws

经典缩放定律指出性能与计算量的幂律关系：

L \propto c^{- β} + L_{0}

4.2 Pareto前沿分析

考虑 $k$ 个可独立缩放的因素（如参数、数据、计算），Pareto前沿满足：

L (c_{1}, \dots, c_{k}) \propto (i \sum c_{i}^{1/ β_{i}})^{- β_{min}} + L_{0}

4.3 Collapse的必要条件

定理2：Scaling Collapse发生的必要条件是Pareto前沿上存在”平局”：

β_{1} = β_{2} = \dots = β_{k} < β_{k + 1}

即多个因素以相同速率缩放时发生精确叠加。

4.4 与计算最优性的联系

计算最优性迫使：

t^{⋆} (p) \propto p^{ν / μ}

其中 $μ$ 和 $ν$ 是数据-参数和计算-性能指数。这导致：

L \propto (c p^{1/ μ})^{- μ / ν} + L_{0}

从而发生精确的Scaling Collapse。

5. 超参数缩放指南

5.1 学习率缩放

参数范围	学习率缩放
$N \to \infty$ （ $μ$ P）	$η \propto p^{- 1}$
$N$ 固定	$η \propto p^{- 1/2}$
其他初始化	需经验调整

5.2 其他超参数

超参数	缩放建议
Batch Size	可固定，不影响Collapse
权重衰减	$λ \propto p^{- 1}$ （ $μ$ P）
Warmup步数	$T_{w} \propto p^{1/ μ}$

5.3 Collapse诊断

检测配置是否为计算最优：

训练多个不同大小模型
绘制归一化损失曲线
观察是否发生Collapse
若不Collapse，检查：
- 学习率是否按比例缩放
- 是否使用学习率衰减
- 数据-参数比例是否合理

6. 实用指标

6.1 Collapse质量指标

Collapse Score = \frac{Var _{ω} [ L ~ ( c , p _{0} , ω )]}{max _{p, ω_{0}} ∣ L ~ ( c , p , ω _{0} ) - L ~ ( c , p _{0} , ω _{0} ) ∣}

当 Collapse Score > 1 时发生Supercollapse。

6.2 应用场景

场景	应用方式
超参数调优	检测当前配置是否计算最优
架构选择	比较不同架构的Collapse质量
训练效率	预测大模型的训练时长
异常检测	发现错误的参数化设置

7. 与现有工作的联系

scaling-laws-feature-learning-regime：Feature Learning Regime下的Scaling Laws
scaling-laws-linear-regression：线性回归框架下的Scaling Laws
scaling-collapse-supercollapse：（本文档）

参考文献

Qiu, S. et al. (2025). Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks. arXiv:2507.02119. ↩

Metaphor

探索

Scaling Collapse与Supercollapse理论

Scaling Collapse与Supercollapse理论

概述

1. Scaling Collapse现象

1.1 定义

1.2 数学形式

1.3 关键发现

2. Supercollapse现象

2.1 定义

2.2 数学条件

2.3 必要条件

3. SGD噪声动态模型

3.1 连续时间模型

3.2 损失动力学近似

3.3 解析损失曲线

3.4 关键洞察

4. 幂律结构与Collapse的联系

4.1 经典Scaling Laws

4.2 Pareto前沿分析

4.3 Collapse的必要条件

4.4 与计算最优性的联系

5. 超参数缩放指南

5.1 学习率缩放

5.2 其他超参数

5.3 Collapse诊断

6. 实用指标

6.1 Collapse质量指标

6.2 应用场景

7. 与现有工作的联系

参考文献

关系图谱

目录

Metaphor

探索

Scaling Collapse与Supercollapse理论

Scaling Collapse与Supercollapse理论

概述

1. Scaling Collapse现象

1.1 定义

1.2 数学形式

1.3 关键发现

2. Supercollapse现象

2.1 定义

2.2 数学条件

2.3 必要条件

3. SGD噪声动态模型

3.1 连续时间模型

3.2 损失动力学近似

3.3 解析损失曲线

3.4 关键洞察

4. 幂律结构与Collapse的联系

4.1 经典Scaling Laws

4.2 Pareto前沿分析

4.3 Collapse的必要条件

4.4 与计算最优性的联系

5. 超参数缩放指南

5.1 学习率缩放

5.2 其他超参数

5.3 Collapse诊断

6. 实用指标

6.1 Collapse质量指标

6.2 应用场景

7. 与现有工作的联系

参考文献

Footnotes

关系图谱

目录