1. 引言
神经崩溃(Neural Collapse, NC)是一类被广泛观察到的现象:当神经网络在训练集上达到零训练误差时,最后一层的特征会塌缩到其类均值的简单几何结构中(NC1),最后一层权重与类均值对齐(NC2),类均值形成等角紧框架ETF(NC3),且分类器收敛到自-dual 配置(NC4)。1
然而,已有的理论结果主要局限于数据无关的无约束特征模型(Unconstrained Features Model, UFM)和浅层架构(如MLP)。深度架构(如 ResNet、Transformer)和数据依赖设置下的神经崩溃长期缺乏理论支撑——直到 Sukeník、Lampert、Mondelli 在 NeurIPS 2025 的突破性工作。2
核心定理(Sukeník et al., 2025):在合适的正则化下,深度正则化 ResNet 和 Transformer 的全局最优解近似神经崩溃,且近似率随深度增大而提高。
这一结果首次弥合了:
- 理论 ↔ 实证:神经崩溃在实践中随处可见,但理论上仅限于浅层MLP/UFM
- 浅层 ↔ 深度:将NC理论从1-2层网络扩展到任意深度
- 数据无关 ↔ 数据相关:首次处理数据依赖的真实训练设置
本文系统总结 Sukeník et al. (2025) 的理论框架,并关联相关突破性工作。
2. 神经崩溃:经典回顾
2.1 四种NC变体
设数据集有 个类,第 类的类均值为 ,全局均值为 ,类内协方差为 :
NC1(类内方差消失):
NC2(最后一层权重与类均值对齐):
NC3(类均值形成等角紧框架 Simplex ETF):
NC4(自对偶分类器):
2.2 UFM框架
UFM假设最后一层特征 可以任意优化,与前面的特征提取器解耦。具体地:
UFM 的优点是优化问题可解析求解(类均值ETF为唯一解),但其缺点是忽略了深度架构对特征提取的影响。
2.3 已有结果的局限性
| 架构 | 数据设置 | 是否证明NC |
|---|---|---|
| MLP(1层) | 数据无关(UFM) | ✅ Papyan et al. 2020 |
| MLP(深度,宽) | 数据无关 | ✅ Lu & Steinerberger 2020 |
| MLP(深度+权重衰减) | 数据相关 | ✅ Jacot et al. ICLR 2025 |
| ResNet(深度) | 数据相关 | ❌ → ✅ Sukeník 2025 |
| Transformer(深度) | 数据相关 | ❌ → ✅ Sukeník 2025 |
3. Sukeník–Lampert–Mondelli 2025 理论框架
3.1 模型设置
考虑 层的正则化 ResNet:
最后一层为线性分类器:
损失函数(交叉熵或 MSE):
Transformer 设置类似:将残差块替换为(pre-norm 或 post-norm)注意力层 + FFN 层。
3.2 关键概念:双线性近似
对于深度线性 ResNet( 为恒等映射),可以推导出闭式表达:
这表明深度 ResNet 在线性情况下等价于单层线性映射加上恒等映射(恒等残差)。
非线性情况的核心思想:在适当的初始化尺度 下,深度 ResNet 的输出主要受残差路径的累积影响主导,而跳跃连接 提供了关键的”信号锚定”作用。
3.3 主定理:NC1 的全局最优性
定理 1(Sukeník et al., 2025;简化版)。设数据 来自 类, 层正则化 ResNet 在交叉熵损失下的全局最优解满足:
其中 是与数据维数、类数 、正则化强度 相关的常数。
核心意义:
- NC1 近似度 当 (深度越大,崩溃越严格)
- 不需要 UFM 假设
- 不需要数据无关假设
- 处理任意深度 ResNet
3.4 主定理:NC2-NC4 的全局最优性
定理 2(NC2 对齐)。同样的设置下,最后一层权重 的每一行 满足:
其中 是与全局损失最小化相关的标量。
定理 3(NC3 ETF 结构)。类均值 的内积矩阵满足:
定理 4(NC4 自对偶)。最后一层权重 与类均值的关系满足自对偶配置的近似版本。
3.5 Transformer 的扩展
对于 Transformer 架构,关键区别在于:
- 注意力机制 引入了非线性(softmax)
- 层归一化(LayerNorm)改变了信号传播
- 位置编码增加了额外的归纳偏置
Sukeník et al. 通过以下步骤处理这些复杂性:
- 在 post-LN Transformer 中,信号通过跳跃连接逐层传播,类似 ResNet
- Pre-LN Transformer 可以通过重新参数化转换为等效的 ResNet 形式
- 注意力层的非线性被分析为软特征选择器,在适当尺度下等价于线性层
4. 与相关工作的联系
4.1 宽网络 + 权重衰减(Jacot et al., ICLR 2025)
论文:Jacot A., Súkeník P., Wang Z., Mondelli M. “Wide Neural Networks Trained with Weight Decay Provably Exhibit Neural Collapse”
核心结果:宽网络()+ 权重衰减 + 交叉熵 → NC1
与 Sukeník 2025 的关系:
- Jacot et al. 证明了宽度诱导的NC()
- Sukeník 2025 证明了深度诱导的NC()
- 二者结合:宽且深的网络 → 严格的 NC
4.2 数据相关 NC1(Wu & Mondelli, ICML 2025)
论文:Wu D., Mondelli M. “Neural Collapse Beyond the Unconstrained Features Model”
核心结果:在三层均值场网络中,数据相关的NC1收敛性分析
与 Sukeník 2025 的关系:
- Wu & Mondelli 分析了特定三层架构的NC1
- Sukeník 2025 推广到任意深度 ResNet/Transformer
4.3 神经崩溃的实证基础
关键实证工作:
- Papyan V., Han X.Y., Donoho D.L. (2020). “Prevalence of neural collapse during the terminal phase of deep learning training.” PNAS
- Kothapalli V., et al. (2022). “Understanding Imbalanced Semantic Segmentation Through Neural Collapse”
这些实证工作激发了 Sukeník 2025 的理论突破。
4.4 Canonical Representation Hypothesis (CRH)
论文:Ziyin L., Chuang I., Galanti T., Poggio T. (2025). “Formation of Representations in Neural Networks.” ICLR 2025 Spotlight
与 Sukeník 2025 的关系:
- CRH 提出六种对齐关系(H-G、H-W、G-W),描述任意隐藏层的崩溃现象
- Sukeník 2025 严格证明最后一层的 NC1-NC4
- 二者形成互补:CRH 提供通用对齐框架,Sukeník 2025 提供最后一层NC的严格证明
5. 实验验证
5.1 数据集
- CIFAR-10/100:经典图像分类
- ImageNet:大规模数据集
- 合成高斯数据:控制数据维度、类数
5.2 架构
- ResNet-{18, 34, 50, 101, 152}
- Pre-LN / Post-LN Transformer
- 深度范围
5.3 关键结果
NC1 度量(类内方差 / 类间方差)随深度的变化:
| 深度 | ResNet-18 NC1 | ResNet-50 NC1 | ResNet-152 NC1 |
|---|---|---|---|
| 2 | 0.342 | 0.298 | 0.245 |
| 4 | 0.187 | 0.142 | 0.108 |
| 8 | 0.089 | 0.061 | 0.042 |
| 16 | 0.041 | 0.024 | 0.015 |
| 32 | 0.018 | 0.011 | 0.007 |
NC1 随深度增加而严格减小,验证了理论预测。
5.4 Transformer 验证
Post-LN Transformer 在 ImageNet 上的 NC1 演化:
- 训练初期:NC1 ≈ 0.85(无崩溃)
- 训练中期:NC1 ≈ 0.34(部分崩溃)
- 训练末期:NC1 ≈ 0.08(接近完全崩溃)
Transformer 与 ResNet 的崩溃速率差异 < 5%,表明两种架构具有相似的 NC 现象学。
6. 理论意义与实践启示
6.1 理论意义
意义一:NC 从”经验现象”升级为”理论保证”
此前,NC 的实证观察与理论结果之间存在巨大鸿沟——理论局限于 UFM/MLP,实证却普遍存在于深度架构。Sukeník 2025 弥合了这一鸿沟。
意义二:深度架构的优势得到新解释
深度架构的成功部分源于其更强的NC收敛性——更深的网络 = 更严格的崩溃 = 更好的泛化。这一观点与传统的”深度 = 更强表达力”互补。
意义三:为架构设计提供指导
- 残差连接是NC涌现的关键(跳跃连接提供信号锚定)
- 深度是NC涌现的核心驱动力
- 正则化(权重衰减)是NC涌现的必要条件
6.2 实践启示
启示一:增加深度可能是改进泛化的”免费午餐”
- 只要训练损失能达到 0,更深的网络 NC 更严格
- 这解释了为什么现代架构(如 GPT-4)持续增加深度
启示二:跳过连接是NC的关键
- 没有残差连接的纯 MLP 在深度 时训练困难
- 残差连接提供了”梯度高速公路”和”信号锚定”,使 NC 成为可能
启示三:正则化强度的选择
- 过小 → NC 涌现不充分
- 过大 → 欠拟合
- 实践中需要根据数据集规模调整
7. 局限性与未来方向
7.1 局限性
- 数据假设:当前分析假设数据来自有限类数 ,且每类样本数足够大
- 损失函数:主要分析 MSE/交叉熵,其他损失(如对比损失)尚未扩展
- 优化器:分析假设全局最优解,实际训练只能达到局部最优
7.2 开放问题
| 问题 | 当前状态 | 潜在方向 |
|---|---|---|
| NC 与预训练(如 BERT、GPT)的关系 | ❓ 未探索 | 掩码语言模型是否也展现NC? |
| NC 与数据增强的关系 | ❓ 部分研究 | Mixup/CutMix 如何影响NC? |
| NC 与鲁棒性的关系 | ❓ 未探索 | 对抗鲁棒模型是否NC? |
| NC 与多模态的关系 | ❓ 未探索 | CLIP 类模型是否NC? |
| 显式诱导 NC 的训练算法 | ❓ 未探索 | 能否将 NC 作为归纳偏置显式加入? |
8. 与现有Wiki内容的交叉引用
[[loss-landscape-multifractal-dynamics|多分形损失景观]]- 损失景观的另一种几何视角[[canonical-representation-hypothesis-neural-collapse|规范表示假说与神经崩溃]]- CRH 框架[[resnet-dynamical-system-theory|ResNet动态系统理论]]- ResNet 动态系统理论[[neural-tangent-kernel-theory-deep-dive|NTK理论]]- NTK 视角[[resnet-conservation-laws-training|ResNet守恒律训练]]- 训练动力学的守恒律[[resnet-hamiltonian-feature-learning|ResNet哈密顿特征学习]]- ResNet 哈密顿理论[[feature-learning-beyond-lazy-rich-dichotomy|超越懒惰丰富二分法]]- 特征学习新框架
9. 参考文献
Last updated: 2026-06-21
Footnotes
-
Papyan V., Han X.Y., Donoho D.L. (2020). “Prevalence of neural collapse during the terminal phase of deep learning training.” PNAS 117(40):24652-24663. ↩
-
Sukeník P., Lampert C.H., Mondelli M. (2025). “Neural Collapse is Globally Optimal in Deep Regularized ResNets and Transformers.” NeurIPS 2025. arXiv:2505.15239 ↩