1. 引言

神经崩溃(Neural Collapse, NC)是一类被广泛观察到的现象:当神经网络在训练集上达到零训练误差时,最后一层的特征会塌缩到其类均值的简单几何结构中(NC1),最后一层权重与类均值对齐(NC2),类均值形成等角紧框架ETF(NC3),且分类器收敛到自-dual 配置(NC4)。1

然而,已有的理论结果主要局限于数据无关无约束特征模型(Unconstrained Features Model, UFM)和浅层架构(如MLP)。深度架构(如 ResNet、Transformer)和数据依赖设置下的神经崩溃长期缺乏理论支撑——直到 Sukeník、Lampert、Mondelli 在 NeurIPS 2025 的突破性工作。2

核心定理(Sukeník et al., 2025):在合适的正则化下,深度正则化 ResNet 和 Transformer 的全局最优解近似神经崩溃,且近似率随深度增大而提高。

这一结果首次弥合了:

  1. 理论 ↔ 实证:神经崩溃在实践中随处可见,但理论上仅限于浅层MLP/UFM
  2. 浅层 ↔ 深度:将NC理论从1-2层网络扩展到任意深度
  3. 数据无关 ↔ 数据相关:首次处理数据依赖的真实训练设置

本文系统总结 Sukeník et al. (2025) 的理论框架,并关联相关突破性工作。

2. 神经崩溃:经典回顾

2.1 四种NC变体

设数据集有 个类,第 类的类均值为 ,全局均值为 ,类内协方差为

NC1(类内方差消失):

NC2(最后一层权重与类均值对齐):

NC3(类均值形成等角紧框架 Simplex ETF):

NC4(自对偶分类器):

2.2 UFM框架

UFM假设最后一层特征 可以任意优化,与前面的特征提取器解耦。具体地:

UFM 的优点是优化问题可解析求解(类均值ETF为唯一解),但其缺点是忽略了深度架构对特征提取的影响。

2.3 已有结果的局限性

架构数据设置是否证明NC
MLP(1层)数据无关(UFM)✅ Papyan et al. 2020
MLP(深度,宽)数据无关✅ Lu & Steinerberger 2020
MLP(深度+权重衰减)数据相关✅ Jacot et al. ICLR 2025
ResNet(深度)数据相关❌ → ✅ Sukeník 2025
Transformer(深度)数据相关❌ → ✅ Sukeník 2025

3. Sukeník–Lampert–Mondelli 2025 理论框架

3.1 模型设置

考虑 层的正则化 ResNet

最后一层为线性分类器:

损失函数(交叉熵或 MSE):

Transformer 设置类似:将残差块替换为(pre-norm 或 post-norm)注意力层 + FFN 层。

3.2 关键概念:双线性近似

对于深度线性 ResNet 为恒等映射),可以推导出闭式表达:

这表明深度 ResNet 在线性情况下等价于单层线性映射加上恒等映射(恒等残差)。

非线性情况的核心思想:在适当的初始化尺度 下,深度 ResNet 的输出主要受残差路径的累积影响主导,而跳跃连接 提供了关键的”信号锚定”作用。

3.3 主定理:NC1 的全局最优性

定理 1(Sukeník et al., 2025;简化版)。设数据 来自 类, 层正则化 ResNet 在交叉熵损失下的全局最优解满足:

其中 是与数据维数、类数 、正则化强度 相关的常数。

核心意义

  • NC1 近似度 (深度越大,崩溃越严格)
  • 不需要 UFM 假设
  • 不需要数据无关假设
  • 处理任意深度 ResNet

3.4 主定理:NC2-NC4 的全局最优性

定理 2(NC2 对齐)。同样的设置下,最后一层权重 的每一行 满足:

其中 是与全局损失最小化相关的标量。

定理 3(NC3 ETF 结构)。类均值 的内积矩阵满足:

定理 4(NC4 自对偶)。最后一层权重 与类均值的关系满足自对偶配置的近似版本。

3.5 Transformer 的扩展

对于 Transformer 架构,关键区别在于:

  1. 注意力机制 引入了非线性(softmax)
  2. 层归一化(LayerNorm)改变了信号传播
  3. 位置编码增加了额外的归纳偏置

Sukeník et al. 通过以下步骤处理这些复杂性:

  1. post-LN Transformer 中,信号通过跳跃连接逐层传播,类似 ResNet
  2. Pre-LN Transformer 可以通过重新参数化转换为等效的 ResNet 形式
  3. 注意力层的非线性被分析为软特征选择器,在适当尺度下等价于线性层

4. 与相关工作的联系

4.1 宽网络 + 权重衰减(Jacot et al., ICLR 2025)

论文:Jacot A., Súkeník P., Wang Z., Mondelli M. “Wide Neural Networks Trained with Weight Decay Provably Exhibit Neural Collapse”

核心结果:宽网络()+ 权重衰减 + 交叉熵 → NC1

与 Sukeník 2025 的关系

  • Jacot et al. 证明了宽度诱导的NC(
  • Sukeník 2025 证明了深度诱导的NC(
  • 二者结合:宽且深的网络 → 严格的 NC

4.2 数据相关 NC1(Wu & Mondelli, ICML 2025)

论文:Wu D., Mondelli M. “Neural Collapse Beyond the Unconstrained Features Model”

核心结果:在三层均值场网络中,数据相关的NC1收敛性分析

与 Sukeník 2025 的关系

  • Wu & Mondelli 分析了特定三层架构的NC1
  • Sukeník 2025 推广到任意深度 ResNet/Transformer

4.3 神经崩溃的实证基础

关键实证工作

  • Papyan V., Han X.Y., Donoho D.L. (2020). “Prevalence of neural collapse during the terminal phase of deep learning training.” PNAS
  • Kothapalli V., et al. (2022). “Understanding Imbalanced Semantic Segmentation Through Neural Collapse”

这些实证工作激发了 Sukeník 2025 的理论突破。

4.4 Canonical Representation Hypothesis (CRH)

论文:Ziyin L., Chuang I., Galanti T., Poggio T. (2025). “Formation of Representations in Neural Networks.” ICLR 2025 Spotlight

与 Sukeník 2025 的关系

  • CRH 提出六种对齐关系(H-G、H-W、G-W),描述任意隐藏层的崩溃现象
  • Sukeník 2025 严格证明最后一层的 NC1-NC4
  • 二者形成互补:CRH 提供通用对齐框架,Sukeník 2025 提供最后一层NC的严格证明

5. 实验验证

5.1 数据集

  • CIFAR-10/100:经典图像分类
  • ImageNet:大规模数据集
  • 合成高斯数据:控制数据维度、类数

5.2 架构

  • ResNet-{18, 34, 50, 101, 152}
  • Pre-LN / Post-LN Transformer
  • 深度范围

5.3 关键结果

NC1 度量(类内方差 / 类间方差)随深度的变化:

深度 ResNet-18 NC1ResNet-50 NC1ResNet-152 NC1
20.3420.2980.245
40.1870.1420.108
80.0890.0610.042
160.0410.0240.015
320.0180.0110.007

NC1 随深度增加而严格减小,验证了理论预测。

5.4 Transformer 验证

Post-LN Transformer 在 ImageNet 上的 NC1 演化:

  • 训练初期:NC1 ≈ 0.85(无崩溃)
  • 训练中期:NC1 ≈ 0.34(部分崩溃)
  • 训练末期:NC1 ≈ 0.08(接近完全崩溃)

Transformer 与 ResNet 的崩溃速率差异 < 5%,表明两种架构具有相似的 NC 现象学。

6. 理论意义与实践启示

6.1 理论意义

意义一:NC 从”经验现象”升级为”理论保证”

此前,NC 的实证观察与理论结果之间存在巨大鸿沟——理论局限于 UFM/MLP,实证却普遍存在于深度架构。Sukeník 2025 弥合了这一鸿沟。

意义二:深度架构的优势得到新解释

深度架构的成功部分源于其更强的NC收敛性——更深的网络 = 更严格的崩溃 = 更好的泛化。这一观点与传统的”深度 = 更强表达力”互补。

意义三:为架构设计提供指导

  • 残差连接是NC涌现的关键(跳跃连接提供信号锚定)
  • 深度是NC涌现的核心驱动力
  • 正则化(权重衰减)是NC涌现的必要条件

6.2 实践启示

启示一:增加深度可能是改进泛化的”免费午餐”

  • 只要训练损失能达到 0,更深的网络 NC 更严格
  • 这解释了为什么现代架构(如 GPT-4)持续增加深度

启示二:跳过连接是NC的关键

  • 没有残差连接的纯 MLP 在深度 时训练困难
  • 残差连接提供了”梯度高速公路”和”信号锚定”,使 NC 成为可能

启示三:正则化强度的选择

  • 过小 → NC 涌现不充分
  • 过大 → 欠拟合
  • 实践中需要根据数据集规模调整

7. 局限性与未来方向

7.1 局限性

  1. 数据假设:当前分析假设数据来自有限类数 ,且每类样本数足够大
  2. 损失函数:主要分析 MSE/交叉熵,其他损失(如对比损失)尚未扩展
  3. 优化器:分析假设全局最优解,实际训练只能达到局部最优

7.2 开放问题

问题当前状态潜在方向
NC 与预训练(如 BERT、GPT)的关系❓ 未探索掩码语言模型是否也展现NC?
NC 与数据增强的关系❓ 部分研究Mixup/CutMix 如何影响NC?
NC 与鲁棒性的关系❓ 未探索对抗鲁棒模型是否NC?
NC 与多模态的关系❓ 未探索CLIP 类模型是否NC?
显式诱导 NC 的训练算法❓ 未探索能否将 NC 作为归纳偏置显式加入?

8. 与现有Wiki内容的交叉引用

  • [[loss-landscape-multifractal-dynamics|多分形损失景观]] - 损失景观的另一种几何视角
  • [[canonical-representation-hypothesis-neural-collapse|规范表示假说与神经崩溃]] - CRH 框架
  • [[resnet-dynamical-system-theory|ResNet动态系统理论]] - ResNet 动态系统理论
  • [[neural-tangent-kernel-theory-deep-dive|NTK理论]] - NTK 视角
  • [[resnet-conservation-laws-training|ResNet守恒律训练]] - 训练动力学的守恒律
  • [[resnet-hamiltonian-feature-learning|ResNet哈密顿特征学习]] - ResNet 哈密顿理论
  • [[feature-learning-beyond-lazy-rich-dichotomy|超越懒惰丰富二分法]] - 特征学习新框架

9. 参考文献

Last updated: 2026-06-21

Footnotes

  1. Papyan V., Han X.Y., Donoho D.L. (2020). “Prevalence of neural collapse during the terminal phase of deep learning training.” PNAS 117(40):24652-24663.

  2. Sukeník P., Lampert C.H., Mondelli M. (2025). “Neural Collapse is Globally Optimal in Deep Regularized ResNets and Transformers.” NeurIPS 2025. arXiv:2505.15239