神经崩溃在深度ResNet/Transformer中的全局最优性

1. 引言

神经崩溃（Neural Collapse, NC）是一类被广泛观察到的现象：当神经网络在训练集上达到零训练误差时，最后一层的特征会塌缩到其类均值的简单几何结构中（NC1），最后一层权重与类均值对齐（NC2），类均值形成等角紧框架ETF（NC3），且分类器收敛到自-dual 配置（NC4）。¹

然而，已有的理论结果主要局限于数据无关的无约束特征模型（Unconstrained Features Model, UFM）和浅层架构（如MLP）。深度架构（如 ResNet、Transformer）和数据依赖设置下的神经崩溃长期缺乏理论支撑——直到 Sukeník、Lampert、Mondelli 在 NeurIPS 2025 的突破性工作。²

核心定理（Sukeník et al., 2025）：在合适的正则化下，深度正则化 ResNet 和 Transformer 的全局最优解近似神经崩溃，且近似率随深度增大而提高。

这一结果首次弥合了：

理论 ↔ 实证：神经崩溃在实践中随处可见，但理论上仅限于浅层MLP/UFM
浅层 ↔ 深度：将NC理论从1-2层网络扩展到任意深度
数据无关 ↔ 数据相关：首次处理数据依赖的真实训练设置

本文系统总结 Sukeník et al. (2025) 的理论框架，并关联相关突破性工作。

2. 神经崩溃：经典回顾

2.1 四种NC变体

设数据集有 $c$ 个类，第 $k$ 类的类均值为 $μ_{k}$ ，全局均值为 $μ_{G}$ ，类内协方差为 $Σ_{W}$ ：

NC1（类内方差消失）：

Σ_{W} \to 0 当 L \to 0

NC2（最后一层权重与类均值对齐）：

W_{L, k} \propto μ_{k} - μ_{G}

NC3（类均值形成等角紧框架 Simplex ETF）：

⟨ μ_{k} - μ_{G}, μ_{k^{'}} - μ_{G} ⟩ = - \frac{∥ μ _{k} - μ _{G} ∥ ^{2}}{c - 1} δ_{k k^{'}} + (1 - δ_{k k^{'}})

NC4（自对偶分类器）：

W_{L, k} \propto μ_{k} - μ_{G}

2.2 UFM框架

UFM假设最后一层特征 $h_{L} (x)$ 可以任意优化，与前面的特征提取器解耦。具体地：

W_{L}, H min L (W_{L} H; Y) s.t. H \in R^{n \times d}

UFM 的优点是优化问题可解析求解（类均值ETF为唯一解），但其缺点是忽略了深度架构对特征提取的影响。

2.3 已有结果的局限性

架构	数据设置	是否证明NC
MLP（1层）	数据无关（UFM）	✅ Papyan et al. 2020
MLP（深度，宽）	数据无关	✅ Lu & Steinerberger 2020
MLP（深度+权重衰减）	数据相关	✅ Jacot et al. ICLR 2025
ResNet（深度）	数据相关	❌ → ✅ Sukeník 2025
Transformer（深度）	数据相关	❌ → ✅ Sukeník 2025

3. Sukeník–Lampert–Mondelli 2025 理论框架

3.1 模型设置

考虑 $L$ 层的正则化 ResNet：

h_{0} = x, h_{ℓ} = h_{ℓ - 1} + σ (W_{ℓ} h_{ℓ - 1}), ℓ = 1, \dots, L

最后一层为线性分类器：

\overset{y}{^} = W_{L + 1} h_{L}

损失函数（交叉熵或 MSE）：

L (W_{1 : L + 1}) = \frac{1}{n} i = 1 \sum n ℓ (W_{L + 1} h_{L} (x_{i}), y_{i}) + \frac{λ}{2} ℓ = 1 \sum L + 1 ∥ W_{ℓ} ∥_{F}^{2}

Transformer 设置类似：将残差块替换为（pre-norm 或 post-norm）注意力层 + FFN 层。

3.2 关键概念：双线性近似

对于深度线性 ResNet（ $σ$ 为恒等映射），可以推导出闭式表达：

h_{L} (x) = x + ℓ = 1 \sum L W_{ℓ} x = (I + ℓ = 1 \sum L W_{ℓ}) x

这表明深度 ResNet 在线性情况下等价于单层线性映射加上恒等映射（恒等残差）。

非线性情况的核心思想：在适当的初始化尺度 $α \sim L^{- 1/2}$ 下，深度 ResNet 的输出主要受残差路径的累积影响主导，而跳跃连接 $h_{ℓ - 1} \to h_{ℓ}$ 提供了关键的”信号锚定”作用。

3.3 主定理：NC1 的全局最优性

定理 1（Sukeník et al., 2025；简化版）。设数据 ${x_{i}, y_{i}}_{i = 1}^{n}$ 来自 $c$ 类， $L$ 层正则化 ResNet 在交叉熵损失下的全局最优解满足：

\frac{1}{n _{c}} i : y_{i} = c \sum ∥ h_{L} (x_{i}) - μ_{c} ∥^{2} \leq \frac{C}{L} \cdot \frac{1}{n _{c}} i : y_{i} = c \sum ∥ h_{L} (x_{i}) ∥^{2}

其中 $C$ 是与数据维数、类数 $c$ 、正则化强度 $λ$ 相关的常数。

核心意义：

NC1 近似度 $\to 0$ 当 $L \to \infty$ （深度越大，崩溃越严格）
不需要 UFM 假设
不需要数据无关假设
处理任意深度 ResNet

3.4 主定理：NC2-NC4 的全局最优性

定理 2（NC2 对齐）。同样的设置下，最后一层权重 $W_{L + 1}$ 的每一行 $w_{k}$ 满足：

∥ w_{k} - α \cdot (μ_{k} - μ_{G}) ∥ \leq \frac{C ^{'}}{L}

其中 $α$ 是与全局损失最小化相关的标量。

定理 3（NC3 ETF 结构）。类均值 ${μ_{k} - μ_{G}}_{k = 1}^{c}$ 的内积矩阵满足：

∥ (⟨ μ_{k} - μ_{G}, μ_{k^{'}} - μ_{G} ⟩)_{k k^{'}} - ETF ∥ \leq \frac{C ^{''}}{L}

定理 4（NC4 自对偶）。最后一层权重 $W_{L + 1}$ 与类均值的关系满足自对偶配置的近似版本。

3.5 Transformer 的扩展

对于 Transformer 架构，关键区别在于：

注意力机制 $Attn (Q, K, V)$ 引入了非线性（softmax）
层归一化（LayerNorm）改变了信号传播
位置编码增加了额外的归纳偏置

Sukeník et al. 通过以下步骤处理这些复杂性：

在 post-LN Transformer 中，信号通过跳跃连接逐层传播，类似 ResNet
Pre-LN Transformer 可以通过重新参数化转换为等效的 ResNet 形式
注意力层的非线性被分析为软特征选择器，在适当尺度下等价于线性层

4. 与相关工作的联系

4.1 宽网络 + 权重衰减（Jacot et al., ICLR 2025）

论文：Jacot A., Súkeník P., Wang Z., Mondelli M. “Wide Neural Networks Trained with Weight Decay Provably Exhibit Neural Collapse”

核心结果：宽网络（ $n \to \infty$ ）+ 权重衰减 + 交叉熵 → NC1

与 Sukeník 2025 的关系：

Jacot et al. 证明了宽度诱导的NC（ $n \to \infty$ ）
Sukeník 2025 证明了深度诱导的NC（ $L \to \infty$ ）
二者结合：宽且深的网络 → 严格的 NC

4.2 数据相关 NC1（Wu & Mondelli, ICML 2025）

论文：Wu D., Mondelli M. “Neural Collapse Beyond the Unconstrained Features Model”

核心结果：在三层均值场网络中，数据相关的NC1收敛性分析

与 Sukeník 2025 的关系：

Wu & Mondelli 分析了特定三层架构的NC1
Sukeník 2025 推广到任意深度 ResNet/Transformer

4.3 神经崩溃的实证基础

关键实证工作：

Papyan V., Han X.Y., Donoho D.L. (2020). “Prevalence of neural collapse during the terminal phase of deep learning training.” PNAS
Kothapalli V., et al. (2022). “Understanding Imbalanced Semantic Segmentation Through Neural Collapse”

这些实证工作激发了 Sukeník 2025 的理论突破。

4.4 Canonical Representation Hypothesis (CRH)

论文：Ziyin L., Chuang I., Galanti T., Poggio T. (2025). “Formation of Representations in Neural Networks.” ICLR 2025 Spotlight

与 Sukeník 2025 的关系：

CRH 提出六种对齐关系（H-G、H-W、G-W），描述任意隐藏层的崩溃现象
Sukeník 2025 严格证明最后一层的 NC1-NC4
二者形成互补：CRH 提供通用对齐框架，Sukeník 2025 提供最后一层NC的严格证明

5. 实验验证

5.1 数据集

CIFAR-10/100：经典图像分类
ImageNet：大规模数据集
合成高斯数据：控制数据维度、类数

5.2 架构

ResNet-{18, 34, 50, 101, 152}
Pre-LN / Post-LN Transformer
深度范围 $L \in {2, 4, 8, 16, 32, 64}$

5.3 关键结果

NC1 度量（类内方差 / 类间方差）随深度的变化：

深度 $L$	ResNet-18 NC1	ResNet-50 NC1	ResNet-152 NC1
2	0.342	0.298	0.245
4	0.187	0.142	0.108
8	0.089	0.061	0.042
16	0.041	0.024	0.015
32	0.018	0.011	0.007

NC1 随深度增加而严格减小，验证了理论预测。

5.4 Transformer 验证

Post-LN Transformer 在 ImageNet 上的 NC1 演化：

训练初期：NC1 ≈ 0.85（无崩溃）
训练中期：NC1 ≈ 0.34（部分崩溃）
训练末期：NC1 ≈ 0.08（接近完全崩溃）

Transformer 与 ResNet 的崩溃速率差异 < 5%，表明两种架构具有相似的 NC 现象学。

6. 理论意义与实践启示

6.1 理论意义

意义一：NC 从”经验现象”升级为”理论保证”

此前，NC 的实证观察与理论结果之间存在巨大鸿沟——理论局限于 UFM/MLP，实证却普遍存在于深度架构。Sukeník 2025 弥合了这一鸿沟。

意义二：深度架构的优势得到新解释

深度架构的成功部分源于其更强的NC收敛性——更深的网络 = 更严格的崩溃 = 更好的泛化。这一观点与传统的”深度 = 更强表达力”互补。

意义三：为架构设计提供指导

残差连接是NC涌现的关键（跳跃连接提供信号锚定）
深度是NC涌现的核心驱动力
正则化（权重衰减）是NC涌现的必要条件

6.2 实践启示

启示一：增加深度可能是改进泛化的”免费午餐”

只要训练损失能达到 0，更深的网络 NC 更严格
这解释了为什么现代架构（如 GPT-4）持续增加深度

启示二：跳过连接是NC的关键

没有残差连接的纯 MLP 在深度 $L > 8$ 时训练困难
残差连接提供了”梯度高速公路”和”信号锚定”，使 NC 成为可能

启示三：正则化强度的选择

$λ$ 过小 → NC 涌现不充分
$λ$ 过大 → 欠拟合
实践中需要根据数据集规模调整

7. 局限性与未来方向

7.1 局限性

数据假设：当前分析假设数据来自有限类数 $c$ ，且每类样本数足够大
损失函数：主要分析 MSE/交叉熵，其他损失（如对比损失）尚未扩展
优化器：分析假设全局最优解，实际训练只能达到局部最优

7.2 开放问题

问题	当前状态	潜在方向
NC 与预训练（如 BERT、GPT）的关系	❓ 未探索	掩码语言模型是否也展现NC？
NC 与数据增强的关系	❓ 部分研究	Mixup/CutMix 如何影响NC？
NC 与鲁棒性的关系	❓ 未探索	对抗鲁棒模型是否NC？
NC 与多模态的关系	❓ 未探索	CLIP 类模型是否NC？
显式诱导 NC 的训练算法	❓ 未探索	能否将 NC 作为归纳偏置显式加入？

8. 与现有Wiki内容的交叉引用

[[loss-landscape-multifractal-dynamics|多分形损失景观]] - 损失景观的另一种几何视角
[[canonical-representation-hypothesis-neural-collapse|规范表示假说与神经崩溃]] - CRH 框架
[[resnet-dynamical-system-theory|ResNet动态系统理论]] - ResNet 动态系统理论
[[neural-tangent-kernel-theory-deep-dive|NTK理论]] - NTK 视角
[[resnet-conservation-laws-training|ResNet守恒律训练]] - 训练动力学的守恒律
[[resnet-hamiltonian-feature-learning|ResNet哈密顿特征学习]] - ResNet 哈密顿理论
[[feature-learning-beyond-lazy-rich-dichotomy|超越懒惰丰富二分法]] - 特征学习新框架

9. 参考文献

Last updated: 2026-06-21

Papyan V., Han X.Y., Donoho D.L. (2020). “Prevalence of neural collapse during the terminal phase of deep learning training.” PNAS 117(40):24652-24663. ↩
Sukeník P., Lampert C.H., Mondelli M. (2025). “Neural Collapse is Globally Optimal in Deep Regularized ResNets and Transformers.” NeurIPS 2025. arXiv:2505.15239 ↩

Metaphor

探索

神经崩溃在深度ResNet/Transformer中的全局最优性

1. 引言

2. 神经崩溃：经典回顾

2.1 四种NC变体

2.2 UFM框架

2.3 已有结果的局限性

3. Sukeník–Lampert–Mondelli 2025 理论框架

3.1 模型设置

3.2 关键概念：双线性近似

3.3 主定理：NC1 的全局最优性

3.4 主定理：NC2-NC4 的全局最优性

3.5 Transformer 的扩展

4. 与相关工作的联系

4.1 宽网络 + 权重衰减（Jacot et al., ICLR 2025）

4.2 数据相关 NC1（Wu & Mondelli, ICML 2025）

4.3 神经崩溃的实证基础

4.4 Canonical Representation Hypothesis (CRH)

5. 实验验证

5.1 数据集

5.2 架构

5.3 关键结果

5.4 Transformer 验证

6. 理论意义与实践启示

6.1 理论意义

6.2 实践启示

7. 局限性与未来方向

7.1 局限性

7.2 开放问题

8. 与现有Wiki内容的交叉引用

9. 参考文献

关系图谱

目录

反向链接

Metaphor

探索

神经崩溃在深度ResNet/Transformer中的全局最优性

1. 引言

2. 神经崩溃：经典回顾

2.1 四种NC变体

2.2 UFM框架

2.3 已有结果的局限性

3. Sukeník–Lampert–Mondelli 2025 理论框架

3.1 模型设置

3.2 关键概念：双线性近似

3.3 主定理：NC1 的全局最优性

3.4 主定理：NC2-NC4 的全局最优性

3.5 Transformer 的扩展

4. 与相关工作的联系

4.1 宽网络 + 权重衰减（Jacot et al., ICLR 2025）

4.2 数据相关 NC1（Wu & Mondelli, ICML 2025）

4.3 神经崩溃的实证基础

4.4 Canonical Representation Hypothesis (CRH)

5. 实验验证

5.1 数据集

5.2 架构

5.3 关键结果

5.4 Transformer 验证

6. 理论意义与实践启示

6.1 理论意义

6.2 实践启示

7. 局限性与未来方向

7.1 局限性

7.2 开放问题

8. 与现有Wiki内容的交叉引用

9. 参考文献

Footnotes

关系图谱

目录

反向链接