1. 问题背景:权衰减理论与实践的脱节

权衰减(Weight Decay)是现代深度学习训练的标准实践,在控制模型复杂度、确保泛化能力方面起着关键作用。1然而,尽管其广泛应用,正则化如何影响损失景观和优化动态的理论理解仍然不完整

1.1 理论与实践的差距

传统理论分析大多集中在无正则化的设置上,这与实际训练流程存在显著差异:

设置理论分析实际训练
激活函数光滑激活ReLU 分段线性
网络宽度无限宽有限过参数化
初始化尺度任意通常较小(特征学习 regime)
正则化忽略权衰减不可或缺

这种理论与实践的脱节促使我们深入研究:在什么条件下,ℓ2正则化能够使损失景观变得”良性”(benign)?

1.2 损失景观良态性的定义

当损失景观满足以下条件时,我们称其为良性

  1. 无虚假局部极小值:不存在阻碍优化收敛的伪局部极小值
  2. 存在下降路径:从任意非最优点都存在损失不增的连续路径通向全局极小值
  3. 模式连通性:全局最优点构成的集合是连通的

2. ℓ2正则化损失景观分析

2.1 问题设定

考虑两层 ReLU 网络的参数化 ,对应函数:

其中 是隐层权重, 是输出层权重, 是 ReLU 激活函数。

给定训练数据 ,考虑以下正则化回归问题:

其中 是正则化参数。

2.2 激活锥的几何结构

ReLU 激活函数的分段线性特性允许将参数空间划分为若干激活锥(Activation Cones):

其中 是二进制激活模式矩阵。

关键性质:对于固定的激活模式 ,网络在锥 内表现为线性模型,使得优化问题变为凸的。

2.3 全局最优点结构

基于 Pilanci 和 Ergen (2020) 的凸重构理论,存在一个全局最优的神经网络,其非零神经元数量不超过 个。1

这一发现为后续分析提供了基础:只需要 个神经元就可以表示正则化问题的全局最优解


3. 大过参数化条件

3.1 核心定理

定理 1(损失景观良态性)1:设 。如果

则对于任意 除了至多 比例的非空激活锥外,以下两个性质同时成立:

  1. 包含全局极小值:激活锥 包含问题 (Reg-)(或 min-norm)的全局极小值
  2. 无不良局部极小值:激活锥 不包含任何不良局部极小值

3.2 过参数化条件的解释

条件 揭示了正则化带来的额外挑战:

问题类型所需宽度备注
无正则化(轻度过参数化即可
ℓ2正则化(需要大规模过参数化

直觉理解:正则化问题的全局最优点具有特定的稀疏结构(只需 个非零神经元),为了在”随机”的激活锥中捕获这些结构,需要更多的神经元来”收集”正确的激活模式。

3.3 与 coupon collector 问题的联系

定理的证明将激活锥的选择过程转化为 coupon collector 问题

  • 可能的神经元激活模式数量为
  • 从这些模式中随机独立抽取
  • 目标是收集到 个”中奖”模式(与全局最优点激活模式一致)

通过 coupon collector 理论,可以精确计算达到高概率”覆盖”所需的样本数量。


4. 正交数据的必要性证明

4.1 正交数据设定

为了证明 不仅是充分条件,更是必要条件,考虑正交输入数据:

定理 3(正交数据下的必要性)1:设数据满足正交性假设,网络宽度 ,且正则化参数满足

只有极小比例的激活锥在闭包中包含全局极小值。更具体地,包含全局极小值的锥的比例至多为:

4.2 对优化的影响

对于正交数据,优化动态具有特殊性质:

  1. 激活模式恒定:任意隐层权重 在整个训练过程中的激活模式保持不变
  2. 收敛到非全局极值:以高概率,梯度流会收敛到不是全局极小值的平稳点

这意味着 即使使用随机初始化和大规模网络,只要 ,优化也无法保证收敛到正则化损失的全局极小值


5. 大初始化 regime 的重要性

5.1 初始化尺度的分类

神经网络的初始化尺度决定了训练动态的不同阶段

初始化 regime特征代表性理论
大初始化NTK regime固定隐层,仅调整输出层
小初始化特征学习 regime隐层权重发生显著变化

5.2 大初始化 regime 下的损失景观

在大初始化 regime 下,损失景观的良态性分析具有实际意义:

  1. 隐层权重近似随机选择:由于初始化尺度大,隐层权重在训练初期保持近似随机状态
  2. grokking 阶段:在接近数据插值后,进入 grokking 阶段,隐层权重才会调整
  3. 正则化主导:此阶段由正则化参数主导动态,最终收敛到附近的局部(全局)极小值

由于大多数激活锥包含全局极小值,随机初始化下有很高的概率收敛到全局极小值

5.3 动态分析的关键观察

在大初始化 regime 下,训练过程可分解为:

  1. NTK 阶段:隐层固定,输出层快速调整
  2. 插值阶段:达到对训练数据的接近拟合
  3. Grokking 阶段:隐层权重开始调整,同时保持插值
  4. 收敛阶段:最终收敛到 stationary point

6. 特征学习 regime 中的虚假极小值

6.1 小初始化的问题

在小初始化(特征学习)regime 下,情况发生了根本性变化:即使损失景观是良态的,优化也可能收敛到虚假局部极小值1

定理 2(小初始化下的虚假极小值)1:对于任意维度 和网络宽度 ,存在一类数据集和相应的初始化条件,使得:

  • 以高概率 ,子梯度流收敛到网络
  • 该网络的均方误差不超过
  • 但该网络不是正则化损失 的全局极小值

6.2 早期对齐的双刃剑效应

在小初始化 regime 下,早期对齐(early alignment) 现象起着关键作用:

  • 对齐方向:神经元迅速对齐到由训练数据集决定的单一方向
  • 去激活:未对齐的神经元从所有训练点上失活
  • 秩的限制:最终网络呈现低秩结构,可能无法达到全局最优

这一机制在多个方面呈现”双刃剑”效应:

方面无正则化有正则化
插值能力可能破坏插值可能阻止达到最小范数解
泛化能力可能增强泛化可能无法充分利用正则化优势

6.3 具体构造示例

考虑以下数据集构造(维度 ,样本数 ):

  • 中心点,等等
  • 标签:由单一教师向量 生成

在此构造下,任何秩-1 网络都无法全局最小化正则化损失,而梯度流会收敛到这样的秩-1 平稳点。


7. 实践建议

基于上述理论分析,以下是针对实践者的建议:

7.1 过参数化程度

场景推荐的网络宽度
理论保证
实践权衡对于典型数据集 ,考虑
经验法则网络宽度至少是输入维度的数倍

7.2 初始化策略

  1. 大初始化:适用于追求最小范数解的场景(如需要良好泛化的场景)
  2. 小初始化:适用于需要特征学习的复杂任务,但需注意可能陷入次优解
  3. 混合策略:考虑课程学习或预热策略

7.3 正则化参数选择

定理 2 表明正则化参数 需要与初始化尺度配合:

其中 是经验协方差矩阵的最小特征值, 是初始化尺度。

7.4 架构选择

对于需要正则化带来益处的场景:

  • 两层网络:理论分析最完善,适合理解基础机制
  • 深度网络:损失景观更复杂,但正则化原理类似
  • 跳跃连接:可能改善损失景观结构

7.5 训练策略

目标建议策略
规避虚假极小值多次随机重启;使用动量穿越平坦区域
利用大初始化设置适当的初始化尺度;使用大学习率
特征学习使用小初始化;避免过强正则化

8. 结论与展望

本文系统分析了 ℓ2 正则化(权衰减)对两层 ReLU 网络损失景观良态性的影响,揭示了以下关键发现:

  1. 大过参数化是良态性的充分条件:当 时,损失景观几乎是良态的

  2. 过参数化也是必要条件:通过正交数据示例证明,缺少足够过参数化会导致大量激活锥不包含全局极小值

  3. 初始化尺度决定动态:大初始化下损失景观分析有意义;小初始化(特征学习 regime)下即使良态景观也可能收敛到虚假极小值

  4. 正则化的双重角色:权衰减不仅影响损失景观,还通过早期对齐机制影响优化动态

未来研究方向包括:

  • 去除对初始化方向和输出层符号的依赖
  • 理解虚假极小值的性质及其对泛化的影响
  • 将分析推广到更深的网络和更一般的激活函数

参考文献

Footnotes

  1. Boursier, E., Bowditch, M., Englert, M., & Lazic, R. (2025). Benignity of loss landscape with weight decay requires both large overparametrization and initialization. arXiv:2505.22578. https://arxiv.org/abs/2505.22578 2 3 4 5 6