1. 问题背景:权衰减理论与实践的脱节
权衰减(Weight Decay)是现代深度学习训练的标准实践,在控制模型复杂度、确保泛化能力方面起着关键作用。1然而,尽管其广泛应用,正则化如何影响损失景观和优化动态的理论理解仍然不完整。
1.1 理论与实践的差距
传统理论分析大多集中在无正则化的设置上,这与实际训练流程存在显著差异:
| 设置 | 理论分析 | 实际训练 |
|---|---|---|
| 激活函数 | 光滑激活 | ReLU 分段线性 |
| 网络宽度 | 无限宽 | 有限过参数化 |
| 初始化尺度 | 任意 | 通常较小(特征学习 regime) |
| 正则化 | 忽略 | 权衰减不可或缺 |
这种理论与实践的脱节促使我们深入研究:在什么条件下,ℓ2正则化能够使损失景观变得”良性”(benign)?
1.2 损失景观良态性的定义
当损失景观满足以下条件时,我们称其为良性:
- 无虚假局部极小值:不存在阻碍优化收敛的伪局部极小值
- 存在下降路径:从任意非最优点都存在损失不增的连续路径通向全局极小值
- 模式连通性:全局最优点构成的集合是连通的
2. ℓ2正则化损失景观分析
2.1 问题设定
考虑两层 ReLU 网络的参数化 ,对应函数:
其中 是隐层权重, 是输出层权重, 是 ReLU 激活函数。
给定训练数据 ,考虑以下正则化回归问题:
其中 是正则化参数。
2.2 激活锥的几何结构
ReLU 激活函数的分段线性特性允许将参数空间划分为若干激活锥(Activation Cones):
其中 是二进制激活模式矩阵。
关键性质:对于固定的激活模式 ,网络在锥 内表现为线性模型,使得优化问题变为凸的。
2.3 全局最优点结构
基于 Pilanci 和 Ergen (2020) 的凸重构理论,存在一个全局最优的神经网络,其非零神经元数量不超过 个。1
这一发现为后续分析提供了基础:只需要 个神经元就可以表示正则化问题的全局最优解。
3. 大过参数化条件
3.1 核心定理
定理 1(损失景观良态性)1:设 。如果
则对于任意 ,除了至多 比例的非空激活锥外,以下两个性质同时成立:
- 包含全局极小值:激活锥 包含问题 (Reg-)(或 min-norm)的全局极小值
- 无不良局部极小值:激活锥 不包含任何不良局部极小值
3.2 过参数化条件的解释
条件 揭示了正则化带来的额外挑战:
| 问题类型 | 所需宽度 | 备注 |
|---|---|---|
| 无正则化() | 轻度过参数化即可 | |
| ℓ2正则化() | 需要大规模过参数化 |
直觉理解:正则化问题的全局最优点具有特定的稀疏结构(只需 个非零神经元),为了在”随机”的激活锥中捕获这些结构,需要更多的神经元来”收集”正确的激活模式。
3.3 与 coupon collector 问题的联系
定理的证明将激活锥的选择过程转化为 coupon collector 问题:
- 可能的神经元激活模式数量为
- 从这些模式中随机独立抽取 个
- 目标是收集到 个”中奖”模式(与全局最优点激活模式一致)
通过 coupon collector 理论,可以精确计算达到高概率”覆盖”所需的样本数量。
4. 正交数据的必要性证明
4.1 正交数据设定
为了证明 不仅是充分条件,更是必要条件,考虑正交输入数据:
定理 3(正交数据下的必要性)1:设数据满足正交性假设,网络宽度 ,且正则化参数满足
则只有极小比例的激活锥在闭包中包含全局极小值。更具体地,包含全局极小值的锥的比例至多为:
4.2 对优化的影响
对于正交数据,优化动态具有特殊性质:
- 激活模式恒定:任意隐层权重 在整个训练过程中的激活模式保持不变
- 收敛到非全局极值:以高概率,梯度流会收敛到不是全局极小值的平稳点
这意味着 即使使用随机初始化和大规模网络,只要 ,优化也无法保证收敛到正则化损失的全局极小值。
5. 大初始化 regime 的重要性
5.1 初始化尺度的分类
神经网络的初始化尺度决定了训练动态的不同阶段:
| 初始化 regime | 特征 | 代表性理论 |
|---|---|---|
| 大初始化 | NTK regime | 固定隐层,仅调整输出层 |
| 小初始化 | 特征学习 regime | 隐层权重发生显著变化 |
5.2 大初始化 regime 下的损失景观
在大初始化 regime 下,损失景观的良态性分析具有实际意义:
- 隐层权重近似随机选择:由于初始化尺度大,隐层权重在训练初期保持近似随机状态
- grokking 阶段:在接近数据插值后,进入 grokking 阶段,隐层权重才会调整
- 正则化主导:此阶段由正则化参数主导动态,最终收敛到附近的局部(全局)极小值
由于大多数激活锥包含全局极小值,随机初始化下有很高的概率收敛到全局极小值。
5.3 动态分析的关键观察
在大初始化 regime 下,训练过程可分解为:
- NTK 阶段:隐层固定,输出层快速调整
- 插值阶段:达到对训练数据的接近拟合
- Grokking 阶段:隐层权重开始调整,同时保持插值
- 收敛阶段:最终收敛到 stationary point
6. 特征学习 regime 中的虚假极小值
6.1 小初始化的问题
在小初始化(特征学习)regime 下,情况发生了根本性变化:即使损失景观是良态的,优化也可能收敛到虚假局部极小值。1
定理 2(小初始化下的虚假极小值)1:对于任意维度 和网络宽度 ,存在一类数据集和相应的初始化条件,使得:
- 以高概率 ,子梯度流收敛到网络
- 该网络的均方误差不超过
- 但该网络不是正则化损失 的全局极小值
6.2 早期对齐的双刃剑效应
在小初始化 regime 下,早期对齐(early alignment) 现象起着关键作用:
- 对齐方向:神经元迅速对齐到由训练数据集决定的单一方向
- 去激活:未对齐的神经元从所有训练点上失活
- 秩的限制:最终网络呈现低秩结构,可能无法达到全局最优
这一机制在多个方面呈现”双刃剑”效应:
| 方面 | 无正则化 | 有正则化 |
|---|---|---|
| 插值能力 | 可能破坏插值 | 可能阻止达到最小范数解 |
| 泛化能力 | 可能增强泛化 | 可能无法充分利用正则化优势 |
6.3 具体构造示例
考虑以下数据集构造(维度 ,样本数 ):
- 中心点:,,等等
- 标签:由单一教师向量 生成
在此构造下,任何秩-1 网络都无法全局最小化正则化损失,而梯度流会收敛到这样的秩-1 平稳点。
7. 实践建议
基于上述理论分析,以下是针对实践者的建议:
7.1 过参数化程度
| 场景 | 推荐的网络宽度 |
|---|---|
| 理论保证 | |
| 实践权衡 | 对于典型数据集 ,考虑 |
| 经验法则 | 网络宽度至少是输入维度的数倍 |
7.2 初始化策略
- 大初始化:适用于追求最小范数解的场景(如需要良好泛化的场景)
- 小初始化:适用于需要特征学习的复杂任务,但需注意可能陷入次优解
- 混合策略:考虑课程学习或预热策略
7.3 正则化参数选择
定理 2 表明正则化参数 需要与初始化尺度配合:
其中 是经验协方差矩阵的最小特征值, 是初始化尺度。
7.4 架构选择
对于需要正则化带来益处的场景:
- 两层网络:理论分析最完善,适合理解基础机制
- 深度网络:损失景观更复杂,但正则化原理类似
- 跳跃连接:可能改善损失景观结构
7.5 训练策略
| 目标 | 建议策略 |
|---|---|
| 规避虚假极小值 | 多次随机重启;使用动量穿越平坦区域 |
| 利用大初始化 | 设置适当的初始化尺度;使用大学习率 |
| 特征学习 | 使用小初始化;避免过强正则化 |
8. 结论与展望
本文系统分析了 ℓ2 正则化(权衰减)对两层 ReLU 网络损失景观良态性的影响,揭示了以下关键发现:
-
大过参数化是良态性的充分条件:当 时,损失景观几乎是良态的
-
过参数化也是必要条件:通过正交数据示例证明,缺少足够过参数化会导致大量激活锥不包含全局极小值
-
初始化尺度决定动态:大初始化下损失景观分析有意义;小初始化(特征学习 regime)下即使良态景观也可能收敛到虚假极小值
-
正则化的双重角色:权衰减不仅影响损失景观,还通过早期对齐机制影响优化动态
未来研究方向包括:
- 去除对初始化方向和输出层符号的依赖
- 理解虚假极小值的性质及其对泛化的影响
- 将分析推广到更深的网络和更一般的激活函数