权衰减与损失景观良态性

1. 问题背景：权衰减理论与实践的脱节

权衰减（Weight Decay）是现代深度学习训练的标准实践，在控制模型复杂度、确保泛化能力方面起着关键作用。¹然而，尽管其广泛应用，正则化如何影响损失景观和优化动态的理论理解仍然不完整。

1.1 理论与实践的差距

传统理论分析大多集中在无正则化的设置上，这与实际训练流程存在显著差异：

设置	理论分析	实际训练
激活函数	光滑激活	ReLU 分段线性
网络宽度	无限宽	有限过参数化
初始化尺度	任意	通常较小（特征学习 regime）
正则化	忽略	权衰减不可或缺

这种理论与实践的脱节促使我们深入研究：在什么条件下，ℓ2正则化能够使损失景观变得”良性”（benign）？

1.2 损失景观良态性的定义

当损失景观满足以下条件时，我们称其为良性：

无虚假局部极小值：不存在阻碍优化收敛的伪局部极小值
存在下降路径：从任意非最优点都存在损失不增的连续路径通向全局极小值
模式连通性：全局最优点构成的集合是连通的

2. ℓ2正则化损失景观分析

2.1 问题设定

考虑两层 ReLU 网络的参数化 $θ := (W, a) \in R^{m \times (d + 1)}$ ，对应函数：

f_{θ} (x) = a^{⊤} σ (W x)

其中 $W \in R^{m \times d}$ 是隐层权重， $a \in R^{m}$ 是输出层权重， $σ (z) = max (0, z)$ 是 ReLU 激活函数。

给定训练数据 $(x_{k}, y_{k})_{k \in [n]}$ ，考虑以下正则化回归问题：

θ min \frac{1}{n} k = 1 \sum n (f_{θ} (x_{k}) - y_{k})^{2} + λ ∥ θ ∥_{2}^{2} (Reg- λ)

其中 $λ > 0$ 是正则化参数。

2.2 激活锥的几何结构

ReLU 激活函数的分段线性特性允许将参数空间划分为若干激活锥（Activation Cones）：

C_{A} := {(W, a) \in R^{m \times (d + 1)} ∣ \forall i \in [m], k \in [n] : 1 (w_{i}^{⊤} x_{k} \geq 0) = A_{i, k}, 1 (a_{i} \geq 0) = A_{i, n + 1}}

其中 $A \in {0, 1}^{m \times (n + 1)}$ 是二进制激活模式矩阵。

关键性质：对于固定的激活模式 $A$ ，网络在锥 $C_{A}$ 内表现为线性模型，使得优化问题变为凸的。

2.3 全局最优点结构

基于 Pilanci 和 Ergen (2020) 的凸重构理论，存在一个全局最优的神经网络，其非零神经元数量不超过 $n + 1$ 个。¹

这一发现为后续分析提供了基础：只需要 $n + 1$ 个神经元就可以表示正则化问题的全局最优解。

3. 大过参数化条件

3.1 核心定理

定理 1（损失景观良态性）¹：设 $ε \in (0, 1)$ 。如果

m = Ω (min (n^{d}, 2^{n}) \cdot lo g (\frac{n}{ε}))

则对于任意 $λ > 0$ ，除了至多 $ε$ 比例的非空激活锥外，以下两个性质同时成立：

包含全局极小值：激活锥 $C_{A}$ 包含问题 (Reg- $λ$ )（或 min-norm）的全局极小值
无不良局部极小值：激活锥 $C_{A}$ 不包含任何不良局部极小值

3.2 过参数化条件的解释

条件 $m ≳ min (n^{d}, 2^{n})$ 揭示了正则化带来的额外挑战：

问题类型	所需宽度	备注
无正则化（ $λ = 0$ ）	$m ≳ n / d$	轻度过参数化即可
ℓ2正则化（ $λ > 0$ ）	$m ≳ min (n^{d}, 2^{n})$	需要大规模过参数化

直觉理解：正则化问题的全局最优点具有特定的稀疏结构（只需 $n + 1$ 个非零神经元），为了在”随机”的激活锥中捕获这些结构，需要更多的神经元来”收集”正确的激活模式。

3.3 与 coupon collector 问题的联系

定理的证明将激活锥的选择过程转化为 coupon collector 问题：

可能的神经元激活模式数量为 $O (min (n^{d}, 2^{n}))$
从这些模式中随机独立抽取 $m$ 个
目标是收集到 $n + 1$ 个”中奖”模式（与全局最优点激活模式一致）

通过 coupon collector 理论，可以精确计算达到高概率”覆盖”所需的样本数量。

4. 正交数据的必要性证明

4.1 正交数据设定

为了证明 $m ≳ min (n^{d}, 2^{n})$ 不仅是充分条件，更是必要条件，考虑正交输入数据：

\forall j, k \in [n], j \neq = k : x_{j}^{⊤} x_{k} = 0

定理 3（正交数据下的必要性）¹：设数据满足正交性假设，网络宽度 $m \geq 2$ ，且正则化参数满足

0 < λ \leq min \frac{\sum _{k, y_{k} > 0} y _{k}^{2}}{∥ x _{k} ∥ ^{2}}, \frac{\sum _{k, y_{k} < 0} y _{k}^{2}}{∥ x _{k} ∥ ^{2}}

则只有极小比例的激活锥在闭包中包含全局极小值。更具体地，包含全局极小值的锥的比例至多为：

m \cdot 2^{- m a x (card {k ∣ y_{k} > 0}, card {k ∣ y_{k} < 0})}

4.2 对优化的影响

对于正交数据，优化动态具有特殊性质：

激活模式恒定：任意隐层权重 $w_{i} (t)$ 在整个训练过程中的激活模式保持不变
收敛到非全局极值：以高概率，梯度流会收敛到不是全局极小值的平稳点

这意味着 即使使用随机初始化和大规模网络，只要 $m ≲ min (2^{n}, n d)$ ，优化也无法保证收敛到正则化损失的全局极小值。

5. 大初始化 regime 的重要性

5.1 初始化尺度的分类

神经网络的初始化尺度决定了训练动态的不同阶段：

初始化 regime	特征	代表性理论
大初始化	NTK regime	固定隐层，仅调整输出层
小初始化	特征学习 regime	隐层权重发生显著变化

5.2 大初始化 regime 下的损失景观

在大初始化 regime 下，损失景观的良态性分析具有实际意义：

隐层权重近似随机选择：由于初始化尺度大，隐层权重在训练初期保持近似随机状态
grokking 阶段：在接近数据插值后，进入 grokking 阶段，隐层权重才会调整
正则化主导：此阶段由正则化参数主导动态，最终收敛到附近的局部（全局）极小值

由于大多数激活锥包含全局极小值，随机初始化下有很高的概率收敛到全局极小值。

5.3 动态分析的关键观察

在大初始化 regime 下，训练过程可分解为：

NTK 阶段：隐层固定，输出层快速调整
插值阶段：达到对训练数据的接近拟合
Grokking 阶段：隐层权重开始调整，同时保持插值
收敛阶段：最终收敛到 stationary point

6. 特征学习 regime 中的虚假极小值

6.1 小初始化的问题

在小初始化（特征学习）regime 下，情况发生了根本性变化：即使损失景观是良态的，优化也可能收敛到虚假局部极小值。¹

定理 2（小初始化下的虚假极小值）¹：对于任意维度 $d \geq 3$ 和网络宽度 $m \geq 2$ ，存在一类数据集和相应的初始化条件，使得：

以高概率 $1 - (3/4)^{m}$ ，子梯度流收敛到网络 $θ_{\infty}$
该网络的均方误差不超过 $λ^{2} / μ_{m i n}$
但该网络不是正则化损失 $L_{λ}$ 的全局极小值

6.2 早期对齐的双刃剑效应

在小初始化 regime 下，早期对齐（early alignment） 现象起着关键作用：

对齐方向：神经元迅速对齐到由训练数据集决定的单一方向
去激活：未对齐的神经元从所有训练点上失活
秩的限制：最终网络呈现低秩结构，可能无法达到全局最优

这一机制在多个方面呈现”双刃剑”效应：

方面	无正则化	有正则化
插值能力	可能破坏插值	可能阻止达到最小范数解
泛化能力	可能增强泛化	可能无法充分利用正则化优势

6.3 具体构造示例

考虑以下数据集构造（维度 $d \geq 3$ ，样本数 $n = d$ ）：

中心点： $x_{1} = e_{1}$ ， $x_{2} = \frac{8}{9} e_{1} - \frac{4}{9} e_{2} + \frac{1}{9} e_{3}$ ，等等
标签：由单一教师向量 $v^{*} = \frac{4}{5} e_{1} + \frac{3}{5} e_{3}$ 生成

在此构造下，任何秩-1 网络都无法全局最小化正则化损失，而梯度流会收敛到这样的秩-1 平稳点。

7. 实践建议

基于上述理论分析，以下是针对实践者的建议：

7.1 过参数化程度

场景	推荐的网络宽度
理论保证	$m ≳ min (n^{d}, 2^{n})$
实践权衡	对于典型数据集 $n ≪ 2^{n}$ ，考虑 $m \approx O (n d)$
经验法则	网络宽度至少是输入维度的数倍

7.2 初始化策略

大初始化：适用于追求最小范数解的场景（如需要良好泛化的场景）
小初始化：适用于需要特征学习的复杂任务，但需注意可能陷入次优解
混合策略：考虑课程学习或预热策略

7.3 正则化参数选择

定理 2 表明正则化参数 $λ$ 需要与初始化尺度配合：

λ ≲ μ_{m i n} \cdot α

其中 $μ_{m i n}$ 是经验协方差矩阵的最小特征值， $α$ 是初始化尺度。

7.4 架构选择

对于需要正则化带来益处的场景：

两层网络：理论分析最完善，适合理解基础机制
深度网络：损失景观更复杂，但正则化原理类似
跳跃连接：可能改善损失景观结构

7.5 训练策略

目标	建议策略
规避虚假极小值	多次随机重启；使用动量穿越平坦区域
利用大初始化	设置适当的初始化尺度；使用大学习率
特征学习	使用小初始化；避免过强正则化

8. 结论与展望

本文系统分析了 ℓ2 正则化（权衰减）对两层 ReLU 网络损失景观良态性的影响，揭示了以下关键发现：

大过参数化是良态性的充分条件：当 $m ≳ min (n^{d}, 2^{n})$ 时，损失景观几乎是良态的
过参数化也是必要条件：通过正交数据示例证明，缺少足够过参数化会导致大量激活锥不包含全局极小值
初始化尺度决定动态：大初始化下损失景观分析有意义；小初始化（特征学习 regime）下即使良态景观也可能收敛到虚假极小值
正则化的双重角色：权衰减不仅影响损失景观，还通过早期对齐机制影响优化动态

未来研究方向包括：

去除对初始化方向和输出层符号的依赖
理解虚假极小值的性质及其对泛化的影响
将分析推广到更深的网络和更一般的激活函数

参考文献

Boursier, E., Bowditch, M., Englert, M., & Lazic, R. (2025). Benignity of loss landscape with weight decay requires both large overparametrization and initialization. arXiv:2505.22578. https://arxiv.org/abs/2505.22578 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶

Metaphor

探索

权衰减与损失景观良态性

1. 问题背景：权衰减理论与实践的脱节

1.1 理论与实践的差距

1.2 损失景观良态性的定义

2. ℓ2正则化损失景观分析

2.1 问题设定

2.2 激活锥的几何结构

2.3 全局最优点结构

3. 大过参数化条件

3.1 核心定理

3.2 过参数化条件的解释

3.3 与 coupon collector 问题的联系

4. 正交数据的必要性证明

4.1 正交数据设定

4.2 对优化的影响

5. 大初始化 regime 的重要性

5.1 初始化尺度的分类

5.2 大初始化 regime 下的损失景观

5.3 动态分析的关键观察

6. 特征学习 regime 中的虚假极小值

6.1 小初始化的问题

6.2 早期对齐的双刃剑效应

6.3 具体构造示例

7. 实践建议

7.1 过参数化程度

7.2 初始化策略

7.3 正则化参数选择

7.4 架构选择

7.5 训练策略

8. 结论与展望

参考文献

关系图谱

目录

Metaphor

探索

权衰减与损失景观良态性

1. 问题背景：权衰减理论与实践的脱节

1.1 理论与实践的差距

1.2 损失景观良态性的定义

2. ℓ2正则化损失景观分析

2.1 问题设定

2.2 激活锥的几何结构

2.3 全局最优点结构

3. 大过参数化条件

3.1 核心定理

3.2 过参数化条件的解释

3.3 与 coupon collector 问题的联系

4. 正交数据的必要性证明

4.1 正交数据设定

4.2 对优化的影响

5. 大初始化 regime 的重要性

5.1 初始化尺度的分类

5.2 大初始化 regime 下的损失景观

5.3 动态分析的关键观察

6. 特征学习 regime 中的虚假极小值

6.1 小初始化的问题

6.2 早期对齐的双刃剑效应

6.3 具体构造示例

7. 实践建议

7.1 过参数化程度

7.2 初始化策略

7.3 正则化参数选择

7.4 架构选择

7.5 训练策略

8. 结论与展望

参考文献

Footnotes

关系图谱

目录