梯度下降的隐式偏差：非齐次深度网络

1. 引言

深度网络通常具有远超训练样本数的参数。尽管如此，使用标准梯度下降（GD）训练时，这些网络仍能泛化到未见数据。这种现象部分归因于隐式偏差（Implicit Bias）：优化算法在参数空间中选择的解具有特定的归纳偏置¹。

1.1 隐式偏差的研究背景

经典结果（仅限齐次网络）：

Lyu & Li (2020)：对于指数损失下的齐次网络，梯度下降收敛到边际最大化解
Ji & Telgarsky (2020)：揭示了梯度范数单调下降的性质

开放问题：

隐式偏差结果能否扩展到非齐次网络（如带残差连接的网络）？

1.2 齐次 vs 非齐次网络

类型	定义	示例
齐次网络	$f (λ θ) = λ^{k} f (θ)$	标准FCN、CNN
非齐次网络	不满足齐次性	ResNet、LSTM、NormNet

ResNet的前向传播：

h_{l + 1} = h_{l} + g (h_{l}; W_{l}) = (I + G_{l}) h_{l}

第二项的缩放与第一项不同，导致整体非线性。

2. 非齐次网络的隐式偏差定理

2.1 问题设定

网络结构： $L$ 层全连接网络，带非线性激活 $σ$ ：

f (x; θ) = W_{L} σ (W_{L - 1} σ (\dots σ (W_{1} x) \dots))

损失函数：指数损失（Exponential Loss）

ℓ (f (x), y) = e^{- y \cdot f (x)}, y \in {- 1, + 1}

训练协议：从足够小的经验风险开始运行梯度下降

2.2 关键假设：近齐次性

假设（近齐次性）：网络 $f$ 满足

∥ f (θ) ∥ \leq C \cdot (1 + ∥ θ ∥)^{γ}

其中 $γ$ 与网络深度有关。这允许比严格齐次性更宽松的条件。

2.3 主要结果

定理（隐式偏差）：对于满足近齐次性条件的非齐次网络，设 $θ (t)$ 为梯度下降轨迹， $\hat{θ}$ 为方向极限：

规范化边际单调递增：

\frac{\partial}{\partial t} (\frac{y \cdot f ( x ; θ ( t ))}{∥ θ ( t ) ∥}) \geq 0, \forall (x, y) \in D_{sep}

范数发散，方向收敛：

∥ θ (t) ∥ \to \infty, \frac{θ ( t )}{∥ θ ( t ) ∥} \to \hat{θ}

KKT条件满足：

\hat{θ} \in ar g ∥ θ ∥ = 1 max (x, y) \in D min y \cdot f (x; θ)

即方向极限是边际最大化问题的解。

2.4 对残差连接的含义

考虑简化的ResNet块：

h_{l + 1} = h_{l} + σ (W_{l} h_{l})

定理应用：

该网络满足近齐次性条件（其中 $γ = 1$ ）
因此，梯度下降的隐式偏差与齐次网络相同
这为ResNet的泛化能力提供了理论解释

3. 理论证明框架

3.1 证明策略

步骤1: 证明规范化边际单调性
    ↓
步骤2: 证明范数发散
    ↓
步骤3: 提取方向序列
    ↓
步骤4: 建立方向极限的KKT条件

3.2 步骤1：规范化边际单调性

定义规范化边际：

ρ (t; x, y) = \frac{y \cdot f ( x ; θ ( t ))}{∥ θ ( t ) ∥}

引理：对于所有可分类样本 $(x, y)$ ，

\frac{d}{d t} ρ (t; x, y) \geq 0

证明概要：

计算梯度：

\frac{d}{d t} ρ = \frac{⟨ \nabla _{θ} f , - \nabla _{θ} L ⟩}{∥ θ ∥} - \frac{⟨ θ , \nabla _{θ} L ⟩}{∥ θ ∥ ^{3}} y \cdot f

利用指数损失的性质：

- \nabla_{θ} L = i \sum y_{i} \nabla_{θ} f (x_{i}) \cdot e^{- y_{i} f (x_{i})}

通过近齐次性条件可以控制余项，得到单调性。

3.3 步骤2：范数发散

引理：从足够小的初始风险出发，

∥ θ (t) ∥ \to \infty 当 t \to T^{*} < \infty

关键洞察：

梯度下降不会在有限时间到达无穷范数
但方向序列 ${θ (t) /∥∣ θ (t) ∥}$ 存在聚点

3.4 步骤4：KKT条件推导

设 $\hat{θ}$ 为方向序列的聚点。定义优化问题：

∥ θ ∥ = 1 max (x, y) \in D min y \cdot f (x; θ)

KKT条件：

可行性： $∥ \hat{θ} ∥ = 1$
稳定性： $\hat{θ} \in \partial L (0)$ ，其中 $\partial L$ 是损失函数的次梯度

4. 近齐次性条件的深入分析

4.1 什么函数满足近齐次性？

充分条件：

多项式增长函数
指数增长函数（有界增长速率）

不满足的例子：

$e^{e^{∥ θ ∥}}$ （增长过快）

4.2 网络架构与近齐次性

架构	是否近齐次	条件
标准FCN	✅	激活函数有界增长
ResNet	✅	残差连接有界
DenseNet	✅	增长率有界
Vision Transformer	✅	Patch投影有界
LSTM/GRU	✅	门控机制有界

4.3 深度的影响

近齐次性常数 $γ$ 随深度 $L$ 增长：

γ (L) = O (L)

这解释了为什么非常深的网络可能表现出不同的隐式偏差行为。

5. 与现有工作的关系

5.1 对经典结果的推广

原版定理（Lyu & Li, 2020）：

网络：严格齐次
结果：边际最大化

本文推广：

网络：近齐次
结果：相同，但证明技术更复杂

5.2 与边际最大化的联系

边际最大化的意义：

更大的边际通常意味着更好的泛化
边际与对抗鲁棒性相关
SVM等方法显式优化边际

梯度下降的隐式作用：

避免显式正则化也能达到类似效果
这是深度学习”免费午餐”的来源之一

5.3 与其他隐式偏差机制的关系

机制	描述	联系
边际最大化	梯度下降 → 最大化分类边际	本文结果
权重衰减	$ℓ_{2}$ 正则化 → 小范数解	不同机制
谱归一化	$ℓ_{2}$ 归一化 → Lipschitz网络	不同目标
噪声注入	随机性 → 特定解分布	互补

6. 实践验证

6.1 数值实验

实验设置：

数据集：MNIST, CIFAR-10
架构：ResNet-18, ResNet-50
训练：SGD（无正则化）

测量指标：

规范化边际 $ρ (t)$
方向收敛速度

结果：

ResNet的规范化边际同样单调递增
收敛速度与标准FCN相当
方向极限与边际最大化一致

6.2 PyTorch实现

import torch
import torch.nn as nn
 
def compute_normalized_margin(model, dataloader, device):
    """
    计算神经网络的规范化边际
    """
    model.eval()
    margins = []
    
    with torch.no_grad():
        for x, y in dataloader:
            x, y = x.to(device), y.to(device).float()
            logits = model(x).squeeze()
            
            # 预测和真实标签
            preds = torch.sign(logits)
            correct_mask = preds == y
            
            # 计算边际
            margin = (logits * y) / torch.norm(get_weights(model))
            margins.extend(margin[correct_mask].cpu().numpy())
    
    return torch.tensor(margins).mean()
 
def get_weights(model):
    """提取网络所有权重参数"""
    weights = []
    for p in model.parameters():
        if p.requires_grad:
            weights.append(p.flatten())
    return torch.cat(weights)

7. 对深度学习实践的启示

7.1 为什么深度网络能泛化？

统一解释：

优化动力学自发地倾向于高边际解
这是梯度下降的”隐式正则化”
不需要显式的边际约束

7.2 设计原则

架构设计：

确保网络满足近齐次性
避免极端的缩放不对称
残差连接不会改变隐式偏差

训练策略：

可以在无正则化情况下依赖隐式偏差
但添加显式正则化可能进一步提升泛化
学习率选择影响隐式偏差的表现

7.3 开放问题

批量梯度下降：小批量是否保留隐式偏差？
自适应优化器：Adam等是否改变隐式偏差？
非凸损失：结果是否扩展到交叉熵等损失？

8. 总结

本文将梯度下降的隐式偏差理论从齐次网络推广到非齐次网络：

✅ 理论保证：证明了规范化边际的单调性
✅ 方向收敛：揭示了参数方向收敛到KKT解
✅ 架构兼容：覆盖ResNet等现代架构
✅ 实践意义：解释了深度网络泛化的部分原因

这一结果统一了经典MLP和现代带残差连接网络的隐式偏差理解。

参考资料

Implicit Bias of Gradient Descent for Non-Homogeneous Deep Networks. arXiv:2502.16075 (2025) ↩

Metaphor

探索

梯度下降的隐式偏差：非齐次深度网络

梯度下降的隐式偏差：非齐次深度网络

1. 引言

1.1 隐式偏差的研究背景

1.2 齐次 vs 非齐次网络

2. 非齐次网络的隐式偏差定理

2.1 问题设定

2.2 关键假设：近齐次性

2.3 主要结果

2.4 对残差连接的含义

3. 理论证明框架

3.1 证明策略

3.2 步骤1：规范化边际单调性

3.3 步骤2：范数发散

3.4 步骤4：KKT条件推导

4. 近齐次性条件的深入分析

4.1 什么函数满足近齐次性？

4.2 网络架构与近齐次性

4.3 深度的影响

5. 与现有工作的关系

5.1 对经典结果的推广

5.2 与边际最大化的联系

5.3 与其他隐式偏差机制的关系

6. 实践验证

6.1 数值实验

6.2 PyTorch实现

7. 对深度学习实践的启示

7.1 为什么深度网络能泛化？

7.2 设计原则

7.3 开放问题

8. 总结

参考资料

关系图谱

目录

反向链接

Metaphor

探索

梯度下降的隐式偏差：非齐次深度网络

梯度下降的隐式偏差：非齐次深度网络

1. 引言

1.1 隐式偏差的研究背景

1.2 齐次 vs 非齐次网络

2. 非齐次网络的隐式偏差定理

2.1 问题设定

2.2 关键假设：近齐次性

2.3 主要结果

2.4 对残差连接的含义

3. 理论证明框架

3.1 证明策略

3.2 步骤1：规范化边际单调性

3.3 步骤2：范数发散

3.4 步骤4：KKT条件推导

4. 近齐次性条件的深入分析

4.1 什么函数满足近齐次性？

4.2 网络架构与近齐次性

4.3 深度的影响

5. 与现有工作的关系

5.1 对经典结果的推广

5.2 与边际最大化的联系

5.3 与其他隐式偏差机制的关系

6. 实践验证

6.1 数值实验

6.2 PyTorch实现

7. 对深度学习实践的启示

7.1 为什么深度网络能泛化？

7.2 设计原则

7.3 开放问题

8. 总结

参考资料

Footnotes

关系图谱

目录

反向链接