Logit正则化的隐式偏差

概述

Logit正则化——即直接在logit空间添加凸惩罚——在现代分类器中被广泛使用，Label Smoothing是其典型代表。arXiv:2602.12039 首次系统分析了这一类方法的隐式偏差机制，揭示了Logit聚类现象和Fisher线性判别对齐特性。¹

1. 问题设置

1.1 Logit正则化定义

考虑一个 $C$ -分类问题，定义Logit正则化为修改后的损失函数：

ℓ_{α} (z, y) = (1 - α) ℓ_{CE} (z, y) + α f (z) (1)

其中：

$z \in R^{C}$ ：模型输出的logits
$ℓ_{CE}$ ：交叉熵损失
$f (z)$ ：正则化函数（凸函数）
$α \in [0, 1]$ ：正则化强度

1.2 Label Smoothing特例

当 $f (z) = - \frac{1}{C} \sum_{c = 1}^{C} z_{c}$ 且标签均匀分布时，即为Label Smoothing：

ℓ_{LS} (z, y) = (1 - α) lo g (1 + e^{z_{y}}) + α (\frac{1}{C} c = 1 \sum C z_{c} - z_{y})

1.3 其他正则化形式

正则化类型	$f (z)$ 形式
Label Smoothing	$- \frac{1}{C} \sum_{c} z_{c}$
Logit Penalty	$\
Centered Smoothing	$-\frac{1}{C}\sum_c z_c + \frac{1}{2C}\

2. 核心发现：Logit聚类

2.1 隐式偏差定理

定理1（Logit聚类）：对于任意凸Logit正则化，当样本数 $n \to \infty$ 时，最小化经验风险的模型满足：

∥ z_{i} - t_{i} ∥ \to 0 \forall i

其中 $t_{i}$ 是样本 $i$ 对应的有限目标logit向量。

2.2 目标向量结构

对于分类任务，目标向量为：

t_{y} = e_{y} - \frac{1}{C} 1 (Label Smoothing)

或更一般的：

t_{y} = ar g t min f (t) s.t. t^{⊤} e_{y} = c

2.3 几何解释

Logit正则化将优化目标从间隔最大化转变为Logit向有限目标聚类：

Cross-Entropy \Rightarrow w max \frac{( w ^{⊤} x ) _{y}}{∥ w ∥} \Rightarrow z min i \sum ∥ z_{i} - t_{i} ∥

3. Fisher线性判别对齐

3.1 高斯数据假设

假设类别 $C_{k}$ 的输入服从高斯分布：

x \sim N (μ_{k}, Σ) \forall x \in C_{k}

3.2 主要定理

定理2（Fisher对齐）：在上述高斯假设下，最小化Logit正则化损失的权重向量 $w$ 精确对齐到Fisher线性判别方向：

w^{⋆} \propto Σ^{- 1} (μ_{1} - μ_{2}) (二分类)

3.3 证明概要

Logit聚类：由定理1，样本logits聚集到类别特定的目标向量
线性分类器： $z = Wx$ ，其中 $W$ 为权重矩阵
最优性条件：最小化 $∥ W x_{i} - t_{i} ∥$ 等价于最大化类别间间隔
Fisher对齐：在共同协方差假设下，最优方向为 $Σ^{- 1} (μ_{1} - μ_{2})$

4. 样本复杂度分析

4.1 关键发现

发现：Logit正则化将关键样本复杂度从 $λ_{c} = 1/2$ 移位到 $λ_{c} = 1$ ！

其中 $λ = n / d$ 是样本-维度比。

4.2 信号-噪声模型

考虑简化信号-噪声模型：

y = w^{⋆} \cdot x + ξ, ξ \sim N (0, σ_{n}^{2})

4.3 泛化边界

定理3（样本复杂度）：对于Logit正则化（ $α > 0$ ），泛化误差满足：

E [Error] \leq 估计方差 \frac{σ _{n}^{2}}{n} + 正则化偏差 \frac{α}{1 - α} \cdot \frac{d}{n}

当 $α \to 1$ 时，样本复杂度减半。

4.4 边界对比

方法	关键样本复杂度 $λ_{c}$	泛化上界
标准交叉熵	$1/2$	$O (1/ λ)$
Logit正则化	$1$	$O (1/ (2 λ))$

5. Grokking现象

5.1 小噪声极限

定理4（Grokking诱导）：在 $1/2 < λ < 1$ 区域，Logit正则化诱导延迟泛化（Grokking）。

5.2 延迟机制

延迟时间随正则化强度 $α$ 的关系：

T_{delay} \sim \frac{1}{α - α _{c}} 当 α \to α_{c}^{+}

其中 $α_{c}$ 是临界正则化强度。

5.3 物理解释

快速过拟合：模型快速记住训练样本
缓慢正则化：Logit聚类目标驱动权重缓慢调整
突然泛化：当权重对齐Fisher方向时泛化能力涌现

6. 噪声鲁棒性

6.1 正交噪声分析

假设噪声方向与信号方向正交：

Σ_{ξ} = σ_{n}^{2} P_{w^{⋆}}^{⊥}

6.2 鲁棒性定理

定理5（噪声鲁棒性）：Logit正则化的泛化准确度对正交噪声尺度 $σ_{n}$ 不变：

E [Acc ∣ σ_{n}] = constant \forall σ_{n}

6.3 最差情况余弦相似度

ρ_{m i n} = \frac{1}{1 + ( C / σ _{n} ) ^{2}}

当 $C / σ_{n} ≫ 1$ 时， $ρ_{m i n} \approx C / σ_{n}$ 接近1。

7. 与现有工作的联系

implicit-bias-gradient-descent：梯度下降的隐式偏差理论
sharp-flat-minima：平坦最小值与泛化的联系
neural-collapse：Neural Collapse现象与分类器对齐

8. 实践建议

8.1 正则化强度选择

任务类型	推荐 $α$
图像分类	0.1 - 0.2
语言建模	0.05 - 0.1
小样本学习	0.2 - 0.3

8.2 何时使用

场景	推荐使用	不推荐使用
数据不平衡	✓
标签噪声	✓
需校准输出	✓
需锐利间隔		✓

8.3 与其他技术结合

与Label Smoothing结合：使用更高 $α$ 值
与Mixup结合：增强泛化能力
与对抗训练结合：改善对抗鲁棒性

参考文献

Beck, A. (2026). The Implicit Bias of Logit Regularization. arXiv:2602.12039. ↩

Metaphor

探索

Logit正则化的隐式偏差

Logit正则化的隐式偏差

概述

1. 问题设置

1.1 Logit正则化定义

1.2 Label Smoothing特例

1.3 其他正则化形式

2. 核心发现：Logit聚类

2.1 隐式偏差定理

2.2 目标向量结构

2.3 几何解释

3. Fisher线性判别对齐

3.1 高斯数据假设

3.2 主要定理

3.3 证明概要

4. 样本复杂度分析

4.1 关键发现

4.2 信号-噪声模型

4.3 泛化边界

4.4 边界对比

5. Grokking现象

5.1 小噪声极限

5.2 延迟机制

5.3 物理解释

6. 噪声鲁棒性

6.1 正交噪声分析

6.2 鲁棒性定理

6.3 最差情况余弦相似度

7. 与现有工作的联系

8. 实践建议

8.1 正则化强度选择

8.2 何时使用

8.3 与其他技术结合

参考文献

关系图谱

目录

Metaphor

探索

Logit正则化的隐式偏差

Logit正则化的隐式偏差

概述

1. 问题设置

1.1 Logit正则化定义

1.2 Label Smoothing特例

1.3 其他正则化形式

2. 核心发现：Logit聚类

2.1 隐式偏差定理

2.2 目标向量结构

2.3 几何解释

3. Fisher线性判别对齐

3.1 高斯数据假设

3.2 主要定理

3.3 证明概要

4. 样本复杂度分析

4.1 关键发现

4.2 信号-噪声模型

4.3 泛化边界

4.4 边界对比

5. Grokking现象

5.1 小噪声极限

5.2 延迟机制

5.3 物理解释

6. 噪声鲁棒性

6.1 正交噪声分析

6.2 鲁棒性定理

6.3 最差情况余弦相似度

7. 与现有工作的联系

8. 实践建议

8.1 正则化强度选择

8.2 何时使用

8.3 与其他技术结合

参考文献

Footnotes

关系图谱

目录