Logit正则化的隐式偏差

概述

Logit正则化——即直接在logit空间添加凸惩罚——在现代分类器中被广泛使用,Label Smoothing是其典型代表。arXiv:2602.12039 首次系统分析了这一类方法的隐式偏差机制,揭示了Logit聚类现象和Fisher线性判别对齐特性。1


1. 问题设置

1.1 Logit正则化定义

考虑一个-分类问题,定义Logit正则化为修改后的损失函数:

其中:

  • :模型输出的logits
  • :交叉熵损失
  • :正则化函数(凸函数)
  • :正则化强度

1.2 Label Smoothing特例

且标签均匀分布时,即为Label Smoothing:

1.3 其他正则化形式

正则化类型 形式
Label Smoothing
Logit Penalty$\
Centered Smoothing$-\frac{1}{C}\sum_c z_c + \frac{1}{2C}\

2. 核心发现:Logit聚类

2.1 隐式偏差定理

定理1(Logit聚类):对于任意凸Logit正则化,当样本数 时,最小化经验风险的模型满足:

其中 是样本 对应的有限目标logit向量

2.2 目标向量结构

对于分类任务,目标向量为:

或更一般的:

2.3 几何解释

Logit正则化将优化目标从间隔最大化转变为Logit向有限目标聚类


3. Fisher线性判别对齐

3.1 高斯数据假设

假设类别的输入服从高斯分布:

3.2 主要定理

定理2(Fisher对齐):在上述高斯假设下,最小化Logit正则化损失的权重向量 精确对齐到Fisher线性判别方向:

3.3 证明概要

  1. Logit聚类:由定理1,样本logits聚集到类别特定的目标向量
  2. 线性分类器,其中 为权重矩阵
  3. 最优性条件:最小化 等价于最大化类别间间隔
  4. Fisher对齐:在共同协方差假设下,最优方向为

4. 样本复杂度分析

4.1 关键发现

发现:Logit正则化将关键样本复杂度从 移位到

其中 是样本-维度比。

4.2 信号-噪声模型

考虑简化信号-噪声模型:

4.3 泛化边界

定理3(样本复杂度):对于Logit正则化(),泛化误差满足:

时,样本复杂度减半

4.4 边界对比

方法关键样本复杂度 泛化上界
标准交叉熵
Logit正则化

5. Grokking现象

5.1 小噪声极限

定理4(Grokking诱导):在 区域,Logit正则化诱导延迟泛化(Grokking)。

5.2 延迟机制

延迟时间随正则化强度 的关系:

其中 是临界正则化强度。

5.3 物理解释

  1. 快速过拟合:模型快速记住训练样本
  2. 缓慢正则化:Logit聚类目标驱动权重缓慢调整
  3. 突然泛化:当权重对齐Fisher方向时泛化能力涌现

6. 噪声鲁棒性

6.1 正交噪声分析

假设噪声方向与信号方向正交:

6.2 鲁棒性定理

定理5(噪声鲁棒性):Logit正则化的泛化准确度对正交噪声尺度 不变

6.3 最差情况余弦相似度

时, 接近1。


7. 与现有工作的联系


8. 实践建议

8.1 正则化强度选择

任务类型推荐
图像分类0.1 - 0.2
语言建模0.05 - 0.1
小样本学习0.2 - 0.3

8.2 何时使用

场景推荐使用不推荐使用
数据不平衡
标签噪声
需校准输出
需锐利间隔

8.3 与其他技术结合

  • 与Label Smoothing结合:使用更高
  • 与Mixup结合:增强泛化能力
  • 与对抗训练结合:改善对抗鲁棒性

参考文献

Footnotes

  1. Beck, A. (2026). The Implicit Bias of Logit Regularization. arXiv:2602.12039.