1. 引言

深度学习的泛化问题一直是理论研究的中心问题。近年来,泛化理论经历了从容量基础界(VC维、Rademacher复杂度)到范数基础界(谱范数、Frobenius范数)再到数据依赖界的演进。2024-2025年的研究进一步深化了这一方向,提出了若干关键性突破。

本章将系统介绍深度学习泛化理论的最新进展,包括:

  • PAC-Bayes框架的精细化与扩散模型应用
  • 组合稀疏性理论(Compositional Sparsity)——ICML 2025的重要立场论文
  • 数据依赖泛化界的新发展
  • Scaling Law与下游泛化的关系

2. PAC-Bayes框架精细化

2.1 经典PAC-Bayes回顾

PAC-Bayes框架的核心思想是将神经网络的泛化误差与后验分布相对于先验的KL散度联系起来:

其中:

  • :真实风险(期望损失)
  • :经验风险(训练集损失)
  • :后验与先验的KL散度
  • :样本数量

2.2 精细化方向

2.2.1 各向异性后验

传统PAC-Bayes使用各向同性高斯后验 ,忽略了参数间的相关性。2024-2025年的研究转向各向异性高斯后验

引入敏感度矩阵(sensitivity matrix)量化参数扰动的结构化影响:

2.2.2 面向图神经网络的PAC-Bayes界

针对GNN的结构化权重扰动,提出拓扑感知的PAC-Bayes边界

其中 为图拉普拉斯矩阵相关的敏感度矩阵。

2.3 与现有PAC-Bayes工作的关系

论文核心贡献与本节工作的关系
McAllester (1999)原始PAC-Bayes框架理论基础
Catoni (2007)PAC-Bayes for分类损失函数扩展
Neubauer (2024)面向GNN的PAC-Bayes本节的GNN应用
Ney (2025)扩散模型PAC-Bayesdiffusion-model-generalization-memorization

3. 组合稀疏性理论(Compositional Sparsity)

3.1 核心立场

ICML 2025的立场论文1提出:理解深度学习需要组合稀疏性理论,而非传统的容量度量。

传统泛化理论假设学习目标属于某个固定容量的假设类(如VC维的类),但真实场景中:

  • 真实函数往往是复合函数 ,每个只需要少量参数描述
  • DNN通过自动发现这种稀疏组合结构来实现泛化
  • 传统容量度量会过度估计所需的复杂度

3.2 形式化定义

定义(组合稀疏网络):设为一神经网络。若存在分解

其中每个是”简单”的子网络(参数量至多),是”简单”的组合器,则称为**-组合稀疏**的。

组合稀疏度(Compositional Sparsity)定义为:

3.3 泛化界

基于组合稀疏性的泛化界:

注意:此界与网络总参数量无关,仅与组合稀疏度有关。

3.4 与其他理论的联系

3.4.1 与彩票假说的联系

彩票假说(Lottery Ticket Hypothesis)指出:训练成功的网络中存在”中奖彩票”——稀疏子网络在独立训练时可达到相同性能。组合稀疏性理论提供了为什么存在彩票的理论解释:

  • 网络整体具有高组合稀疏度
  • 随机初始化时,大量子网络已经具有合理的组合结构
  • 训练过程”发现”并强化这些有效的稀疏组合

3.4.2 与Sparse GOP的联系

Generalized Output Probability (GOP) 衡量网络对输入的敏感性。组合稀疏网络的GOP具有乘法分解性质:

这解释了为什么深度网络对输入扰动具有层次化的敏感性。

3.4.3 与神经切向核(NTK)的联系

NTK理论在无限宽极限下恢复了网络的泛化能力。组合稀疏性提供了有限宽度下的补充视角:

方面NTK理论组合稀疏性
宽度假设无限宽有限宽度
表达能力基于核函数基于组合结构
泛化机制核正则化结构发现
实践联系Lazy trainingRich regime

3.5 实践启示

  1. 网络架构设计:关注网络的模块化结构,而非单纯增加宽度/深度
  2. 训练策略:课程学习(从简单组合到复杂组合)与组合稀疏性目标一致
  3. 剪枝:基于组合结构的剪枝可能比幅度剪枝更有效
  4. 泛化诊断:测量网络的组合稀疏度可能比测量参数量更能预测泛化性能

4. 数据依赖泛化界

4.1 传统界的问题

传统泛化界(如范数界、PAC-Bayes界)具有以下共同特点:

  • 容量依赖:依赖于模型大小、参数量等与数据无关的量
  • 保守估计:实际泛化gap远小于上界
  • 无法解释:为什么过参数化网络反而泛化好

4.2 边缘稳定性(Edge of Stability)

NeurIPS 2022的边缘稳定性现象2揭示了一个关键观察:

训练过程中,损失景观的有效曲率()趋向于保持在临界值2附近。

这一现象可以通过数据依赖的分析来解释:

定义(数据依赖稳定性):设为训练参数轨迹。若

则称训练过程是数据依赖稳定的。

4.3 梯度方差依赖界

基于梯度噪声结构的泛化界:

其中:

  • :梯度噪声方差(数据依赖)
  • :参数相关度(权重初始化依赖)

4.4 与Information Bottleneck的联系

数据依赖泛化界与信息瓶颈理论有深刻联系:

  • 信息瓶颈最小化
  • 等价于最大化数据依赖的泛化能力
  • 表征的压缩程度是泛化的关键指标

5. Scaling Law与下游泛化

5.1 经典Scaling Law

Kaplan等人(2020)提出语言模型的幂律 scaling:

其中为交叉熵损失,为参数量,

Chinchilla(Hoffmann等人,2022)修正为:

5.2 下游任务的Scaling Law失效

EMNLP Findings 2025的研究3揭示了一个重要发现:

预训练的Scaling Law不能可靠预测下游任务的泛化性能。

关键实验结果:

  • 在8个下游任务上,scaling law预测与实际泛化呈弱相关(
  • 最可靠的预测指标是验证集困惑度,但仍存在显著偏差
  • 模型架构变化(如attention head数量)对scaling law有非线性影响

5.3 隐式正则化的角色

这一发现支持了隐式正则化假说:

  • 预训练目标(语言建模)→ 下游任务泛化之间存在隐式映射
  • 这一映射不是由容量控制,而是由训练动态决定
  • 隐式正则化理论的预测一致

6. 与现有Wiki内容的交叉引用

相关文档联系
pac-bayes-theoryPAC-Bayes基础理论与本章精细化方向
sharp-flat-minima平坦最小值与组合稀疏性的联系
neural-tangent-kernel-theory-deep-diveNTK与组合稀疏性的对比
lottery-ticket-hypothesis彩票假说与组合稀疏性的理论联系
information-bottleneck信息瓶颈与数据依赖泛化界
diffusion-model-generalization-memorization扩散模型泛化(PAC-Bayes for diffusion)

7. 总结与开放问题

7.1 本章要点

  1. PAC-Bayes精细化:各向异性后验、拓扑感知边界是当前重要方向
  2. 组合稀疏性:ICML 2025的核心立场,提供了解释DNN泛化的新视角
  3. 数据依赖界:梯度噪声结构、边缘稳定性等现象推动数据依赖分析
  4. Scaling Law的局限:预训练scaling law无法可靠预测下游泛化

7.2 开放问题

  1. 组合稀疏性的可计算性:如何实际测量给定网络的组合稀疏度?
  2. PAC-Bayes界的紧度:能否达到与经验泛化gap同量级的上界?
  3. 下游泛化的预测:除了验证集困惑度,还有什么可靠的下游泛化预测指标?
  4. 组合稀疏性的训练动态:训练过程如何发现有效的组合结构?

7.3 未来方向

  1. 统一的泛化理论:组合稀疏性能否成为连接PAC-Bayes、NTK、信息瓶颈的统一框架?
  2. 实践导向的研究:基于理论启示的剪枝、正则化新方法
  3. 大型语言模型:组合稀疏性对LLM泛化的解释能力

参考文献


相关阅读

Footnotes

  1. ICML 2025 Position Paper. “A Theory of Deep Learning Must Include Compositional Sparsity.” arXiv:2507.02550.

  2. Cohen et al. (2022). “Training Neural Networks with Local Error Signals.” NeurIPS 2022.

  3. “Scaling Laws Are Unreliable for Downstream Task Generalization.” EMNLP Findings 2025. arXiv:2507.00885.