1. 引言
深度学习的泛化问题一直是理论研究的中心问题。近年来,泛化理论经历了从容量基础界(VC维、Rademacher复杂度)到范数基础界(谱范数、Frobenius范数)再到数据依赖界的演进。2024-2025年的研究进一步深化了这一方向,提出了若干关键性突破。
本章将系统介绍深度学习泛化理论的最新进展,包括:
- PAC-Bayes框架的精细化与扩散模型应用
- 组合稀疏性理论(Compositional Sparsity)——ICML 2025的重要立场论文
- 数据依赖泛化界的新发展
- Scaling Law与下游泛化的关系
2. PAC-Bayes框架精细化
2.1 经典PAC-Bayes回顾
PAC-Bayes框架的核心思想是将神经网络的泛化误差与后验分布相对于先验的KL散度联系起来:
其中:
- :真实风险(期望损失)
- :经验风险(训练集损失)
- :后验与先验的KL散度
- :样本数量
2.2 精细化方向
2.2.1 各向异性后验
传统PAC-Bayes使用各向同性高斯后验 ,忽略了参数间的相关性。2024-2025年的研究转向各向异性高斯后验:
引入敏感度矩阵(sensitivity matrix)量化参数扰动的结构化影响:
2.2.2 面向图神经网络的PAC-Bayes界
针对GNN的结构化权重扰动,提出拓扑感知的PAC-Bayes边界:
其中 为图拉普拉斯矩阵相关的敏感度矩阵。
2.3 与现有PAC-Bayes工作的关系
| 论文 | 核心贡献 | 与本节工作的关系 |
|---|---|---|
| McAllester (1999) | 原始PAC-Bayes框架 | 理论基础 |
| Catoni (2007) | PAC-Bayes for分类 | 损失函数扩展 |
| Neubauer (2024) | 面向GNN的PAC-Bayes | 本节的GNN应用 |
| Ney (2025) | 扩散模型PAC-Bayes | 见diffusion-model-generalization-memorization |
3. 组合稀疏性理论(Compositional Sparsity)
3.1 核心立场
ICML 2025的立场论文1提出:理解深度学习需要组合稀疏性理论,而非传统的容量度量。
传统泛化理论假设学习目标属于某个固定容量的假设类(如VC维的类),但真实场景中:
- 真实函数往往是复合函数 ,每个只需要少量参数描述
- DNN通过自动发现这种稀疏组合结构来实现泛化
- 传统容量度量会过度估计所需的复杂度
3.2 形式化定义
定义(组合稀疏网络):设为一神经网络。若存在分解
其中每个是”简单”的子网络(参数量至多),是”简单”的组合器,则称为**-组合稀疏**的。
组合稀疏度(Compositional Sparsity)定义为:
3.3 泛化界
基于组合稀疏性的泛化界:
注意:此界与网络总参数量无关,仅与组合稀疏度有关。
3.4 与其他理论的联系
3.4.1 与彩票假说的联系
彩票假说(Lottery Ticket Hypothesis)指出:训练成功的网络中存在”中奖彩票”——稀疏子网络在独立训练时可达到相同性能。组合稀疏性理论提供了为什么存在彩票的理论解释:
- 网络整体具有高组合稀疏度
- 随机初始化时,大量子网络已经具有合理的组合结构
- 训练过程”发现”并强化这些有效的稀疏组合
3.4.2 与Sparse GOP的联系
Generalized Output Probability (GOP) 衡量网络对输入的敏感性。组合稀疏网络的GOP具有乘法分解性质:
这解释了为什么深度网络对输入扰动具有层次化的敏感性。
3.4.3 与神经切向核(NTK)的联系
NTK理论在无限宽极限下恢复了网络的泛化能力。组合稀疏性提供了有限宽度下的补充视角:
| 方面 | NTK理论 | 组合稀疏性 |
|---|---|---|
| 宽度假设 | 无限宽 | 有限宽度 |
| 表达能力 | 基于核函数 | 基于组合结构 |
| 泛化机制 | 核正则化 | 结构发现 |
| 实践联系 | Lazy training | Rich regime |
3.5 实践启示
- 网络架构设计:关注网络的模块化结构,而非单纯增加宽度/深度
- 训练策略:课程学习(从简单组合到复杂组合)与组合稀疏性目标一致
- 剪枝:基于组合结构的剪枝可能比幅度剪枝更有效
- 泛化诊断:测量网络的组合稀疏度可能比测量参数量更能预测泛化性能
4. 数据依赖泛化界
4.1 传统界的问题
传统泛化界(如范数界、PAC-Bayes界)具有以下共同特点:
- 容量依赖:依赖于模型大小、参数量等与数据无关的量
- 保守估计:实际泛化gap远小于上界
- 无法解释:为什么过参数化网络反而泛化好
4.2 边缘稳定性(Edge of Stability)
NeurIPS 2022的边缘稳定性现象2揭示了一个关键观察:
训练过程中,损失景观的有效曲率()趋向于保持在临界值2附近。
这一现象可以通过数据依赖的分析来解释:
定义(数据依赖稳定性):设为训练参数轨迹。若
则称训练过程是数据依赖稳定的。
4.3 梯度方差依赖界
基于梯度噪声结构的泛化界:
其中:
- :梯度噪声方差(数据依赖)
- :参数相关度(权重初始化依赖)
4.4 与Information Bottleneck的联系
数据依赖泛化界与信息瓶颈理论有深刻联系:
- 信息瓶颈最小化
- 等价于最大化数据依赖的泛化能力
- 表征的压缩程度是泛化的关键指标
5. Scaling Law与下游泛化
5.1 经典Scaling Law
Kaplan等人(2020)提出语言模型的幂律 scaling:
其中为交叉熵损失,为参数量,。
Chinchilla(Hoffmann等人,2022)修正为:
5.2 下游任务的Scaling Law失效
EMNLP Findings 2025的研究3揭示了一个重要发现:
预训练的Scaling Law不能可靠预测下游任务的泛化性能。
关键实验结果:
- 在8个下游任务上,scaling law预测与实际泛化呈弱相关()
- 最可靠的预测指标是验证集困惑度,但仍存在显著偏差
- 模型架构变化(如attention head数量)对scaling law有非线性影响
5.3 隐式正则化的角色
这一发现支持了隐式正则化假说:
- 预训练目标(语言建模)→ 下游任务泛化之间存在隐式映射
- 这一映射不是由容量控制,而是由训练动态决定
- 与隐式正则化理论的预测一致
6. 与现有Wiki内容的交叉引用
| 相关文档 | 联系 |
|---|---|
| pac-bayes-theory | PAC-Bayes基础理论与本章精细化方向 |
| sharp-flat-minima | 平坦最小值与组合稀疏性的联系 |
| neural-tangent-kernel-theory-deep-dive | NTK与组合稀疏性的对比 |
| lottery-ticket-hypothesis | 彩票假说与组合稀疏性的理论联系 |
| information-bottleneck | 信息瓶颈与数据依赖泛化界 |
| diffusion-model-generalization-memorization | 扩散模型泛化(PAC-Bayes for diffusion) |
7. 总结与开放问题
7.1 本章要点
- PAC-Bayes精细化:各向异性后验、拓扑感知边界是当前重要方向
- 组合稀疏性:ICML 2025的核心立场,提供了解释DNN泛化的新视角
- 数据依赖界:梯度噪声结构、边缘稳定性等现象推动数据依赖分析
- Scaling Law的局限:预训练scaling law无法可靠预测下游泛化
7.2 开放问题
- 组合稀疏性的可计算性:如何实际测量给定网络的组合稀疏度?
- PAC-Bayes界的紧度:能否达到与经验泛化gap同量级的上界?
- 下游泛化的预测:除了验证集困惑度,还有什么可靠的下游泛化预测指标?
- 组合稀疏性的训练动态:训练过程如何发现有效的组合结构?
7.3 未来方向
- 统一的泛化理论:组合稀疏性能否成为连接PAC-Bayes、NTK、信息瓶颈的统一框架?
- 实践导向的研究:基于理论启示的剪枝、正则化新方法
- 大型语言模型:组合稀疏性对LLM泛化的解释能力
参考文献
相关阅读:
- pac-bayes-theory — PAC-Bayes基础理论
- neural-tangent-kernel-theory-deep-dive — 神经切向核与泛化
- lottery-ticket-hypothesis — 彩票假说
- information-bottleneck — 信息瓶颈理论
Footnotes
-
ICML 2025 Position Paper. “A Theory of Deep Learning Must Include Compositional Sparsity.” arXiv:2507.02550. ↩
-
Cohen et al. (2022). “Training Neural Networks with Local Error Signals.” NeurIPS 2022. ↩
-
“Scaling Laws Are Unreliable for Downstream Task Generalization.” EMNLP Findings 2025. arXiv:2507.00885. ↩