深度学习的信息论框架

1 引言与背景

深度学习领域面临着一个深刻的理论悖论：过参数化模型为何能泛化？ 传统统计学习理论（如VC维、PAC学习）预言，当模型参数量远超训练样本数时，学习算法会严重过拟合。然而，现代深度神经网络（DNN）和Transformer的实践表现却截然相反——参数数量达到数十亿规模的模型不仅能完美拟合训练数据，还能在测试集上表现出色。

这一理论与实践的巨大鸿沟，推动了信息论视角的深度学习理论研究。Feder、Urbanke和Fogel等人在arXiv:2506.07661中提出的信息论深度学习框架（Information-Theoretic Framework）提供了一个统一且优雅的视角，将学习问题重新定义为对数损失下的通用预测问题，并通过非均匀的regret bound来刻画泛化能力。

1.1 核心思想概述

该框架的核心洞察可以概括为以下几点：

学习即通用预测：将监督学习、在线学习和批量学习统一在”预测下一个符号”（next-token prediction）的框架下
贝叶斯混合预测器：最优学习器是参数空间上的贝叶斯混合分布
非均匀复杂度：泛化能力不取决于模型类的整体规模，而取决于靠近真实数据生成过程的参数区域的概率质量
谱代理：复杂度可通过Fisher信息矩阵（FIM）或Hessian矩阵的谱性质来近似计算
架构的归纳偏置：深度网络和Transformer的宽复杂度范围（broad complexity range）使其既能高度表达，又能偏好简单模型

2 通用预测框架

2.1 学习作为对数损失下的通用预测

在信息论框架中，模型类被定义为参数化的概率分布集合¹：

Θ = {P_{θ} (y ∣ x) : x \in X, y \in Y, P_{θ} (y ∣ x) \geq 0, y \sum P_{θ} (y ∣ x) = 1}_{θ \in Θ} (1)

这推广了经典的确定性函数学习（ $y = f_{θ} (x)$ ）。给定训练集 $S = {(x_{i}, y_{i})}_{i = 1}^{n}$ ，学习的目标是构建一个预测分布 $Q (y ∣ x; S)$ ，对数损失（log-loss）定义为：

ℓ (Q, (x, y)) = - lo g Q (y ∣ x; S)

对数损失是信息论中的严格合理评分规则（strictly proper scoring rule），具有以下优良性质：

与最大似然估计一致
对应于结果的自信息/编码长度
等价于最小化KL散度

2.2 点态Regret定义

对于给定输入 $x$ ，使用 $Q (y ∣ x; S)$ 而非最优模型 $P_{θ_{0}} (y ∣ x)$ 的点态regret为：

- lo g Q (y ∣ x; S) - (- lo g P_{θ_{0}} (y ∣ x)) = lo g \frac{P _{θ_{0}} ( y ∣ x )}{Q ( y ∣ x ; S )}

在可实现（realizable）情况下，真实分布属于模型类，regret简化为条件KL散度：

R_{r}^{s} (Q, θ_{0}) = D_{KL} (P_{θ_{0}} (Y ∣ X) ∥ Q (Y ∣ X; S) ∣ X; S) (3)

在不可知（agnostic）情况下，真实分布可能不在模型类中，定义 $θ_{0}$ 为在KL散度意义下对真实分布的最佳近似：

θ_{0} = ar g θ \in Θ min D_{KL} (P (y ∣ x) ∥ P_{θ} (y ∣ x) ∣ X)

2.3 贝叶斯混合预测器

框架中的最优学习器是贝叶斯混合分布¹：

Q (y ∣ x; S) = \int_{Θ} w (θ ∣ S) P_{θ} (y ∣ x) d θ (4)

其中 $w (θ)$ 是参数上的先验分布，后验通过贝叶斯公式计算：

w (θ ∣ S) \propto w (θ) i = 1 \prod n P_{θ} (y_{i} ∣ x_{i})

贝叶斯混合预测器的最优性可以从KL投影定理证明：对于任意非混合的预测器 $\tilde{Q}$ ，存在一个混合预测器 $Q$ 使得：

D_{KL} (P_{θ} ∥ \tilde{Q}) \geq D_{KL} (P_{θ} ∥ Q) \geq 0, \forall P_{θ} \in Θ

3 非均匀Regret Bounds

3.1 非均匀复杂度定义

对于 $ϵ^{2} > 0$ ，定义参数空间中靠近最优模型的 $ϵ$ -邻域：

Θ_{ϵ^{2}}^{0} = {θ \in Θ : E_{(x, y) \sim P} [lo g \frac{P _{θ_{0}} ( y ∣ x )}{P _{θ} ( y ∣ x )}] \leq ϵ^{2}}

这是以KL散度为度量，在参数空间中划定的一个区域。框架的核心结果是：该区域的概率质量越小，regret越大。

3.2 非均匀Regret Bound

设 $w (Θ_{ϵ^{2}}^{0} ∣ S) = \int_{Θ_{ϵ^{2}}^{0}} w (θ ∣ S) d θ$ 为后验分配给该区域的质量，则有¹：

R_{a}^{s} (Q, P) \leq ϵ^{2} - E_{S} [lo g w (Θ_{ϵ^{2}}^{0} ∣ S)] (5)

这个界的重要性在于它是非均匀的——不同模型有不同的复杂度，从而有不同的regret上界。简单模型（靠近真实分布的模型多）具有低复杂度和紧的regret bound；复杂模型则复杂度高，bound也相应宽松。

3.3 与传统PAC界的对比

传统PAC（Probably Approximately Correct）界通常是均匀的——对模型类中所有假设给出相同的泛化保证。这种方法在面对大模型类时往往得到平凡的界（即VACUOOUS bound），因为最坏情况过于悲观。

非均匀界打破了这一限制：它不受制于”（模型数量）×（每个模型的概率）≤ 1”这一packing-based的基本限制。通过允许不同模型有不同的复杂度，框架得以解释为什么包含数十亿参数的现代网络仍然能够有效学习。

4 架构复杂度理论

4.1 先验复杂度定义

当没有训练数据时（ $S = \emptyset$ ），复杂度退化为先验复杂度¹：

Comp_{prior} (P, ϵ^{2}) = - lo g w (Θ_{ϵ^{2}}^{0}) (6)

即最优模型 $ϵ$ -邻域的负对数先验概率。这个量反映了架构的隐式归纳偏置：

邻域先验概率高的模型更容易被学习
先验概率低的模型需要更多证据（数据）才能达到相同的regret

4.2 复杂度范围（Complexity Range）

当模型类内先验复杂度的分布范围很宽时，称该类具有大的复杂度范围（large complexity range）。具有大复杂度范围的模型类可以同时满足：

高度表达性：能表示许多复杂函数
紧的regret bound：通过优先选择简单模型来实现好的泛化

深度神经网络和Transformer天然具有宽的复杂度范围，而线性模型几乎没有复杂度范围——这是现代架构成功的关键特征之一。

4.3 证据积累

当有 $n \geq 1$ 个数据点时，复杂度大致分解为先验复杂度加上来自似然的证据项：

Comp (P, ϵ^{2}) \approx Comp_{prior} (P, ϵ^{2}) + (evidence term)

随着数据增加，证据项积累，后验复杂度下降，regret bound收紧。

5 Fisher信息矩阵与谱代理

5.1 FIM的谱性质

精确计算复杂度 $w (Θ_{ϵ^{2}}^{0})$ 在高维参数空间中往往不可行。框架提出用Fisher信息矩阵（FIM）的谱性质作为可计算的代理复杂度度量¹。

FIM定义为：

I (θ) = E_{(x, y) \sim P_{θ_{0}}} [(\nabla_{θ} lo g P_{θ} (y ∣ x)) (\nabla_{θ} lo g P_{θ} (y ∣ x))^{⊤}]

在局部，KL散度可以用FIM近似：

D_{KL} (P_{θ_{0}} ∥ P_{θ}) = (θ - θ_{0})^{⊤} I (θ_{0}) \frac{( θ - θ _{0} )}{2} + O (∥ θ - θ_{0} ∥^{3}) (30)

因此， $Θ_{ϵ^{2}}^{0}$ 局部近似为一个椭球体，其主轴长度与FIM特征值的平方根成反比。

5.2 有效维度与谱正则化

设 $I (θ_{0})$ 的特征值为 $λ_{1} \geq λ_{2} \geq \dots \geq λ_{d} > 0$ 。有效维度 $k$ 定义为满足 $λ_{k + 1} \leq α / R^{2}$ 的最大 $k$ ，其中 $R$ 是参数空间半径， $α$ 是一个小量。

定理1（监督学习的谱regret bound）¹：假设参数空间是半径为 $R$ 的 $d$ 维球，先验均匀。如果 $I (θ_{0})$ 的特征值满足 $λ_{k + 1} \leq α^{2} R^{2}$ （ $k ≪ d$ ），则：

R_{r}^{s} (Q, θ_{0}) \leq \frac{k}{2 n} + α + o (\frac{1}{n}) (7)

当 $α ≪ \frac{k}{2 n}$ 时， $R_{r}^{s} (Q, θ_{0}) ≲ \frac{k}{2 n}$ 。这揭示了深度学习的核心洞察：泛化取决于有效维度 $k$ ，而非总参数量 $d$ 。

5.3 与平坦最小值的关系

该框架对平坦最小值（flat minima）现象给出了精确的信息论解释¹：

平坦区域对应参数空间中 $Θ_{0}$ 的大体积，大体积意味着低先验复杂度，进而意味着低regret。

具体而言：

大特征值方向：对表示目标函数至关重要，是”有效参数”方向
小特征值方向：沿这些方向参数可以自由变化而不显著改变函数/分布——这些就是Hessian/Loss景观中”平坦”的方向

大量实证研究表明，训练良好的现代网络确实表现出高度退化的谱——许多特征值接近零，这与框架的预测高度一致。

6 架构的归纳偏置

6.1 参数空间到函数空间的非单射映射

在经典架构（如线性回归）中，映射 $θ \mapsto P_{θ}$ 是单射的——不同的参数对应不同的函数。但在现代架构中，这个映射是高度非单射的：许多不同的参数向量对应相同的函数（或非常相似的函数）。

从信息论视角看，非单射性是一个特性而非缺陷。它将先验质量集中在特定的函数上，从而诱导出宽的复杂度范围。具体而言：

在DNN中，当只有少数神经元真正活跃时，非活跃神经元对应的参数可以在大范围内变化而不改变输出
这赋予了对应函数高先验质量，即使该函数在参数空间中只有一个”点”，其周围的体积也是巨大的

6.2 层状结构的复杂度范围效应

深度学习最关键的结构特征是多层组合（layered composition）¹：

y = f_{θ_{1}} (f_{θ_{2}} (\dots f_{θ_{ℓ}} (x) \dots)) + n, n \sim N (0, σ^{2} I) (8)

通过链式法则，层 $i$ 参数的梯度涉及前面各层Jacobian的乘积：

\nabla_{θ_{i}} f_{θ} (x) = J_{1 : i - 1} \cdot \nabla_{θ_{i}} f_{θ_{i}} (h_{i})

这些Jacobian乘积趋向于退化（degenerate），导致FIM继承相同的谱收缩效应。

直觉：即使不添加新函数，层状结构也会改变参数空间上的隐式先验分布——倾向于更简单的有效函数。

6.3 线性vs非线性层状模型

线性组合：考虑 $y = A_{1} A_{2} \dots A_{ℓ} x + n$ ，功能上等价于单矩阵 $A$ ，但参数化方式不同。随机矩阵理论的结果表明，随着层数增加，谱密度集中在零点附近——即更倾向于低复杂度映射。

ReLU网络示例：在宽度为 $m$ 的两层ReLU网络中，“零函数”（ $f_{θ} (x) \equiv 0$ ）具有低复杂度。隐藏单元 $j$ “永远不活跃”的条件为 $w_{j}^{⊤} x + b_{j} \leq 0, \forall x \in X$ 。论文中证明¹：

单个隐藏单元永不活跃的先验概率为 $p_{inact}$
所有 $m$ 个单元都不活跃的概率为 $p_{inact}^{m}$
先验复杂度上界为 $- m lo g p_{inact}$

这说明即使是很简单的函数（零函数）也得到低复杂度，从而具有紧的regret bound。

7 SGD作为近似贝叶斯推断

7.1 理论联系

虽然贝叶斯混合预测器在理论上是最优的，但直接计算它对于数十亿参数的现代架构是不切实际的。随机梯度下降（SGD）及其变体实际上是一种高效隐式近似贝叶斯混合的方法。

SGD作为近似贝叶斯推断的数学依据在于¹：

SGD引入的随机性（mini-batch采样）使其在参数空间中探索而非坍缩到单点
当SGD与Langevin动力学结合（SGD+LD）时，其更新规则可视为离散化的随机微分方程
SGD+LD的平稳分布正是贝叶斯后验： $w (θ ∣ S) \propto w (θ) e^{- L (θ; S)}$

7.2 模型平均与集成

利用SGD的贝叶斯解释，可以采用两种实用的近似策略：

模型平均/集成：多次独立训练（不同随机种子或注入额外噪声），获得参数集 ${θ^{(i)}}$ ，预测分布近似为：
$\hat{Q} (\cdot) = \frac{1}{M} i = 1 \sum M P_{θ^{(i)}} (\cdot)$
这直接逼近了贝叶斯混合分布。
单次运行的近似：当训练集足够大时，与 $θ_{0}$ KL散度较大的模型被赋予极小的权重。因此，单次SGD运行（通常是MAP估计）已经是对混合的良好近似。

随机权重平均（SWA）和Polyak平均等技术通过沿SGD轨迹对权重进行平均，进一步降低方差、改善泛化，且无需额外训练成本。

7.3 高维可扩展性

SGD近似方法的核心优势在于其线性可扩展性：计算成本随参数数量和训练样本数大致线性增长，使得在数十亿参数的模型（如GPT系列、LLaMA）上应用这些思想成为可能。

8 信息论视角下的现代架构成功解释

8.1 Transformer的成功原因

框架对Transformer的成功给出了信息论层面的解释¹：

自注意力机制和多层堆叠共同产生了宽的复杂度范围：

参数量极大：提供了巨大的参数空间，支持海量不同的函数
层状结构：通过Jacobian链式效应，引入隐式简单性偏置
参数到函数的多对一映射：大量不同权重配置产生相似/相同输出
数据依赖的谱特性：自然信号的FIM/Hessian谱往往高度偏斜

这些因素共同使得Transformer既能学习复杂模式（高表达能力），又能在真实数据上找到低复杂度解（好泛化）。

8.2 深度网络的广复杂度范围

框架论证了广复杂度范围是成功的关键¹。深度网络具备以下特征：

特征	对复杂度范围的影响
大宽度	增加可表示函数数量
多层组合	Jacobian乘积导致谱收缩，偏好简单函数
非线性激活	非单射性集中先验质量
Skip connections	提供信息高速公路，但保留整体层状结构偏置

论文中的实验（图1）验证了这一理论：对CIFAR-10使用Inception网络训练¹：

真实标签训练（泛化良好）：Hessian特征值快速衰减，表明算法收敛到相对”简单”的模型
噪声标签/噪声图像训练（无法泛化）：特征值衰减缓慢，反映了一个”复杂”模型

9 与其他理论框架的联系

9.1 PAC-Bayes框架

PAC-Bayes框架同样使用先验/后验和KL项，但两者在散度的使用方式上有根本区别¹：

方面	PAC-Bayes	本框架
控制项	$D_{KL} (posterior ∥ prior)$	$D_{KL} (P_{θ_{0}} ∥ Q)$
重点	先验设计的关键性	隐式生成，通过参数先验自然引入

本框架与近期将PAC-Bayes与平坦最小值联系起来的工作是互补的，共同丰富了对泛化的理解。

9.2 奇异学习理论（SLT）

奇异学习理论（S LT）利用Hironaka的分辨率定理刻画了在线和批量学习问题regret的渐近值¹。与本框架的关系：

SLT：渐近结果；假设无记忆（memoryless）的模型类和分布
本框架：非渐近上界；也适用于有记忆的模型类和分布

实对数典型阈值（real log canonical threshold）可以解释为：

λ = ϵ \to 0 lim \frac{lo g w ( Θ _{0} )}{lo g ( ϵ ^{2} )}

将其代入非渐近界，可以得到与SLT等价的渐近结果。

9.3 压缩与奥卡姆剃刀

本框架的regret bound具有编码/压缩视角¹：

$- lo g w (Θ_{0})$ 可解释为描述模型及其 $ϵ$ -邻域所需的编码长度
简单模型具有高先验权重，对应更短的描述长度
这与MDL（最小描述长度）原理和压缩风格的泛化论证一致

近期研究表明DNN具有”内置的奥卡姆剃刀”（inbuilt Occam’s razor），与本框架的非均匀复杂度图景相呼应。

10 总结与展望

10.1 框架核心贡献

该信息论框架的核心贡献可以归纳为以下几点¹：

统一的理论基础：将监督学习、在线学习和批量学习统一在通用预测框架下，适用于可实现和不可知两种设定
非均匀模型复杂度：复杂度 $Comp (P, ϵ^{2}) = - E_{S} [lo g w (Θ_{ϵ^{2}}^{0} ∣ S)]$ 是数据依赖且架构感知的
谱代理与显式界：基于FIM/Hessian谱，揭示泛化取决于有效维度 $k$ 而非参数量 $d$
架构归纳偏置的第一性原理推导：从参数空间到函数空间的非单射映射和层状组合结构导致了对简单函数的隐式偏好
SGD的贝叶斯解释：SGD（及SGD+LD）是可扩展的贝叶斯混合近似器
编码/压缩视角：regret对应描述长度，提供与MDL原则的天然联系

10.2 开放问题与未来方向

样本依赖的谱界：当前谱界依赖输入分布（如 $I (θ_{0})$ 的定义），发展基于样本的变体是自然的下一步
Laplace近似的改进：当前依赖局部Laplace近似，放宽这一假设将增强理论的适用性
替代架构的系统分析：有限状态机、状态空间序列模型、核机器、小波构造等也可以实现宽复杂度范围——系统分析这些架构如何诱导复杂度范围及其与自然信号的对齐，是有前景的研究方向
Transformer的理论完善：更精细地分析注意力机制的谱性质如何具体贡献于复杂度范围

10.3 实践启示

该框架为深度学习实践提供了理论启示：

深度 > 宽度：层状组合（而非单纯增加宽度）引入了有效的简单性偏置
平坦最小值的意义：平坦方向不是”幸运的副作用”，而是低复杂度解的标志
正则化的本质：谱正则化（如谱归一化）通过控制FIM谱间接控制复杂度
模型集成：集成多模型是对贝叶斯混合的显式近似，理论上有保证

参考资料

本文档基于 arXiv:2506.07661 论文内容撰写，涵盖了框架的核心思想、关键技术细节及其对深度学习理论的启示。

Feder, M., Urbanke, R., & Fogel, Y. (2025). Information-Theoretic Framework for Understanding Modern Machine-Learning. arXiv:2506.07661. https://arxiv.org/abs/2506.07661 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³ ↩¹⁴ ↩¹⁵ ↩¹⁶ ↩¹⁷

Metaphor

探索