信息论视角下的优化动态

深度学习的训练过程可以从信息论角度获得深刻理解。信息几何（Information Geometry）将概率分布的参数空间视为黎曼流形，自然梯度（Natural Gradient）利用费舍尔信息矩阵定义黎曼度量下的最速下降方向，而变分推断与信息瓶颈理论揭示了优化目标的深层结构。此外，随机梯度下降（SGD）中的噪声也具有明确的信息论意义，与隐式正则化现象紧密相连。

本文系统性地梳理这些理论线索，建立信息论与优化动态之间的统一框架。

1. 梯度下降的信息几何

1.1 参数空间黎曼几何

从欧几里得空间到黎曼流形

传统梯度下降在欧几里得空间 $R^{P}$ 中定义更新：

θ_{t + 1} = θ_{t} - η \nabla_{θ} L (θ_{t})

然而，当参数化概率分布 $p_{θ} (x)$ 时，参数空间具有更丰富的几何结构。更准确地说，参数空间 $Θ$ 是一个 黎曼流形，其度量由概率分布族本身决定。

KL散度诱导的度量

对于概率分布 $p_{θ} (x)$ ，考虑参数空间中的”距离”——应满足：

非负性： $d (θ, θ^{'}) \geq 0$
同一性： $d (θ, θ) = 0$
对称性（近似）： $d (θ, θ^{'}) \approx d (θ^{'}, θ)$
三角不等式

KL散度 $D_{K L} (p_{θ} ∥ p_{θ^{'}})$ 正是这样一个候选度量。对于无穷小邻域内的分布，KL散度近似为：

D_{K L} (p_{θ} ∥ p_{θ + δ}) \approx \frac{1}{2} δ^{T} G (θ) δ + O (∥ δ ∥^{3})

其中 $G (θ)$ 是 黎曼度量张量（Metric Tensor）。

1.2 费舍尔信息矩阵

定义

费舍尔信息矩阵（Fisher Information Matrix, FIM）定义为：

F (θ) = E_{x \sim p_{θ}} [(\nabla_{θ} lo g p_{θ} (x)) (\nabla_{θ} lo g p_{θ} (x))^{⊤}]

更精确地，对于数据集 $D$ ：

F (θ) = \frac{1}{∣ D ∣} x \in D \sum (\nabla_{θ} lo g p_{θ} (x)) (\nabla_{θ} lo g p_{θ} (x))^{⊤}

几何意义

费舍尔信息矩阵正是KL散度二阶近似的度量张量：

D_{K L} (p_{θ} ∥ p_{θ + δ}) \approx \frac{1}{2} δ^{T} F (θ) δ

这一定义与 KL散度作为黎曼度量 的观点完全一致。

费舍尔信息的性质

性质	描述
对称性	$F (θ) = F (θ)^{⊤}$
半正定性	对任意向量 $v$ ， $v^{⊤} F (θ) v \geq 0$
Cramér-Rao界	$Var (\hat{θ}) ⪰ F (θ)^{- 1}$
充分统计量	$F (θ)$ 捕获了分布的所有信息量

代码实现

import torch
import torch.nn as nn
 
def compute_fisher_information(model, data_loader, epsilon=1e-6):
    """
    计算费舍尔信息矩阵的对角近似
    
    F_ii ≈ E[(∂log p/∂θ_i)²]
    
    注意：完整FIM是 P×P 矩阵，这里计算对角近似以节省内存
    """
    fisher_diagonal = []
    
    model.eval()
    for batch in data_loader:
        if isinstance(batch, (list, tuple)):
            x = batch[0]
        else:
            x = batch
        
        model.zero_grad()
        
        # 前向传播
        output = model(x)
        
        # 假设分类任务，计算logits的平方和作为代理
        # 实际中应使用 log p(y|x,θ) 的梯度
        loss = (output ** 2).mean()
        loss.backward()
        
        # 累积梯度平方
        for p in model.parameters():
            if p.grad is not None:
                fisher_diagonal.append((p.grad.data ** 2).mean().item())
    
    return torch.tensor(fisher_diagonal)

1.3 自然梯度

黎曼空间中的梯度下降

在黎曼流形上，“最陡下降”方向不是欧几里得梯度 $\nabla_{θ} L$ ，而是 自然梯度：

\tilde{\nabla}_{θ} L = F (θ)^{- 1} \nabla_{θ} L

自然梯度更新

θ_{t + 1} = θ_{t} - η \cdot F (θ_{t})^{- 1} \nabla_{θ} L (θ_{t})

几何直觉

                    θt
                   /│
                  / │  欧几里得梯度
                 /  │ (与度量无关)
                /   │
               ↓    │
              /     │
             /      │
            ╱_______│________________
           曲率由费舍尔度量决定
           自然梯度 = F⁻¹∇L (考虑曲率)

自然梯度的优点

特性	欧几里得梯度	自然梯度
坐标系无关性	否	是
收敛速度	慢（病态条件数）	快
概率分布适配	固定步长	自适应尺度
信息保留	无	保留Fisher信息

K-FAC近似

完整FIM计算代价高昂，实际中常使用 Kronecker-Factored Approximate Curvature (K-FAC) 方法：¹

class KFACPreconditioner:
    """
    K-FAC预条件器：近似自然梯度
    
    将FIM分解为 Kronecker 积以加速计算
    F ≈ A ⊗ B
    
    其中 A 捕获激活统计，B 捕获梯度统计
    """
    def __init__(self, model, damping=1e-3):
        self.model = model
        self.damping = damping
        self.momentum = {name: torch.zeros_like(p) 
                        for name, p in model.named_parameters()}
        
    def step(self, lr):
        """应用一次K-FAC预条件梯度更新"""
        self._compute_factors()
        self._update_momentum()
        self._apply_preconditioned_gradient(lr)
    
    def _compute_factors(self):
        """计算K-FAC分解因子"""
        self.factors = {}
        for name, module in self.model.named_modules():
            if hasattr(module, 'weight'):
                # 获取该层的激活和梯度
                a = module.input  # 激活
                g = module.weight.grad  # 梯度
                
                # A = E[aa^T], B = E[gg^T]
                self.factors[name] = {
                    'A': (a.unsqueeze(1) @ a.unsqueeze(2)).mean(0),
                    'G': (g.unsqueeze(1) @ g.unsqueeze(2)).mean(0)
                }

2. 自然梯度的信息论解释

2.1 KL散度作为黎曼度量

从信息论角度审视度量

在参数化概率分布 $p_{θ}$ 的空间中，两点之间的距离应该反映分布之间的信息差异。KL散度正是刻画这种差异的天然选择：

d_{K L} (θ, θ^{'}) = D_{K L} (p_{θ} ∥ p_{θ^{'}})

二阶近似与黎曼度量

对KL散度在 $θ$ 附近进行二阶泰勒展开：

D_{K L} (p_{θ} ∥ p_{θ + δ}) = \int p_{θ} (x) lo g \frac{p _{θ} ( x )}{p _{θ + δ} ( x )} d x = - \int p_{θ} (x) lo g (1 + \frac{p _{θ + δ} ( x ) - p _{θ} ( x )}{p _{θ} ( x )}) d x

利用 $lo g (1 + x) \approx x - x^{2} /2$ ，并设 $δ = θ^{'} - θ$ ，可证：

D_{K L} (p_{θ} ∥ p_{θ + δ}) \approx \frac{1}{2} δ^{T} F (θ) δ

其中 $F (θ)$ 正是 费舍尔信息矩阵。

黎曼度量与信息量

设 $δ$ 为无穷小参数变化，则：

信息量： $δ$ 携带的信息由 $I (θ, δ) = δ^{T} F (θ) δ$ 给出
概率变化：分布改变的”概率质量”与 $D_{K L}$ 成正比
有效步长：在费舍尔度量意义下，步长 $∥ δ ∥_{F} = δ^{T} F (θ) δ$ 应保持一致

2.2 自然梯度作为KL散度最小化

等价表述

自然梯度更新可以优雅地重新表述为：在参数空间中移动最小的KL散度距离，同时降低损失。

具体地，在约束：

D_{K L} (p_{θ_{t}} ∥ p_{θ_{t + 1}}) \leq ϵ

下最小化 $L (θ_{t + 1})$ ，使用拉格朗日乘子得到：

θ_{t + 1} = ar g θ min L (θ) + λ \cdot D_{K L} (p_{θ_{t}} ∥ p_{θ})

这正是 信任域方法（Trust Region Method）的精神，只是用KL散度替代欧几里得距离。

与置信域方法的联系

方法	度量	更新
TRM (欧几里得)	$∥ θ - θ_{t} ∥_{2}^{2} \leq ϵ$	$θ_{t + 1} = θ_{t} - η \nabla L$
自然梯度TRM	$D_{K L} (p_{θ_{t}} ∥ p_{θ}) \leq ϵ$	$θ_{t + 1} = θ_{t} - η F^{- 1} \nabla L$

2.3 与信息瓶颈的联系

信息瓶颈回顾

信息瓶颈（Information Bottleneck, IB）目标为：²

q (z ∣ x) min I (X; Z) - β I (Y; Z)

其中 $Z$ 是表示， $I (X; Z)$ 衡量压缩程度， $I (Y; Z)$ 衡量信息保留。

自然梯度视角下的IB

考虑变分IB的优化过程，ELBO为：

L (θ) = E_{q (z ∣ x)} [lo g p (y ∣ z)] - β \cdot D_{K L} (q (z ∣ x) ∥ r (z))

自然梯度更新：

θ_{t + 1} = θ_{t} - η F^{- 1} (θ_{t}) \nabla_{θ} L (θ_{t})

其中 $F (θ)$ 是 编码器分布 $q (z ∣ x, θ)$ 的费舍尔信息矩阵。

几何解释

信息瓶颈平面
    I(Y;Z)
      ↑
      │      自然梯度在信息平面
      │      上选择最有效（KL-
      │      意义上）的前进方向
      │          ↓
      │    ● ← θt+1
      │   ╱
      │  ● ← θt
      │ ╱
      └────────────────→ I(X;Z)
         压缩 ←────────────────→ 保留

3. 变分推断与优化的统一

3.1 变分推断的优化视角

贝叶斯后验推断

给定数据 $X$ ，我们希望推断隐变量 $Z$ 的后验分布：

p (Z ∣ X) = \frac{p ( X ∣ Z ) p ( Z )}{p ( X )}

其中 $p (X)$ 难以计算。

变分推断框架

用近似分布 $q (Z)$ 逼近真实后验 $p (Z ∣ X)$ ：

q^{*} (Z) = ar g q min D_{K L} (q (Z) ∥ p (Z ∣ X))

ELBO的推导

展开KL散度：

D_{K L} (q ∥ p (\cdot ∣ X)) = \int q (Z) lo g \frac{q ( Z )}{p ( Z ∣ X )} d Z = \int q (Z) lo g \frac{q ( Z ) p ( X )}{p ( X ∣ Z ) p ( Z )} d Z = lo g p (X) - \int q (Z) lo g \frac{p ( X ∣ Z ) p ( Z )}{q ( Z )} d Z

重排得到 证据下界（Evidence Lower Bound, ELBO）：

lo g p (X) = D_{K L} (q ∥ p (\cdot ∣ X)) + ELBO E_{q} [lo g p (X ∣ Z)] - D_{K L} (q (Z) ∥ p (Z))

3.2 ELBO的信息论意义

重构项与信息保留

重构项 $E_{q} [lo g p (X ∣ Z)]$ 衡量从表示 $Z$ 恢复 $X$ 的能力：

$Z$ 保留 $X$ 的信息越多，重构越精确
等价于最大化 $I (X; Z)$

KL正则项与压缩

KL正则项 $D_{K L} (q (Z) ∥ p (Z))$ 衡量表示 $Z$ 与先验的偏离：

强制 $q (Z)$ 接近先验 $p (Z)$
等价于最小化 $I (X; Z)$ （在某些假设下）

ELBO的信息论形式

在平均场假设下：

ELBO = I (X; Z) - D_{K L} (q (Z) ∥ p (Z))

这与信息瓶颈的目标完全一致！

3.3 连续性假设与平均场近似

平均场假设

平均场近似假设隐变量之间相互独立：

q (Z) = i = 1 \prod K q_{i} (Z_{i})

这使得变分推断可以通过坐标上升法（Coordinate Ascent）高效求解。

更深的联系

考虑神经网络参数 $θ$ 作为随机变量，变分推断与深度学习训练的对应关系：

变分推断	深度学习
$q (Z)$ ：近似后验	网络输出分布
$p (Z)$ ：先验	正则化目标
$p (X ∣ Z)$ ：似然	重构/预测损失
ELBO	损失函数
KL散度	隐式正则化

3.4 统一框架：预测分布的费舍尔优化

预测分布的信息几何

设神经网络输出 $p_{θ} (y ∣ x)$ ，则：

自然梯度 $F^{- 1} \nabla_{θ} L$ 使用 $p_{θ} (y ∣ x)$ 的费舍尔信息矩阵
这等价于在预测分布空间中优化KL散度

算法统一

class UnifiedInformationOptimizer:
    """
    统一信息论优化器
    
    结合变分推断、自然梯度和信息瓶颈
    """
    def __init__(self, model, beta=1e-3, use_natural_gradient=True):
        self.model = model
        self.beta = beta  # IB正则化强度
        self.use_natural_gradient = use_natural_gradient
        
        if use_natural_gradient:
            self.preconditioner = KFACPreconditioner(model)
    
    def compute_loss(self, x, y):
        """计算统一的损失函数"""
        # 1. 预测损失（重构项）
        logits = self.model(x)
        pred_loss = F.cross_entropy(logits, y)
        
        # 2. KL正则项（来自变分推断）
        kl_loss = self.compute_kl_loss()
        
        # 3. ELBO = 重构 - β * KL
        elbo = pred_loss - self.beta * kl_loss
        
        return elbo, pred_loss, kl_loss
    
    def step(self, x, y, lr):
        """一步优化"""
        self.model.zero_grad()
        
        loss, pred_loss, kl_loss = self.compute_loss(x, y)
        loss.backward()
        
        if self.use_natural_gradient:
            # 自然梯度更新
            self.preconditioner.step(lr)
        else:
            # 标准SGD更新
            with torch.no_grad():
                for p in self.model.parameters():
                    if p.grad is not None:
                        p -= lr * p.grad

4. 随机梯度下降的信息论分析

4.1 噪声熵与学习率的关系

SGD的随机性来源

SGD通过小批量（mini-batch）采样估计梯度：

\overset{g}{^}_{t} = \frac{1}{B} i = 1 \sum B \nabla_{θ} L (x_{i}, θ_{t})

这引入了梯度噪声，其方差为：

Σ (θ_{t}) = Var [\overset{g}{^}_{t}] = \frac{1}{B} (E [\nabla_{θ} L \nabla_{θ} L^{⊤}] - \nabla_{θ} L \nabla_{θ} L^{⊤})

噪声的信息论描述

梯度噪声 $ϵ \sim N (0, Σ)$ 具有熵：

H (ϵ) = \frac{1}{2} lo g ((2 π e)^{P} det (Σ))

关键洞察：学习率 $η$ 与噪声熵之间存在权衡：

小学习率：梯度噪声主导，优化可能被误导
大学习率：步长过大，可能越过最优
最优学习率：使噪声熵与优化目标匹配

SGD的熵降低解释

SGD的随机性相当于在参数空间注入熵：

θ_{t + 1} = θ_{t} - η \overset{g}{^}_{t} = θ_{t} - η g_{t} + η ϵ_{t}

其中 $ϵ_{t}$ 是噪声项。这个过程可以理解为：

漂移项 $- η g_{t}$ ：推动参数向低损失方向
扩散项 $η ϵ_{t}$ ：增加参数分布的熵

4.2 SGD作为信息瓶颈优化

连续时间视角

将SGD视为 随机微分方程（SDE）：³

d θ_{t} = - \nabla_{θ} L d t + 2 D d W_{t}

其中 $D = η \cdot Σ/2$ 是扩散系数， $W_{t}$ 是维纳过程。

稳态分布

这个SDE的稳态分布为：

p^{*} (θ) \propto exp (- \frac{1}{2 D} L (θ))

这正是 玻尔兹曼分布！

与信息瓶颈的联系

稳态分布的信息平面坐标：

$I (X; θ) \propto$ 参数分布的复杂度
$I (Y; θ) \propto$ 参数分布的预测能力

关键发现：SGD的隐式正则化等价于在信息瓶颈框架下优化！

class SGDInformationBottleneck:
    """
    SGD作为信息瓶颈优化的理论验证
    
    目标：模拟SGD稳态分布与IB目标的一致性
    """
    def __init__(self, loss_fn, diffusion_coeff=1e-4):
        self.loss_fn = loss_fn
        self.D = diffusion_coeff  # 扩散系数
    
    def boltzmann_steady_state(self, theta):
        """
        玻尔兹曼稳态分布
        
        π(θ) ∝ exp(-L(θ) / 2D)
        """
        loss = self.loss_fn(theta)
        return torch.exp(-loss / (2 * self.D))
    
    def compute_free_energy(self, samples):
        """
        计算自由能 F = E[L(θ)] - 2D * H(θ)
        
        这与IB目标的变分下界有关
        """
        energies = torch.stack([self.loss_fn(theta) for theta in samples])
        mean_energy = energies.mean()
        
        # 熵的估计（通过采样）
        probs = self.boltzmann_steady_state(samples)
        probs = probs / probs.sum()
        entropy = -torch.sum(probs * torch.log(probs + 1e-10))
        
        free_energy = mean_energy - 2 * self.D * entropy
        return free_energy.item()

4.3 隐式正则化的信息论解释

熵产生与泛化

SGD过程中的熵产生（Entropy Production）与其泛化能力密切相关：⁴

Δ H = H (θ_{t + 1}) - H (θ_{t})

正熵产生：参数分布变得更不确定，可能避免过拟合
负熵产生：参数分布变得更确定，可能过拟合

频率原则与信息瓶颈

频率原则（见频率原则）指出网络先学习低频后学习高频。

信息论解释：

低频成分：更高的信息效率（用更少参数表示）
高频成分：更大的信息量（细节信息）
SGD的隐式正则化倾向于保留高频信息中与标签相关的部分

神经崩塌的信息论视角

神经崩塌（Neural Collapse）现象见规范表示假说：训练末期特征呈现类内紧凑、类间分离的结构。

信息论解释：

类内紧凑：最小化 $I (X_{c}; Z ∣ Y = c)$ （同类样本表示的信息冗余）
类间分离：最大化 $I (Y; Z)$ （表示与标签的互信息）

这正是信息瓶颈理论在最后一层的自然体现！

统一观点

┌──────────────────────────────────────────────────────────────┐
│                    SGD隐式正则化的信息论解释                    │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│  SGD动态 ─────────────────────────────────────────────────→  │
│    │                                                         │
│    │  ┌─────────────────┐    ┌──────────────────────────┐   │
│    └──→ 噪声注入增加熵   │    │ 梯度驱动降低损失          │   │
│         │                │    │                          │   │
│         ↓                │    ↓                          │   │
│    ┌─────────────────┐    │ ┌────────────────────────────┐ │   │
│    │ 探索多样化解     │    │→│ 收敛到有效表示             │ │   │
│    └─────────────────┘    │ └────────────────────────────┘ │   │
│                            │                                 │   │
│                            └────→ 信息瓶颈平衡 ←─────────────┘   │
│                                        │                      │
│                                        ↓                      │
│                             ┌─────────────────────┐         │
│                             │ 隐式正则化效应        │         │
│                             │ • 低频优先学习        │         │
│                             │ • 类内紧凑/类间分离   │         │
│                             │ • 锐度-泛化权衡       │         │
│                             └─────────────────────┘         │
│                                                              │
└──────────────────────────────────────────────────────────────┘

5. 与现有理论联系

5.1 NTK的信息论视角

NTK回顾

神经正切核（Neural Tangent Kernel, NTK）理论（见 NTK理论深度解析）建立了无限宽度极限下神经网络与核方法的对应。

自然梯度与NTK的联系

无限宽度下的自然梯度等价于 NTK核回归：

f_{t} (x) = f_{0} (x) - η \int K (x, x^{'}) (f_{t} (x^{'}) - y (x^{'})) d x^{'}

其中 $K (x, x^{'})$ 是NTK核。

费舍尔信息矩阵的解释

在无限宽度极限下：

网络输出 $f_{θ} (x)$ 近似高斯过程
费舍尔信息矩阵 $F \approx H_{NTK}$
自然梯度更新简化为核梯度下降

5.2 频率原则的信息论联系

频率原则回顾

频率原则（见频率原则）指出神经网络从低频到高频逐步学习。

信息论解释

考虑输入 $X$ 的傅里叶分解：

X = ω \sum X_{ω}

其中 $X_{ω}$ 是频率 $ω$ 的成分。

信息瓶颈分析：

$I (X_{ω}; Y)$ ：不同频率与标签的互信息
低频：通常 $I (X_{ω}; Y)$ 较大（轮廓信息）
高频：通常 $I (X_{ω}; Y)$ 较小（细节噪声）

SGD的频率选择：

优化过程最大化 $I (Y; Z)$ 的下界
低频成分在固定采样预算下提供更高的信息增益
因此被优先学习

5.3 神经崩塌的信息论解释

神经崩塌回顾

神经崩塌（Neural Collapse）现象：训练末期

类内特征均值趋近特征向量
类间特征均值形成等距Simplex ETF
最后一层线性分类器与特征对齐

信息论框架

考虑最后一层表示 $Z = f_{L} (h_{L - 1})$ ，类别为 $Y$ ：

信息瓶颈目标：

p (z ∣ x) max I (Y; Z) - β I (X; Z)

神经崩塌的信息论意义：

现象	信息论解释
类内紧凑	$\forall c : I (X_{c}; Z ∣ Y = c) \to 0$
类间分离	$I (Y; Z) \to lo g K$ （最大互信息）
对齐	$Z$ 的表示空间被有效利用

形式化

定义类别 $c$ 的类内信息：

I_{c}^{within} = E_{x \sim p (x ∣ y = c)} [lo g p (z ∣ x) - lo g p (z)]

神经崩塌条件下： $I_{c}^{within} \to 0$ ，即同类样本产生相同表示。

5.4 与PAC-Bayes理论的联系

PAC-Bayes回顾

PAC-Bayes理论（见 PAC-Bayes理论）提供泛化界的概率保证：

E [L (θ)] \leq \frac{D _{K L} ( q ( θ ) ∥ p ( θ )) + ln ( m / δ )}{2 m}

信息论统一

PAC-Bayes	信息瓶颈
$D_{K L} (q ∥ p)$	$I (X; Z)$ （压缩）
$E [L]$	$- I (Y; Z)$ （信息保留）

统一目标：

q min - I (Y; Z) + β \cdot I (X; Z)

这正是信息瓶颈的目标！

6. 核心公式速查

概念	公式
费舍尔信息矩阵	$F (θ) = E [(\nabla_{θ} lo g p_{θ})^{T} (\nabla_{θ} lo g p_{θ})]$
KL散度二阶近似	$D_{K L} (p_{θ} ∥ p_{θ + δ}) \approx \frac{1}{2} δ^{T} F (θ) δ$
自然梯度	$\tilde{\nabla}_{θ} L = F (θ)^{- 1} \nabla_{θ} L$
自然梯度更新	$θ_{t + 1} = θ_{t} - η F (θ_{t})^{- 1} \nabla_{θ} L (θ_{t})$
ELBO	$L (q) = E_{q} [lo g p (x ∣ z)] - D_{K L} (q (z) ∥ p (z))$
ELBO信息形式	$ELBO = I (X; Z) - D_{K L} (q (Z) ∥ p (Z))$
SGD稳态分布	$p^{*} (θ) \propto exp (- L (θ) /2 D)$
自由能	$F = E [L] - 2 D \cdot H (θ)$

Metaphor

探索

信息论视角下的优化动态

信息论视角下的优化动态

1. 梯度下降的信息几何

1.1 参数空间黎曼几何

从欧几里得空间到黎曼流形

KL散度诱导的度量

1.2 费舍尔信息矩阵

定义

几何意义

费舍尔信息的性质

代码实现

1.3 自然梯度

黎曼空间中的梯度下降

自然梯度更新

几何直觉

自然梯度的优点

K-FAC近似

2. 自然梯度的信息论解释

2.1 KL散度作为黎曼度量

从信息论角度审视度量

二阶近似与黎曼度量

黎曼度量与信息量

2.2 自然梯度作为KL散度最小化

等价表述

与置信域方法的联系

2.3 与信息瓶颈的联系

信息瓶颈回顾

自然梯度视角下的IB

几何解释

3. 变分推断与优化的统一

3.1 变分推断的优化视角

贝叶斯后验推断

变分推断框架

ELBO的推导

3.2 ELBO的信息论意义

重构项与信息保留

KL正则项与压缩

ELBO的信息论形式

3.3 连续性假设与平均场近似

平均场假设

更深的联系

3.4 统一框架：预测分布的费舍尔优化

预测分布的信息几何

算法统一

4. 随机梯度下降的信息论分析

4.1 噪声熵与学习率的关系

SGD的随机性来源

噪声的信息论描述

SGD的熵降低解释

4.2 SGD作为信息瓶颈优化

连续时间视角

稳态分布

与信息瓶颈的联系

4.3 隐式正则化的信息论解释

熵产生与泛化

频率原则与信息瓶颈

神经崩塌的信息论视角

统一观点

5. 与现有理论联系

5.1 NTK的信息论视角

NTK回顾

自然梯度与NTK的联系

费舍尔信息矩阵的解释

5.2 频率原则的信息论联系

频率原则回顾

信息论解释

5.3 神经崩塌的信息论解释

神经崩塌回顾

信息论框架

形式化

5.4 与PAC-Bayes理论的联系

PAC-Bayes回顾

信息论统一

6. 核心公式速查

7. 参考

相关主题

Footnotes

关系图谱