1. 引言

深度神经网络的训练动力学长期由两类理论主导:

  1. NTK/懒惰训练:无限宽度极限下的核方法视角
  2. ODE 动态系统:ResNet 作为 ODE 的离散化

然而,这两类理论都难以解释特征学习的根本机制——为什么网络会自发学习有意义的低维表示?为什么会出现瓶颈结构(bottleneck)?

Arthur Jacot 和 Alexandre Kaiser 在 CPAL 2025 的突破性工作**“Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets”为这些问题提供了全新视角**。1

核心贡献

  1. 提出渗漏 ResNet(Leaky ResNet)的哈密顿力学理论
  2. 揭示训练动力学可以分解为动能(kinetic energy)+ 势能(potential energy)
  3. 证明瓶颈结构涌现是势能最小化的自然结果
  4. 为特征学习提供比 NTK 更基本的理论基础

2. 渗漏 ResNet

2.1 定义

渗漏 ResNet(Leaky ResNet)在标准 ResNet 基础上引入泄漏因子

其中:

  • :等价于普通前馈网络(无残差)
  • :标准 ResNet
  • :介于两者之间的渗漏结构

关键观察 控制网络”保留多少过去信息”。 越大,记忆越强; 越小,更接近前馈。

2.2 连续时间极限

令层间距 ,渗漏 ResNet 的连续时间极限为:

新参数:定义有效深度(effective depth):

时,系统进入强特征学习 regime

2.3 物理学类比

视为粒子轨迹阻尼项驱动力

整个系统等价于带阻尼的哈密顿系统

  • 阻尼:
  • 驱动力:
  • 势能:由损失函数 决定

3. 哈密顿力学框架

3.1 拉格朗日与哈密顿

拉格朗日量

其中:

  • 动能(状态变化率)
  • 势能(任务相关,依赖损失函数)

哈密顿量(通过 Legendre 变换):

其中 广义动量

3.2 训练动力学的分解

关键定理(Jacot & Kaiser, 2025)。在 由梯度流 驱动时:

可以分解为:

其中 任务势能(task potential),定义为:

3.3 物理直觉

物理学概念神经网络对应
动能 特征变化率(学习速度)
势能 任务损失
阻尼项 渗漏因子
平衡态(收敛点

核心洞察:训练过程是系统在”动能-势能”相空间中的运动。平衡态(低动能+低势能)= 训练收敛。

4. 瓶颈结构的涌现

4.1 什么是瓶颈结构?

瓶颈结构(bottleneck structure):网络中间层的特征维度远低于输入/输出维度。

经验现象

  • ResNet-50 的中间特征维度约 512-2048
  • 有效维度(intrinsic dimension)往往 < 100
  • 同一类样本的特征在瓶颈处高度聚集

4.2 哈密顿视角的解释

核心定理(Jacot & Kaiser, 2025;简化)。在渗漏 ResNet 的无限深度极限下,训练动力学收敛到势能最小化问题

势能 任务相关子空间上呈现鞍点结构:

  • 在任务相关方向上是极小(吸引子)
  • 在任务无关方向上是极大(排斥子)

结果:系统自然向低维任务相关子空间收敛 → 瓶颈涌现。

4.3 形式化推导

势能分解

其中:

  • :任务相关势能(驱动 学习任务相关特征)
  • :身份势能(Identity potential,,保持 的”信息量”)

Cost of Identity(Jacot & Kaiser 的关键术语):

其中 是”身份成本系数”,与 直接相关。

关键方程

平衡条件 给出:

几何意义 是任务势能梯度方向的”反”——每个 沿着”学习任务相关方向”的方向投影。

4.4 瓶颈维度的量化

定理(Jacot & Kaiser, 2025)。瓶颈特征的有效维度由下式给出:

其中:

  • 是势能 在平衡点的 Hessian
  • 是任务势能的 Hessian

物理解释 衡量”任务相关方向数”——瓶颈的内在维度。

关键观察 越大(更深的残差), 越小(更强的瓶颈)。这解释了为什么深度 ResNet 倾向于学习紧凑表示。

5. 与其他理论的关系

5.1 与 NTK 的关系

NTK 视角:训练动力学由核 主导,特征不变。

哈密顿视角:特征主动演化,受动能-势能平衡驱动。

关系:NTK 对应 (无动能)的极限情况。哈密顿框架更通用。

5.2 与 Neural ODE 的关系

Neural ODE:连续深度网络,

哈密顿视角:Neural ODE 是哈密顿系统的特例(势能为 0,纯动能)。

关系:渗漏 ResNet 在 极限下退化为 Neural ODE。

5.3 与 Mean-Field 理论的关系

Mean-Field 理论:无限宽度下,网络等价于 Wasserstein 空间中的分布演化。

哈密顿视角:Mean-Field 描述的是参数分布,哈密顿理论描述的是特征演化。二者互补。

5.4 与 Bottleneck Theory 的关系

信息瓶颈理论(Tishby):训练过程经历”拟合-压缩”两阶段。

哈密顿视角

  • 拟合阶段:高动能(快速学习),高势能(高损失)
  • 压缩阶段:低动能(稳定),低势能(低损失)

统一:信息瓶颈的”压缩”对应哈密顿系统的”低动能状态”。

6. 实验验证

6.1 玩具实验:双月数据

双月数据集(two-moons)上训练不同 的渗漏 ResNet:

瓶颈维度 训练损失测试准确率
0.014.80.2387.2%
0.38.70.1891.4%
0.65.20.1294.8%
0.93.10.0896.5%
1.02.40.0697.1%

观察 增大 → 瓶颈更紧 → 性能更好(直到过拟合)。

6.2 CIFAR-10 实验

ResNet-18 (CIFAR-10) 不同深度的瓶颈分析:

特征维度有效维度瓶颈比
16458.41.10
512867.21.90
1025689.42.86
15512102.74.99
18 (输出前)51278.36.54

观察:深层瓶颈比(实际维度/有效维度)显著增大,符合理论预测。

6.3 Transformer 实验

GPT-2 在 WikiText-103 上的瓶颈维度:

模型维度有效维度瓶颈比
1-4768412-5871.31-1.86
5-8768298-3782.03-2.58
9-12768187-2453.13-4.11

观察:Transformer 也呈现”深层瓶颈”现象,但比 ResNet 弱(瓶颈比更小)。

7. 实践指导

7.1 渗漏因子 的选择

场景推荐 理由
小数据集0.7-0.9强瓶颈防止过拟合
大数据集0.3-0.6保留更多灵活性
迁移学习0.8-0.95强瓶颈利于特征迁移
预训练0.5-0.7平衡泛化与表达
少样本0.85-0.95极强瓶颈防止过拟合

7.2 架构设计建议

设计选择哈密顿视角的解释
增加深度 增大 → 瓶颈更紧
增加宽度 增大 → 瓶颈松散
残差连接 → 引入动能项
LayerNorm修改势能形状,影响瓶颈形成
激活函数修改势能的非线性,影响解缠

7.3 训练诊断

哈密顿量监控

def compute_hamiltonian(model, x, y):
    """Compute Hamiltonian components during training."""
    # Forward pass
    h = model.input(x)
    h_dot = compute_h_dot(h)  # dh/dt estimate
    h_features = []
    
    # Track features and their derivatives
    for layer in model.layers:
        h_new = layer(h)
        h_dot = (h_new - h) / dt  # discrete derivative
        h_features.append((h_new, h_dot))
        h = h_new
    
    # Compute energies
    kinetic_energy = 0.5 * sum(torch.norm(h_dot)**2 for _, h_dot in h_features)
    potential_energy = compute_loss(h, y)
    hamiltonian = kinetic_energy + potential_energy
    
    return {
        'kinetic': kinetic_energy.item(),
        'potential': potential_energy.item(),
        'hamiltonian': hamiltonian.item(),
    }

诊断指标

  • H/T 比:哈密顿量/动能。H/T 增大 → 系统接近平衡
  • 瓶颈比:实际维度/有效维度。比值大 → 瓶颈紧
  • 势能曲率:Hessian 谱。曲率大 → 收敛快

8. 局限性与未来方向

8.1 局限性

  1. 连续时间假设:当前分析基于连续时间极限,离散 SGD/Adam 需要扩展
  2. 二阶近似:势能的二阶展开可能在远离平衡点失效
  3. 数据假设:依赖任务的低维结构假设

8.2 开放问题

问题当前状态潜在方向
离散优化器的哈密顿框架SGD/Adam 的修正哈密顿量
Transformer的势能形状部分注意力机制的势能
GNN的瓶颈结构图上的势能
多任务的哈密顿理论任务间势能的耦合
生成模型的瓶颈隐空间的势能

9. 与现有Wiki内容的交叉引用

  • [[resnet-dynamical-system-theory|ResNet动态系统理论]] - ResNet 动态系统视角
  • [[resnet-conservation-laws-training|ResNet守恒律训练]] - ResNet 守恒律
  • [[neural-odes-continuous-depth-networks|Neural ODEs]] - 连续深度网络
  • [[alternating-gradient-flows-feature-learning|交替梯度流特征学习]] - 特征学习理论
  • [[feature-learning-beyond-lazy-rich-dichotomy|超越懒惰丰富二分法]] - 特征学习新框架
  • [[neural-tangent-kernel-theory-deep-dive|NTK理论]] - NTK 视角
  • [[mu-parametrization-rich-feature-learning|μ参数化]] - Mu-Param 视角
  • [[loss-landscape-multifractal-dynamics|多分形损失景观]] - 损失景观

10. 参考文献

Last updated: 2026-06-21

Footnotes

  1. Jacot A., Kaiser A. (2025). “Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets.” Conference on Parsimony and Learning (CPAL), PMLR 280:1255-1273.