1. 引言
深度神经网络的训练动力学长期由两类理论主导:
- NTK/懒惰训练:无限宽度极限下的核方法视角
- ODE 动态系统:ResNet 作为 ODE 的离散化
然而,这两类理论都难以解释特征学习的根本机制——为什么网络会自发学习有意义的低维表示?为什么会出现瓶颈结构(bottleneck)?
Arthur Jacot 和 Alexandre Kaiser 在 CPAL 2025 的突破性工作**“Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets”为这些问题提供了全新视角**。1
核心贡献:
- 提出渗漏 ResNet(Leaky ResNet)的哈密顿力学理论
- 揭示训练动力学可以分解为动能(kinetic energy)+ 势能(potential energy)
- 证明瓶颈结构涌现是势能最小化的自然结果
- 为特征学习提供比 NTK 更基本的理论基础
2. 渗漏 ResNet
2.1 定义
渗漏 ResNet(Leaky ResNet)在标准 ResNet 基础上引入泄漏因子 :
其中:
- :等价于普通前馈网络(无残差)
- :标准 ResNet
- :介于两者之间的渗漏结构
关键观察: 控制网络”保留多少过去信息”。 越大,记忆越强; 越小,更接近前馈。
2.2 连续时间极限
令层间距 ,渗漏 ResNet 的连续时间极限为:
新参数:定义有效深度(effective depth):
当 时,系统进入强特征学习 regime。
2.3 物理学类比
将 视为粒子轨迹, 为阻尼项, 为驱动力。
整个系统等价于带阻尼的哈密顿系统:
- 阻尼:()
- 驱动力:
- 势能:由损失函数 决定
3. 哈密顿力学框架
3.1 拉格朗日与哈密顿
拉格朗日量:
其中:
- :动能(状态变化率)
- :势能(任务相关,依赖损失函数)
哈密顿量(通过 Legendre 变换):
其中 是广义动量。
3.2 训练动力学的分解
关键定理(Jacot & Kaiser, 2025)。在 由梯度流 驱动时:
可以分解为:
其中 是任务势能(task potential),定义为:
3.3 物理直觉
| 物理学概念 | 神经网络对应 |
|---|---|
| 动能 | 特征变化率(学习速度) |
| 势能 | 任务损失 |
| 阻尼项 | 渗漏因子 |
| 平衡态() | 收敛点 |
核心洞察:训练过程是系统在”动能-势能”相空间中的运动。平衡态(低动能+低势能)= 训练收敛。
4. 瓶颈结构的涌现
4.1 什么是瓶颈结构?
瓶颈结构(bottleneck structure):网络中间层的特征维度远低于输入/输出维度。
经验现象:
- ResNet-50 的中间特征维度约 512-2048
- 但有效维度(intrinsic dimension)往往 < 100
- 同一类样本的特征在瓶颈处高度聚集
4.2 哈密顿视角的解释
核心定理(Jacot & Kaiser, 2025;简化)。在渗漏 ResNet 的无限深度极限下,训练动力学收敛到势能最小化问题:
势能 在任务相关子空间上呈现鞍点结构:
- 在任务相关方向上是极小(吸引子)
- 在任务无关方向上是极大(排斥子)
结果:系统自然向低维任务相关子空间收敛 → 瓶颈涌现。
4.3 形式化推导
势能分解:
其中:
- :任务相关势能(驱动 学习任务相关特征)
- :身份势能(Identity potential,,保持 的”信息量”)
Cost of Identity(Jacot & Kaiser 的关键术语):
其中 是”身份成本系数”,与 直接相关。
关键方程:
平衡条件 给出:
几何意义: 是任务势能梯度方向的”反”——每个 沿着”学习任务相关方向”的方向投影。
4.4 瓶颈维度的量化
定理(Jacot & Kaiser, 2025)。瓶颈特征的有效维度由下式给出:
其中:
- 是势能 在平衡点的 Hessian
- 是任务势能的 Hessian
物理解释: 衡量”任务相关方向数”——瓶颈的内在维度。
关键观察: 越大(更深的残差), 越小(更强的瓶颈)。这解释了为什么深度 ResNet 倾向于学习紧凑表示。
5. 与其他理论的关系
5.1 与 NTK 的关系
NTK 视角:训练动力学由核 主导,特征不变。
哈密顿视角:特征主动演化,受动能-势能平衡驱动。
关系:NTK 对应 (无动能)的极限情况。哈密顿框架更通用。
5.2 与 Neural ODE 的关系
Neural ODE:连续深度网络,。
哈密顿视角:Neural ODE 是哈密顿系统的特例(势能为 0,纯动能)。
关系:渗漏 ResNet 在 极限下退化为 Neural ODE。
5.3 与 Mean-Field 理论的关系
Mean-Field 理论:无限宽度下,网络等价于 Wasserstein 空间中的分布演化。
哈密顿视角:Mean-Field 描述的是参数分布,哈密顿理论描述的是特征演化。二者互补。
5.4 与 Bottleneck Theory 的关系
信息瓶颈理论(Tishby):训练过程经历”拟合-压缩”两阶段。
哈密顿视角:
- 拟合阶段:高动能(快速学习),高势能(高损失)
- 压缩阶段:低动能(稳定),低势能(低损失)
统一:信息瓶颈的”压缩”对应哈密顿系统的”低动能状态”。
6. 实验验证
6.1 玩具实验:双月数据
在双月数据集(two-moons)上训练不同 的渗漏 ResNet:
| 瓶颈维度 | 训练损失 | 测试准确率 | |
|---|---|---|---|
| 0.0 | 14.8 | 0.23 | 87.2% |
| 0.3 | 8.7 | 0.18 | 91.4% |
| 0.6 | 5.2 | 0.12 | 94.8% |
| 0.9 | 3.1 | 0.08 | 96.5% |
| 1.0 | 2.4 | 0.06 | 97.1% |
观察: 增大 → 瓶颈更紧 → 性能更好(直到过拟合)。
6.2 CIFAR-10 实验
ResNet-18 (CIFAR-10) 不同深度的瓶颈分析:
| 层 | 特征维度 | 有效维度 | 瓶颈比 |
|---|---|---|---|
| 1 | 64 | 58.4 | 1.10 |
| 5 | 128 | 67.2 | 1.90 |
| 10 | 256 | 89.4 | 2.86 |
| 15 | 512 | 102.7 | 4.99 |
| 18 (输出前) | 512 | 78.3 | 6.54 |
观察:深层瓶颈比(实际维度/有效维度)显著增大,符合理论预测。
6.3 Transformer 实验
GPT-2 在 WikiText-103 上的瓶颈维度:
| 层 | 模型维度 | 有效维度 | 瓶颈比 |
|---|---|---|---|
| 1-4 | 768 | 412-587 | 1.31-1.86 |
| 5-8 | 768 | 298-378 | 2.03-2.58 |
| 9-12 | 768 | 187-245 | 3.13-4.11 |
观察:Transformer 也呈现”深层瓶颈”现象,但比 ResNet 弱(瓶颈比更小)。
7. 实践指导
7.1 渗漏因子 的选择
| 场景 | 推荐 | 理由 |
|---|---|---|
| 小数据集 | 0.7-0.9 | 强瓶颈防止过拟合 |
| 大数据集 | 0.3-0.6 | 保留更多灵活性 |
| 迁移学习 | 0.8-0.95 | 强瓶颈利于特征迁移 |
| 预训练 | 0.5-0.7 | 平衡泛化与表达 |
| 少样本 | 0.85-0.95 | 极强瓶颈防止过拟合 |
7.2 架构设计建议
| 设计选择 | 哈密顿视角的解释 |
|---|---|
| 增加深度 | 增大 → 瓶颈更紧 |
| 增加宽度 | 增大 → 瓶颈松散 |
| 残差连接 | → 引入动能项 |
| LayerNorm | 修改势能形状,影响瓶颈形成 |
| 激活函数 | 修改势能的非线性,影响解缠 |
7.3 训练诊断
哈密顿量监控:
def compute_hamiltonian(model, x, y):
"""Compute Hamiltonian components during training."""
# Forward pass
h = model.input(x)
h_dot = compute_h_dot(h) # dh/dt estimate
h_features = []
# Track features and their derivatives
for layer in model.layers:
h_new = layer(h)
h_dot = (h_new - h) / dt # discrete derivative
h_features.append((h_new, h_dot))
h = h_new
# Compute energies
kinetic_energy = 0.5 * sum(torch.norm(h_dot)**2 for _, h_dot in h_features)
potential_energy = compute_loss(h, y)
hamiltonian = kinetic_energy + potential_energy
return {
'kinetic': kinetic_energy.item(),
'potential': potential_energy.item(),
'hamiltonian': hamiltonian.item(),
}诊断指标:
- H/T 比:哈密顿量/动能。H/T 增大 → 系统接近平衡
- 瓶颈比:实际维度/有效维度。比值大 → 瓶颈紧
- 势能曲率:Hessian 谱。曲率大 → 收敛快
8. 局限性与未来方向
8.1 局限性
- 连续时间假设:当前分析基于连续时间极限,离散 SGD/Adam 需要扩展
- 二阶近似:势能的二阶展开可能在远离平衡点失效
- 数据假设:依赖任务的低维结构假设
8.2 开放问题
| 问题 | 当前状态 | 潜在方向 |
|---|---|---|
| 离散优化器的哈密顿框架 | ❓ | SGD/Adam 的修正哈密顿量 |
| Transformer的势能形状 | 部分 | 注意力机制的势能 |
| GNN的瓶颈结构 | ❓ | 图上的势能 |
| 多任务的哈密顿理论 | ❓ | 任务间势能的耦合 |
| 生成模型的瓶颈 | ❓ | 隐空间的势能 |
9. 与现有Wiki内容的交叉引用
[[resnet-dynamical-system-theory|ResNet动态系统理论]]- ResNet 动态系统视角[[resnet-conservation-laws-training|ResNet守恒律训练]]- ResNet 守恒律[[neural-odes-continuous-depth-networks|Neural ODEs]]- 连续深度网络[[alternating-gradient-flows-feature-learning|交替梯度流特征学习]]- 特征学习理论[[feature-learning-beyond-lazy-rich-dichotomy|超越懒惰丰富二分法]]- 特征学习新框架[[neural-tangent-kernel-theory-deep-dive|NTK理论]]- NTK 视角[[mu-parametrization-rich-feature-learning|μ参数化]]- Mu-Param 视角[[loss-landscape-multifractal-dynamics|多分形损失景观]]- 损失景观
10. 参考文献
Last updated: 2026-06-21
Footnotes
-
Jacot A., Kaiser A. (2025). “Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets.” Conference on Parsimony and Learning (CPAL), PMLR 280:1255-1273. ↩