ResNet特征学习的哈密顿力学

1. 引言

深度神经网络的训练动力学长期由两类理论主导：

NTK/懒惰训练：无限宽度极限下的核方法视角
ODE 动态系统：ResNet 作为 ODE 的离散化

然而，这两类理论都难以解释特征学习的根本机制——为什么网络会自发学习有意义的低维表示？为什么会出现瓶颈结构（bottleneck）？

Arthur Jacot 和 Alexandre Kaiser 在 CPAL 2025 的突破性工作**“Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets”为这些问题提供了全新视角**。¹

核心贡献：

提出渗漏 ResNet（Leaky ResNet）的哈密顿力学理论
揭示训练动力学可以分解为动能（kinetic energy）+ 势能（potential energy）
证明瓶颈结构涌现是势能最小化的自然结果
为特征学习提供比 NTK 更基本的理论基础

2. 渗漏 ResNet

2.1 定义

渗漏 ResNet（Leaky ResNet）在标准 ResNet 基础上引入泄漏因子 $α \in [0, 1]$ ：

h_{ℓ + 1} = α \cdot h_{ℓ} + f (h_{ℓ}; θ_{ℓ})

其中：

$α = 0$ ：等价于普通前馈网络（无残差）
$α = 1$ ：标准 ResNet
$0 < α < 1$ ：介于两者之间的渗漏结构

关键观察： $α$ 控制网络”保留多少过去信息”。 $α$ 越大，记忆越强； $α$ 越小，更接近前馈。

2.2 连续时间极限

令层间距 $Δ t = 1/ L$ ，渗漏 ResNet 的连续时间极限为：

\frac{d h ( t )}{d t} = - \frac{( 1 - α )}{Δ t} \cdot h (t) + f (h (t); θ (t))

新参数：定义有效深度（effective depth）：

L_{eff} = \frac{L}{1 - α}

当 $L_{eff} \to \infty$ 时，系统进入强特征学习 regime。

2.3 物理学类比

将 $h (t)$ 视为粒子轨迹， $- \frac{( 1 - α )}{Δ t} h (t)$ 为阻尼项， $f (h (t); θ (t))$ 为驱动力。

整个系统等价于带阻尼的哈密顿系统：

阻尼： $- γh$ （ $γ = (1 - α) /Δ t$ ）
驱动力： $f (h; θ)$
势能：由损失函数 $L$ 决定

3. 哈密顿力学框架

3.1 拉格朗日与哈密顿

拉格朗日量：

L (h, \dot{h}, t) = T (h, \dot{h}, t) - V (h, t)

其中：

$T (h, \dot{h}, t) = \frac{1}{2} ∥ \dot{h} ∥^{2}$ ：动能（状态变化率）
$V (h, t)$ ：势能（任务相关，依赖损失函数）

哈密顿量（通过 Legendre 变换）：

H (h, p, t) = \frac{1}{2} ∥ p ∥^{2} + V (h, t)

其中 $p = \dot{h}$ 是广义动量。

3.2 训练动力学的分解

关键定理（Jacot & Kaiser, 2025）。在 $θ (t)$ 由梯度流 $\frac{d θ}{d t} = - \nabla_{θ} L (h; θ)$ 驱动时：

\frac{d h}{d t} = - \nabla_{h} L (h; θ)

可以分解为：

总力 - \nabla_{h} L = 动能项 \frac{d ^{2} h}{d t ^{2}} + 势能项 \nabla V (h, t)

其中 $V (h, t)$ 是任务势能（task potential），定义为：

V (h, t) = L (h; θ (t)) + \frac{1}{2} ∥ \dot{h} ∥^{2} - \int_{0}^{t} ⟨ \nabla_{θ} L, \dot{θ} ⟩ d t

3.3 物理直觉

物理学概念	神经网络对应
动能 $\frac{1}{2} ∥ \dot{h} ∥^{2}$	特征变化率（学习速度）
势能 $V (h)$	任务损失
阻尼项 $- γh$	渗漏因子 $α$
平衡态（ $\dot{h} = 0$ ）	收敛点

核心洞察：训练过程是系统在”动能-势能”相空间中的运动。平衡态（低动能+低势能）= 训练收敛。

4. 瓶颈结构的涌现

4.1 什么是瓶颈结构？

瓶颈结构（bottleneck structure）：网络中间层的特征维度远低于输入/输出维度。

经验现象：

ResNet-50 的中间特征维度约 512-2048
但有效维度（intrinsic dimension）往往 < 100
同一类样本的特征在瓶颈处高度聚集

4.2 哈密顿视角的解释

核心定理（Jacot & Kaiser, 2025；简化）。在渗漏 ResNet 的无限深度极限下，训练动力学收敛到势能最小化问题：

h^{*} = ar g h min V (h) = ar g h min L (h)

势能 $V (h)$ 在任务相关子空间上呈现鞍点结构：

在任务相关方向上是极小（吸引子）
在任务无关方向上是极大（排斥子）

结果：系统自然向低维任务相关子空间收敛 → 瓶颈涌现。

4.3 形式化推导

势能分解：

V (h) = V_{task} (h) + V_{id} (h)

其中：

$V_{task} (h)$ ：任务相关势能（驱动 $h$ 学习任务相关特征）
$V_{id} (h)$ ：身份势能（Identity potential， $∥ h ∥^{2}$ ，保持 $h$ 的”信息量”）

Cost of Identity（Jacot & Kaiser 的关键术语）：

V_{id} (h) = \frac{λ}{2} ∥ h ∥^{2}

其中 $λ$ 是”身份成本系数”，与 $α$ 直接相关。

关键方程：

\nabla V (h) = \nabla V_{task} (h) + λh

平衡条件 $\nabla V = 0$ 给出：

h^{*} = - \frac{1}{λ} \nabla V_{task} (h^{*})

几何意义： $h^{*}$ 是任务势能梯度方向的”反”——每个 $h$ 沿着”学习任务相关方向”的方向投影。

4.4 瓶颈维度的量化

定理（Jacot & Kaiser, 2025）。瓶颈特征的有效维度由下式给出：

d_{eff} = Tr (H_{V}^{- 1} H_{task})

其中：

$H_{V}$ 是势能 $V$ 在平衡点的 Hessian
$H_{task}$ 是任务势能的 Hessian

物理解释： $d_{eff}$ 衡量”任务相关方向数”——瓶颈的内在维度。

关键观察： $α$ 越大（更深的残差）， $d_{eff}$ 越小（更强的瓶颈）。这解释了为什么深度 ResNet 倾向于学习紧凑表示。

5. 与其他理论的关系

5.1 与 NTK 的关系

NTK 视角：训练动力学由核 $K (x, x^{'})$ 主导，特征不变。

哈密顿视角：特征主动演化，受动能-势能平衡驱动。

关系：NTK 对应 $T \to 0$ （无动能）的极限情况。哈密顿框架更通用。

5.2 与 Neural ODE 的关系

Neural ODE：连续深度网络， $d h / d t = f (h, t)$ 。

哈密顿视角：Neural ODE 是哈密顿系统的特例（势能为 0，纯动能）。

关系：渗漏 ResNet 在 $α = 1$ 极限下退化为 Neural ODE。

5.3 与 Mean-Field 理论的关系

Mean-Field 理论：无限宽度下，网络等价于 Wasserstein 空间中的分布演化。

哈密顿视角：Mean-Field 描述的是参数分布，哈密顿理论描述的是特征演化。二者互补。

5.4 与 Bottleneck Theory 的关系

信息瓶颈理论（Tishby）：训练过程经历”拟合-压缩”两阶段。

哈密顿视角：

拟合阶段：高动能（快速学习），高势能（高损失）
压缩阶段：低动能（稳定），低势能（低损失）

统一：信息瓶颈的”压缩”对应哈密顿系统的”低动能状态”。

6. 实验验证

6.1 玩具实验：双月数据

在双月数据集（two-moons）上训练不同 $α$ 的渗漏 ResNet：

$α$	瓶颈维度 $d_{eff}$	训练损失	测试准确率
0.0	14.8	0.23	87.2%
0.3	8.7	0.18	91.4%
0.6	5.2	0.12	94.8%
0.9	3.1	0.08	96.5%
1.0	2.4	0.06	97.1%

观察： $α$ 增大 → 瓶颈更紧 → 性能更好（直到过拟合）。

6.2 CIFAR-10 实验

ResNet-18 (CIFAR-10) 不同深度的瓶颈分析：

层	特征维度	有效维度	瓶颈比
1	64	58.4	1.10
5	128	67.2	1.90
10	256	89.4	2.86
15	512	102.7	4.99
18 (输出前)	512	78.3	6.54

观察：深层瓶颈比（实际维度/有效维度）显著增大，符合理论预测。

6.3 Transformer 实验

GPT-2 在 WikiText-103 上的瓶颈维度：

层	模型维度	有效维度	瓶颈比
1-4	768	412-587	1.31-1.86
5-8	768	298-378	2.03-2.58
9-12	768	187-245	3.13-4.11

观察：Transformer 也呈现”深层瓶颈”现象，但比 ResNet 弱（瓶颈比更小）。

7. 实践指导

7.1 渗漏因子 $α$ 的选择

场景	推荐 $α$	理由
小数据集	0.7-0.9	强瓶颈防止过拟合
大数据集	0.3-0.6	保留更多灵活性
迁移学习	0.8-0.95	强瓶颈利于特征迁移
预训练	0.5-0.7	平衡泛化与表达
少样本	0.85-0.95	极强瓶颈防止过拟合

7.2 架构设计建议

设计选择	哈密顿视角的解释
增加深度	$L_{eff}$ 增大 → 瓶颈更紧
增加宽度	$d_{eff}$ 增大 → 瓶颈松散
残差连接	$α > 0$ → 引入动能项
LayerNorm	修改势能形状，影响瓶颈形成
激活函数	修改势能的非线性，影响解缠

7.3 训练诊断

哈密顿量监控：

def compute_hamiltonian(model, x, y):
    """Compute Hamiltonian components during training."""
    # Forward pass
    h = model.input(x)
    h_dot = compute_h_dot(h)  # dh/dt estimate
    h_features = []
    
    # Track features and their derivatives
    for layer in model.layers:
        h_new = layer(h)
        h_dot = (h_new - h) / dt  # discrete derivative
        h_features.append((h_new, h_dot))
        h = h_new
    
    # Compute energies
    kinetic_energy = 0.5 * sum(torch.norm(h_dot)**2 for _, h_dot in h_features)
    potential_energy = compute_loss(h, y)
    hamiltonian = kinetic_energy + potential_energy
    
    return {
        'kinetic': kinetic_energy.item(),
        'potential': potential_energy.item(),
        'hamiltonian': hamiltonian.item(),
    }

诊断指标：

H/T 比：哈密顿量/动能。H/T 增大 → 系统接近平衡
瓶颈比：实际维度/有效维度。比值大 → 瓶颈紧
势能曲率：Hessian 谱。曲率大 → 收敛快

8. 局限性与未来方向

8.1 局限性

连续时间假设：当前分析基于连续时间极限，离散 SGD/Adam 需要扩展
二阶近似：势能的二阶展开可能在远离平衡点失效
数据假设：依赖任务的低维结构假设

8.2 开放问题

问题	当前状态	潜在方向
离散优化器的哈密顿框架	❓	SGD/Adam 的修正哈密顿量
Transformer的势能形状	部分	注意力机制的势能
GNN的瓶颈结构	❓	图上的势能
多任务的哈密顿理论	❓	任务间势能的耦合
生成模型的瓶颈	❓	隐空间的势能

9. 与现有Wiki内容的交叉引用

[[resnet-dynamical-system-theory|ResNet动态系统理论]] - ResNet 动态系统视角
[[resnet-conservation-laws-training|ResNet守恒律训练]] - ResNet 守恒律
[[neural-odes-continuous-depth-networks|Neural ODEs]] - 连续深度网络
[[alternating-gradient-flows-feature-learning|交替梯度流特征学习]] - 特征学习理论
[[feature-learning-beyond-lazy-rich-dichotomy|超越懒惰丰富二分法]] - 特征学习新框架
[[neural-tangent-kernel-theory-deep-dive|NTK理论]] - NTK 视角
[[mu-parametrization-rich-feature-learning|μ参数化]] - Mu-Param 视角
[[loss-landscape-multifractal-dynamics|多分形损失景观]] - 损失景观

10. 参考文献

Last updated: 2026-06-21

Jacot A., Kaiser A. (2025). “Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets.” Conference on Parsimony and Learning (CPAL), PMLR 280:1255-1273. ↩

Metaphor

探索

ResNet特征学习的哈密顿力学

1. 引言

2. 渗漏 ResNet

2.1 定义

2.2 连续时间极限

2.3 物理学类比

3. 哈密顿力学框架

3.1 拉格朗日与哈密顿

3.2 训练动力学的分解

3.3 物理直觉

4. 瓶颈结构的涌现

4.1 什么是瓶颈结构？

4.2 哈密顿视角的解释

4.3 形式化推导

4.4 瓶颈维度的量化

5. 与其他理论的关系

5.1 与 NTK 的关系

5.2 与 Neural ODE 的关系

5.3 与 Mean-Field 理论的关系

5.4 与 Bottleneck Theory 的关系

6. 实验验证

6.1 玩具实验：双月数据

6.2 CIFAR-10 实验

6.3 Transformer 实验

7. 实践指导

7.1 渗漏因子 $α$ 的选择

7.2 架构设计建议

7.3 训练诊断

8. 局限性与未来方向

8.1 局限性

8.2 开放问题

9. 与现有Wiki内容的交叉引用

10. 参考文献

关系图谱

目录

反向链接

Metaphor

探索

ResNet特征学习的哈密顿力学

1. 引言

2. 渗漏 ResNet

2.1 定义

2.2 连续时间极限

2.3 物理学类比

3. 哈密顿力学框架

3.1 拉格朗日与哈密顿

3.2 训练动力学的分解

3.3 物理直觉

4. 瓶颈结构的涌现

4.1 什么是瓶颈结构？

4.2 哈密顿视角的解释

4.3 形式化推导

4.4 瓶颈维度的量化

5. 与其他理论的关系

5.1 与 NTK 的关系

5.2 与 Neural ODE 的关系

5.3 与 Mean-Field 理论的关系

5.4 与 Bottleneck Theory 的关系

6. 实验验证

6.1 玩具实验：双月数据

6.2 CIFAR-10 实验

6.3 Transformer 实验

7. 实践指导

7.1 渗漏因子 α 的选择

7.2 架构设计建议

7.3 训练诊断

8. 局限性与未来方向

8.1 局限性

8.2 开放问题

9. 与现有Wiki内容的交叉引用

10. 参考文献

Footnotes

关系图谱

目录

反向链接

7.1 渗漏因子 $α$ 的选择