Hamilton-Jacobi 深度学习理论
1. 概述
菲律宾 AI 研究中心 Miñoza、Legara、Monterola 于 2026 年 5 月发表 “The Hamilton–Jacobi Theory of Deep Learning”,提出一个根本性观点:12
训练好的神经网络就是 Hamilton-Jacobi 方程:每个梯度步骤都在选择一个黏性 Hamilton-Jacobi 初值问题,其 Hopf-Cole 传播子最拟合观测数据。
这一工作的核心是单一形变参数 ,它同时扮演四个角色:
- softmax 温度
- 黏性 PDE 的黏性系数
- 凸优化中的正则化强度
- 热带代数(tropical algebra)→ 普通代数的过渡参数
这一对应在数学上是精确的(对 log-sum-exp 激活),并通过结构对应(structural correspondence)扩展到所有现代架构。
2. 核心数学对象:log-sum-exp 层
2.1 LSE 层作为出发点
论文的数学出发点是一个简单但深刻的层:
这个看似普通的层在 时退化到 max 运算,在 时是 smooth 函数。
2.2 四种身份的合一
LSE 层在不同视角下扮演不同角色:
| 视角 | 的角色 | 对应对象 |
|---|---|---|
| 神经网络 | softmax 温度 | log-sum-exp 激活 |
| 热带代数 | 热带→普通过渡 | max→+ 的代数 |
| PDE 理论 | 黏性系数 | Hamilton-Jacobi 方程 |
| 凸优化 | 正则化强度 | 强凸近似 |
定理 7.1:这四个角色不是巧合,而是被同一参数 严格统一。
2.3 关键代数性质
LSE 层的 Maslov 退量化(Maslov dequantization):
这是一个精确的半环同态(semiring homomorphism):
不是近似,而是严格的代数同态(Litvinov 2007)。
3. Hamilton-Jacobi 方程
3.1 黏性 Hamilton-Jacobi PDE
LSE 层编码的 PDE:
其中:
- :值函数
- :Hamiltonian(由网络架构决定)
- :黏性系数(与 相关)
3.2 Hopf-Cole 线性化
通过 Hopf-Cole 变换,非线性 PDE 变为线性热方程:
定理 4.1(关键定理):
每个 LSE 激活的前馈层,在离散测度下编码黏性 Hamilton-Jacobi PDE 的精确 Hopf-Cole 解。
证明:LSE 层形式
其中 是 Gibbs 权重, 是原子函数。这恰好是 Hopf-Cole 公式。
3.3 神经网络的 PDE 语义
深度神经网络在 PDE 视角下:
输入 x₀ ────► LSE layer 1 ────► z₁ ────► LSE layer 2 ────► z₂ ────► ... ────► 输出 a_L
│ │ │ │ │
│ ▼ ▼ ▼ │
│ PDE 解算子 1 PDE 解算子 2 ... │
│ │ │ │
└──────────────┴──────────────────┴────────────────────────────────────────────┘
│
▼
一族 Hamilton-Jacobi PDE 的复合
每层 = 一个 PDE 半群算子的离散实现
深度堆叠 = PDE 半群的复合
4. 现代架构的 PDE 解释
4.1 Transformer 注意力
命题 H.9:Transformer 注意力是 Gibbs 测度下的期望向量。
形式化:
这正是 LSE 层的”软版本”。Transformer 自注意力等价于 Hamilton-Jacobi PDE 的特征线积分。
4.2 ResNet 作为 ODE 特征
命题 5.2:ResNet 离散化 Hamilton-Jacobi ODE 的特征线。
具体地:
ResNet 的残差连接 = ODE 的离散积分步。这一观点将 ResNet 与 Pontryagin 最大值原理联系起来。
4.3 RNN/LSTM/SSM
命题 5.4:RNN、LSTM、SSM 都离散化同一族 Hamilton-Jacobi ODE,区别在于:
| 架构 | Hamiltonian | 黏性系数 |
|---|---|---|
| RNN | 标准 | |
| LSTM | 自适应 | |
| SSM | 状态依赖 |
5. 统一交换图(Commutative Diagram)
5.1 四个视角的统一
论文的核心结论是下图(交换性):
┌──────────────────────────┐
│ 神经网络(Network) │
│ 权重 → 前向计算 │
└──────────┬───────────────┘
│
▼ ε 变换
┌──────────────────────────┐
│ 热带代数(Tropical) │
│ max/+ 半环 │
└──────────┬───────────────┘
│
▼ ε 提升
┌──────────────────────────┐
│ 黏性 PDE │
│ Hamilton-Jacobi 方程 │
└──────────┬───────────────┘
│
▼ ε 极限
┌──────────────────────────┐
│ 凸优化 │
│ Hopf-Lax 公式 │
└──────────────────────────┘
任何路径组合都给出相同结果——这构成了深度学习的统一理论框架。
5.2 交换性的严格条件
定理 7.1(统一交换性):在 Lipschitz 条件下,上述交换图严格成立:
四个视角之间的转换通过同一参数 完成。
6. 定量结论
6.1 泛化界
论文推导出 minimax 最优的泛化率:
其中:
- :训练样本数
- :输入维度
- :PDE 时间参数
这一界优于传统统计学习理论给出的 。
6.2 对抗鲁棒性
控制对抗鲁棒性:
- 大:模型平滑 → 鲁棒但欠拟合
- 小:模型锐利 → 精确但易受攻击
设计原则:通过调节 控制鲁棒性-精度权衡。
6.3 缩放定律
PDE 视角下,缩放定律自然涌现:
其中 是数据内蕴维度。这一对应解释了 Kaplan 等的缩放定律,并通过 PDE 二次型(quadrature)给出物理解释。
6.4 影响力函数(Influence Function)
封闭形式影响力函数:
影响力 的熵景观随 变化:
- 小:熵低 → 影响力集中 → fold bifurcation
- 大:熵高 → 影响力分散 → 平滑景观
每个 fold bifurcation 合并两个影响力盆地,对应灾难性遗忘的物理起源。
7. 反向传播的最优控制解释
7.1 Pontryagin 最大值原理
对 ResNet 等残差网络,反向传播是 Hamiltonian 系统的协态方程(Pontryagin Maximum Principle):
协态 恰好是标准 BP 中的 。
7.2 与物理反传的关系
| 维度 | DBP(物理反传) | HJ 理论 |
|---|---|---|
| 视角 | 物理松弛 | 最优控制 |
| 状态空间 | 对偶 | 正向 + 协态 |
| 动力学 | 鞍点松弛 | Hamiltonian 流 |
| 离散化 | 步 Euler | Pontryagin 离散 |
| 物理对应 | Lagrangian | Hamiltonian |
两者从不同角度描述同一现象(DBP 用 Lagrangian,HJ 理论用 Hamiltonian,通过 Legendre 变换连接)。
8. 实际应用
8.1 架构设计原则
论文推导出的设计原则:
原则一:选择 与任务复杂度匹配
原则二:层数 vs 的权衡
更深网络 → 更小 → 更锐利的解。
原则三:宽度提供”显式正则化”
在 HJ 理论中,宽度 控制 PDE 的网格分辨率:
8.2 训练策略
温度退火:训练中逐步降低 ,对应”先粗后细”的学习。
# 温度退火训练
for epoch in range(num_epochs):
# 指数退火
epsilon = epsilon_start * (epsilon_end / epsilon_start) ** (epoch / num_epochs)
# 使用当前 epsilon 的 LSE 层
output = LSE_layer(x, epsilon=epsilon)
# 标准训练步骤
loss = criterion(output, target)
loss.backward()
optimizer.step()8.3 持续学习应用
灾难性遗忘 = 引起的 fold bifurcation。
通过显式控制 :
可避免盆地合并,实现几何稳定的持续学习。
9. 与其他理论的关系
9.1 信息瓶颈理论
HJ 方程与信息瓶颈(IB)有深刻联系:
| IB | HJ 理论 |
|---|---|
| 黏性项 | |
| Hamiltonian | |
9.2 神经 ODE
HJ 理论是神经 ODE 的特殊化:
| 神经 ODE | HJ 理论 |
|---|---|
| 任意 | 受 Hamiltonian 约束 |
| 前向 Euler | 特征线积分 |
9.3 神经热力学
HJ 值函数对应自由能:
HJ 理论 ↔ 神经热力学 ↔ 统计物理 形成三角对应。
10. 局限性与开放问题
10.1 当前局限
- 严格性 vs 结构性:仅 LSE 层是精确对应,其他架构是结构性对应
- 计算成本:HJ 求解通常昂贵
- 选择:实际任务中如何选最优 ?
- 跨架构泛化:从 LSE 推广到任意架构的严格证明尚缺
10.2 开放问题
- 是否所有架构都能表示为某种 Hamilton-Jacobi 方程?
- 与学习率、batch size 的关系?
- HJ 视角下的最优学习率调度?
- 与量子场论(KP tau 函数)的联系(附录 M 提到)
11. 与现有 Wiki 内容联系
- 基础:
[[../machine-learning/backpropagation-physical-theory|反向传播的物理理论]]- 互补的物理视角 - 神经 ODE:
[[../machine-learning/neural-odes-continuous-depth-networks|神经 ODE]] - ResNet:
[[../machine-learning/resnet-hamiltonian-feature-learning|ResNet 哈密顿特征学习]]- 哈密顿视角 - 凸优化:
[[convex-optimization-fundamentals|凸优化基础]]- 凸优化视角 - 信息瓶颈:
[[information-bottleneck|信息瓶颈]]- 信息论视角 - 神经热力学:
[[../machine-learning/neural-thermodynamics-statistical-physics|神经热力学]] - HJ 理论:经典 PDE 理论参考