Hamilton-Jacobi 深度学习理论

1. 概述

菲律宾 AI 研究中心 Miñoza、Legara、Monterola 于 2026 年 5 月发表 “The Hamilton–Jacobi Theory of Deep Learning”,提出一个根本性观点:12

训练好的神经网络就是 Hamilton-Jacobi 方程:每个梯度步骤都在选择一个黏性 Hamilton-Jacobi 初值问题,其 Hopf-Cole 传播子最拟合观测数据。

这一工作的核心是单一形变参数 ,它同时扮演四个角色:

  1. softmax 温度
  2. 黏性 PDE 的黏性系数
  3. 凸优化中的正则化强度
  4. 热带代数(tropical algebra)→ 普通代数的过渡参数

这一对应在数学上是精确的(对 log-sum-exp 激活),并通过结构对应(structural correspondence)扩展到所有现代架构。

2. 核心数学对象:log-sum-exp 层

2.1 LSE 层作为出发点

论文的数学出发点是一个简单但深刻的层:

这个看似普通的层在 时退化到 max 运算,在 时是 smooth 函数。

2.2 四种身份的合一

LSE 层在不同视角下扮演不同角色:

视角 的角色对应对象
神经网络softmax 温度log-sum-exp 激活
热带代数热带→普通过渡max→+ 的代数
PDE 理论黏性系数Hamilton-Jacobi 方程
凸优化正则化强度强凸近似

定理 7.1:这四个角色不是巧合,而是被同一参数 严格统一。

2.3 关键代数性质

LSE 层的 Maslov 退量化(Maslov dequantization):

这是一个精确的半环同态(semiring homomorphism):

不是近似,而是严格的代数同态(Litvinov 2007)。

3. Hamilton-Jacobi 方程

3.1 黏性 Hamilton-Jacobi PDE

LSE 层编码的 PDE:

其中:

  • :值函数
  • :Hamiltonian(由网络架构决定)
  • :黏性系数(与 相关)

3.2 Hopf-Cole 线性化

通过 Hopf-Cole 变换,非线性 PDE 变为线性热方程

定理 4.1(关键定理)

每个 LSE 激活的前馈层,在离散测度下编码黏性 Hamilton-Jacobi PDE 的精确 Hopf-Cole 解

证明:LSE 层形式

其中 是 Gibbs 权重, 是原子函数。这恰好是 Hopf-Cole 公式。

3.3 神经网络的 PDE 语义

深度神经网络在 PDE 视角下:

输入 x₀ ────► LSE layer 1 ────► z₁ ────► LSE layer 2 ────► z₂ ────► ... ────► 输出 a_L
   │              │                  │              │                              │
   │              ▼                  ▼              ▼                              │
   │         PDE 解算子 1       PDE 解算子 2   ...                              │
   │              │                  │                                            │
   └──────────────┴──────────────────┴────────────────────────────────────────────┘
                                              │
                                              ▼
                              一族 Hamilton-Jacobi PDE 的复合

每层 = 一个 PDE 半群算子的离散实现

深度堆叠 = PDE 半群的复合

4. 现代架构的 PDE 解释

4.1 Transformer 注意力

命题 H.9:Transformer 注意力是 Gibbs 测度下的期望向量。

形式化:

这正是 LSE 层的”软版本”。Transformer 自注意力等价于 Hamilton-Jacobi PDE 的特征线积分

4.2 ResNet 作为 ODE 特征

命题 5.2:ResNet 离散化 Hamilton-Jacobi ODE 的特征线。

具体地:

ResNet 的残差连接 = ODE 的离散积分步。这一观点将 ResNet 与 Pontryagin 最大值原理联系起来。

4.3 RNN/LSTM/SSM

命题 5.4:RNN、LSTM、SSM 都离散化同一族 Hamilton-Jacobi ODE,区别在于:

架构Hamiltonian黏性系数
RNN标准
LSTM自适应
SSM状态依赖

5. 统一交换图(Commutative Diagram)

5.1 四个视角的统一

论文的核心结论是下图(交换性):

                ┌──────────────────────────┐
                │   神经网络(Network)      │
                │   权重 → 前向计算          │
                └──────────┬───────────────┘
                           │
                           ▼ ε 变换
                ┌──────────────────────────┐
                │   热带代数(Tropical)     │
                │   max/+ 半环              │
                └──────────┬───────────────┘
                           │
                           ▼ ε 提升
                ┌──────────────────────────┐
                │   黏性 PDE                │
                │   Hamilton-Jacobi 方程     │
                └──────────┬───────────────┘
                           │
                           ▼ ε 极限
                ┌──────────────────────────┐
                │   凸优化                  │
                │   Hopf-Lax 公式            │
                └──────────────────────────┘

任何路径组合都给出相同结果——这构成了深度学习的统一理论框架

5.2 交换性的严格条件

定理 7.1(统一交换性):在 Lipschitz 条件下,上述交换图严格成立:

四个视角之间的转换通过同一参数 完成。

6. 定量结论

6.1 泛化界

论文推导出 minimax 最优的泛化率:

其中:

  • :训练样本数
  • :输入维度
  • :PDE 时间参数

这一界优于传统统计学习理论给出的

6.2 对抗鲁棒性

控制对抗鲁棒性:

  • 大:模型平滑 → 鲁棒但欠拟合
  • 小:模型锐利 → 精确但易受攻击

设计原则:通过调节 控制鲁棒性-精度权衡。

6.3 缩放定律

PDE 视角下,缩放定律自然涌现:

其中 是数据内蕴维度。这一对应解释了 Kaplan 等的缩放定律,并通过 PDE 二次型(quadrature)给出物理解释。

6.4 影响力函数(Influence Function)

封闭形式影响力函数

影响力 的熵景观随 变化:

  • 小:熵低 → 影响力集中 → fold bifurcation
  • 大:熵高 → 影响力分散 → 平滑景观

每个 fold bifurcation 合并两个影响力盆地,对应灾难性遗忘的物理起源。

7. 反向传播的最优控制解释

7.1 Pontryagin 最大值原理

对 ResNet 等残差网络,反向传播是 Hamiltonian 系统的协态方程(Pontryagin Maximum Principle):

协态 恰好是标准 BP 中的

7.2 与物理反传的关系

维度DBP(物理反传)HJ 理论
视角物理松弛最优控制
状态空间对偶 正向 + 协态
动力学鞍点松弛Hamiltonian 流
离散化 步 EulerPontryagin 离散
物理对应LagrangianHamiltonian

两者从不同角度描述同一现象(DBP 用 Lagrangian,HJ 理论用 Hamiltonian,通过 Legendre 变换连接)。

8. 实际应用

8.1 架构设计原则

论文推导出的设计原则:

原则一:选择 与任务复杂度匹配

原则二:层数 vs 的权衡

更深网络 → 更小 → 更锐利的解。

原则三:宽度提供”显式正则化”

在 HJ 理论中,宽度 控制 PDE 的网格分辨率

8.2 训练策略

温度退火:训练中逐步降低 ,对应”先粗后细”的学习。

# 温度退火训练
for epoch in range(num_epochs):
    # 指数退火
    epsilon = epsilon_start * (epsilon_end / epsilon_start) ** (epoch / num_epochs)
    
    # 使用当前 epsilon 的 LSE 层
    output = LSE_layer(x, epsilon=epsilon)
    
    # 标准训练步骤
    loss = criterion(output, target)
    loss.backward()
    optimizer.step()

8.3 持续学习应用

灾难性遗忘 = 引起的 fold bifurcation。

通过显式控制

可避免盆地合并,实现几何稳定的持续学习

9. 与其他理论的关系

9.1 信息瓶颈理论

HJ 方程与信息瓶颈(IB)有深刻联系:

IBHJ 理论
黏性项
Hamiltonian

9.2 神经 ODE

HJ 理论是神经 ODE 的特殊化

神经 ODEHJ 理论
任意 受 Hamiltonian 约束
前向 Euler特征线积分

9.3 神经热力学

HJ 值函数对应自由能

HJ 理论 ↔ 神经热力学 ↔ 统计物理 形成三角对应。

10. 局限性与开放问题

10.1 当前局限

  1. 严格性 vs 结构性:仅 LSE 层是精确对应,其他架构是结构性对应
  2. 计算成本:HJ 求解通常昂贵
  3. 选择:实际任务中如何选最优
  4. 跨架构泛化:从 LSE 推广到任意架构的严格证明尚缺

10.2 开放问题

  1. 是否所有架构都能表示为某种 Hamilton-Jacobi 方程?
  2. 与学习率、batch size 的关系?
  3. HJ 视角下的最优学习率调度?
  4. 与量子场论(KP tau 函数)的联系(附录 M 提到)

11. 与现有 Wiki 内容联系

  • 基础[[../machine-learning/backpropagation-physical-theory|反向传播的物理理论]] - 互补的物理视角
  • 神经 ODE[[../machine-learning/neural-odes-continuous-depth-networks|神经 ODE]]
  • ResNet[[../machine-learning/resnet-hamiltonian-feature-learning|ResNet 哈密顿特征学习]] - 哈密顿视角
  • 凸优化[[convex-optimization-fundamentals|凸优化基础]] - 凸优化视角
  • 信息瓶颈[[information-bottleneck|信息瓶颈]] - 信息论视角
  • 神经热力学[[../machine-learning/neural-thermodynamics-statistical-physics|神经热力学]]
  • HJ 理论:经典 PDE 理论参考

12. 参考文献

Footnotes

  1. Miñoza J. M. A., Legara E. F. T., Monterola C. P. “The Hamilton–Jacobi Theory of Deep Learning.” arXiv:2605.28983, 2026.

  2. 项目页与代码:[待补充]