Hamilton-Jacobi 深度学习理论

1. 概述

菲律宾 AI 研究中心 Miñoza、Legara、Monterola 于 2026 年 5 月发表 “The Hamilton–Jacobi Theory of Deep Learning”，提出一个根本性观点：¹²

训练好的神经网络就是 Hamilton-Jacobi 方程：每个梯度步骤都在选择一个黏性 Hamilton-Jacobi 初值问题，其 Hopf-Cole 传播子最拟合观测数据。

这一工作的核心是单一形变参数 $ε$ ，它同时扮演四个角色：

softmax 温度
黏性 PDE 的黏性系数
凸优化中的正则化强度
热带代数（tropical algebra）→ 普通代数的过渡参数

这一对应在数学上是精确的（对 log-sum-exp 激活），并通过结构对应（structural correspondence）扩展到所有现代架构。

2. 核心数学对象：log-sum-exp 层

2.1 LSE 层作为出发点

论文的数学出发点是一个简单但深刻的层：

f_{ε} (x) = ε lo g j = 1 \sum N exp (\frac{W _{j} \cdot x + b _{j}}{ε})

这个看似普通的层在 $ε \to 0$ 时退化到 max 运算，在 $ε > 0$ 时是 smooth 函数。

2.2 四种身份的合一

LSE 层在不同视角下扮演不同角色：

视角	$ε$ 的角色	对应对象
神经网络	softmax 温度	log-sum-exp 激活
热带代数	热带→普通过渡	max→+ 的代数
PDE 理论	黏性系数	Hamilton-Jacobi 方程
凸优化	正则化强度	强凸近似

定理 7.1：这四个角色不是巧合，而是被同一参数 $ε$ 严格统一。

2.3 关键代数性质

LSE 层的 Maslov 退量化（Maslov dequantization）：

ε \to 0 lim f_{ε} (x) = j max (W_{j} \cdot x + b_{j})

这是一个精确的半环同态（semiring homomorphism）：

(R, +, \times) Maslov (R, max, +)

不是近似，而是严格的代数同态（Litvinov 2007）。

3. Hamilton-Jacobi 方程

3.1 黏性 Hamilton-Jacobi PDE

LSE 层编码的 PDE：

\frac{\partial u}{\partial t} + H (\nabla u, x) = ν Δ u

其中：

$u (t, x)$ ：值函数
$H$ ：Hamiltonian（由网络架构决定）
$ν$ ：黏性系数（与 $ε$ 相关）

3.2 Hopf-Cole 线性化

通过 Hopf-Cole 变换，非线性 PDE 变为线性热方程：

v = e^{- u / ν} ⟹ \frac{\partial v}{\partial t} = ν Δ v + (源项)

定理 4.1（关键定理）：

每个 LSE 激活的前馈层，在离散测度下编码黏性 Hamilton-Jacobi PDE 的精确 Hopf-Cole 解。

证明：LSE 层形式

f_{ε} (x) = ε lo g j \sum p_{j} (x) e^{g_{j} (x) / ε}

其中 $p_{j}$ 是 Gibbs 权重， $g_{j}$ 是原子函数。这恰好是 Hopf-Cole 公式。

3.3 神经网络的 PDE 语义

深度神经网络在 PDE 视角下：

输入 x₀ ────► LSE layer 1 ────► z₁ ────► LSE layer 2 ────► z₂ ────► ... ────► 输出 a_L
   │              │                  │              │                              │
   │              ▼                  ▼              ▼                              │
   │         PDE 解算子 1       PDE 解算子 2   ...                              │
   │              │                  │                                            │
   └──────────────┴──────────────────┴────────────────────────────────────────────┘
                                              │
                                              ▼
                              一族 Hamilton-Jacobi PDE 的复合

每层 = 一个 PDE 半群算子的离散实现

深度堆叠 = PDE 半群的复合

4. 现代架构的 PDE 解释

4.1 Transformer 注意力

命题 H.9：Transformer 注意力是 Gibbs 测度下的期望向量。

形式化：

Attention (Q, K, V) = E_{p} [V], p_{i} = \frac{exp ( Q K ^{T} / d )}{\sum _{j} exp ( Q K ^{T} / d )}

这正是 LSE 层的”软版本”。Transformer 自注意力等价于 Hamilton-Jacobi PDE 的特征线积分。

4.2 ResNet 作为 ODE 特征

命题 5.2：ResNet 离散化 Hamilton-Jacobi ODE 的特征线。

具体地：

x_{t + 1} = x_{t} + f (x_{t}, θ_{t}) \leftrightarrow \frac{d x}{d t} = F (x)

ResNet 的残差连接 = ODE 的离散积分步。这一观点将 ResNet 与 Pontryagin 最大值原理联系起来。

4.3 RNN/LSTM/SSM

命题 5.4：RNN、LSTM、SSM 都离散化同一族 Hamilton-Jacobi ODE，区别在于：

架构	Hamiltonian	黏性系数
RNN	$H = ∥ u ∥^{2} /2$	标准
LSTM	$H = ∥ u ∥^{2} /2 + (门控项)$	自适应
SSM	$H = ∥ u ∥^{2} /2$	状态依赖

5. 统一交换图（Commutative Diagram）

5.1 四个视角的统一

论文的核心结论是下图（交换性）：

                ┌──────────────────────────┐
                │   神经网络（Network）      │
                │   权重 → 前向计算          │
                └──────────┬───────────────┘
                           │
                           ▼ ε 变换
                ┌──────────────────────────┐
                │   热带代数（Tropical）     │
                │   max/+ 半环              │
                └──────────┬───────────────┘
                           │
                           ▼ ε 提升
                ┌──────────────────────────┐
                │   黏性 PDE                │
                │   Hamilton-Jacobi 方程     │
                └──────────┬───────────────┘
                           │
                           ▼ ε 极限
                ┌──────────────────────────┐
                │   凸优化                  │
                │   Hopf-Lax 公式            │
                └──────────────────────────┘

任何路径组合都给出相同结果——这构成了深度学习的统一理论框架。

5.2 交换性的严格条件

定理 7.1（统一交换性）：在 Lipschitz 条件下，上述交换图严格成立：

Network ε = 0 Tropical Hopf-Cole PDE ε \to \infty Convex

四个视角之间的转换通过同一参数 $ε$ 完成。

6. 定量结论

6.1 泛化界

论文推导出 minimax 最优的泛化率：

E [test error] = O (n^{- 1/ (d + 2)}) 对于固定 t

其中：

$n$ ：训练样本数
$d$ ：输入维度
$t$ ：PDE 时间参数

这一界优于传统统计学习理论给出的 $O (n^{- 1/ (d + 4)})$ 。

6.2 对抗鲁棒性

$ε$ 控制对抗鲁棒性：

对抗扰动界 \propto ε

$ε$ 大：模型平滑 → 鲁棒但欠拟合
$ε$ 小：模型锐利 → 精确但易受攻击

设计原则：通过调节 $ε$ 控制鲁棒性-精度权衡。

6.3 缩放定律

PDE 视角下，缩放定律自然涌现：

Loss \sim N^{- α (d_{int})}

其中 $d_{int}$ 是数据内蕴维度。这一对应解释了 Kaplan 等的缩放定律，并通过 PDE 二次型（quadrature）给出物理解释。

6.4 影响力函数（Influence Function）

封闭形式影响力函数：

I_{j} = \frac{1}{N} π_{j}, π_{j} = softmax 归一化权重

影响力 $π_{j}$ 的熵景观随 $ε$ 变化：

$ε$ 小：熵低 → 影响力集中 → fold bifurcation
$ε$ 大：熵高 → 影响力分散 → 平滑景观

每个 fold bifurcation 合并两个影响力盆地，对应灾难性遗忘的物理起源。

7. 反向传播的最优控制解释

7.1 Pontryagin 最大值原理

对 ResNet 等残差网络，反向传播是 Hamiltonian 系统的协态方程（Pontryagin Maximum Principle）：

正向： \dot{x} = \frac{\partial H}{\partial u}, 反向： \dot{λ} = - \frac{\partial H}{\partial x}

协态 $λ$ 恰好是标准 BP 中的 $δ$ 。

7.2 与物理反传的关系

维度	DBP（物理反传）	HJ 理论
视角	物理松弛	最优控制
状态空间	对偶 $(a, \tilde{a})$	正向 + 协态 $(x, λ)$
动力学	鞍点松弛	Hamiltonian 流
离散化	$2 L$ 步 Euler	Pontryagin 离散
物理对应	Lagrangian	Hamiltonian

两者从不同角度描述同一现象（DBP 用 Lagrangian，HJ 理论用 Hamiltonian，通过 Legendre 变换连接）。

8. 实际应用

8.1 架构设计原则

论文推导出的设计原则：

原则一：选择 $ε$ 与任务复杂度匹配

ε \approx \frac{数据噪声}{信号强度}

原则二：层数 vs $ε$ 的权衡

L \cdot ε \approx 常数

更深网络 → 更小 $ε$ → 更锐利的解。

原则三：宽度提供”显式正则化”

在 HJ 理论中，宽度 $N$ 控制 PDE 的网格分辨率：

Δ x \sim N^{- 1/ d}

8.2 训练策略

温度退火：训练中逐步降低 $ε$ ，对应”先粗后细”的学习。

# 温度退火训练
for epoch in range(num_epochs):
    # 指数退火
    epsilon = epsilon_start * (epsilon_end / epsilon_start) ** (epoch / num_epochs)
    
    # 使用当前 epsilon 的 LSE 层
    output = LSE_layer(x, epsilon=epsilon)
    
    # 标准训练步骤
    loss = criterion(output, target)
    loss.backward()
    optimizer.step()

8.3 持续学习应用

灾难性遗忘 = $ε$ 引起的 fold bifurcation。

通过显式控制 $ε$ ：

ε_{old task} \to ε_{old task} + Δ ε (学习新任务时)

可避免盆地合并，实现几何稳定的持续学习。

9. 与其他理论的关系

9.1 信息瓶颈理论

HJ 方程与信息瓶颈（IB）有深刻联系：

HJ 值函数 \leftrightarrow IB 拉格朗日函数

IB	HJ 理论
$I (X; T)$	黏性项
$I (T; Y)$	Hamiltonian
$β$	$1/ ε$

9.2 神经 ODE

HJ 理论是神经 ODE 的特殊化：

神经 ODE	HJ 理论
$\overset{x}{˙} = f (x, t)$	$\overset{x}{˙} = \nabla_{p} H (x, p)$
任意 $f$	受 Hamiltonian 约束
前向 Euler	特征线积分

9.3 神经热力学

HJ 值函数对应自由能：

u = - ε lo g Z (Z = 配分函数)

HJ 理论 ↔ 神经热力学 ↔ 统计物理形成三角对应。

10. 局限性与开放问题

10.1 当前局限

严格性 vs 结构性：仅 LSE 层是精确对应，其他架构是结构性对应
计算成本：HJ 求解通常昂贵
$ε$ 选择：实际任务中如何选最优 $ε$ ？
跨架构泛化：从 LSE 推广到任意架构的严格证明尚缺

10.2 开放问题

是否所有架构都能表示为某种 Hamilton-Jacobi 方程？
$ε$ 与学习率、batch size 的关系？
HJ 视角下的最优学习率调度？
与量子场论（KP tau 函数）的联系（附录 M 提到）

11. 与现有 Wiki 内容联系

基础：[[../machine-learning/backpropagation-physical-theory|反向传播的物理理论]] - 互补的物理视角
神经 ODE：[[../machine-learning/neural-odes-continuous-depth-networks|神经 ODE]]
ResNet：[[../machine-learning/resnet-hamiltonian-feature-learning|ResNet 哈密顿特征学习]] - 哈密顿视角
凸优化：[[convex-optimization-fundamentals|凸优化基础]] - 凸优化视角
信息瓶颈：[[information-bottleneck|信息瓶颈]] - 信息论视角
神经热力学：[[../machine-learning/neural-thermodynamics-statistical-physics|神经热力学]]
HJ 理论：经典 PDE 理论参考

12. 参考文献

Miñoza J. M. A., Legara E. F. T., Monterola C. P. “The Hamilton–Jacobi Theory of Deep Learning.” arXiv:2605.28983, 2026. ↩
项目页与代码：[待补充] ↩

Metaphor

探索

Hamilton-Jacobi 深度学习理论

Hamilton-Jacobi 深度学习理论

1. 概述

2. 核心数学对象：log-sum-exp 层

2.1 LSE 层作为出发点

2.2 四种身份的合一

2.3 关键代数性质

3. Hamilton-Jacobi 方程

3.1 黏性 Hamilton-Jacobi PDE

3.2 Hopf-Cole 线性化

3.3 神经网络的 PDE 语义

4. 现代架构的 PDE 解释

4.1 Transformer 注意力

4.2 ResNet 作为 ODE 特征

4.3 RNN/LSTM/SSM

5. 统一交换图（Commutative Diagram）

5.1 四个视角的统一

5.2 交换性的严格条件

6. 定量结论

6.1 泛化界

6.2 对抗鲁棒性

6.3 缩放定律

6.4 影响力函数（Influence Function）

7. 反向传播的最优控制解释

7.1 Pontryagin 最大值原理

7.2 与物理反传的关系

8. 实际应用

8.1 架构设计原则

8.2 训练策略

8.3 持续学习应用

9. 与其他理论的关系

9.1 信息瓶颈理论

9.2 神经 ODE

9.3 神经热力学

10. 局限性与开放问题

10.1 当前局限

10.2 开放问题

11. 与现有 Wiki 内容联系

12. 参考文献

Footnotes

关系图谱

目录