神经热力学：深度学习中的熵力

1. 引言

深度学习领域近年来涌现出诸多令人困惑的涌现现象：能力的突然涌现、表示的渐进锐化与平坦化、相变-like 行为，以及不同 AI 模型之间表示的对齐等。这些现象难以仅通过损失最小化来解释，却与有限温度物理系统中观察到的现象高度相似。¹

神经热力学（Neural Thermodynamics） 理论应运而生，为理解这些问题提供了一个严格的数学框架。该理论的核心洞见是：表示学习受到由随机性和离散时间更新产生的涌现熵力（emergent entropic forces）的支配。¹

本文将系统介绍这一理论框架，涵盖熵力的数学定义、对称性破缺机制、能量均分性质，以及其在证明柏拉图表示假说和调和锐化/平坦极小值观察方面的应用。

2. 理论基础：熵力与损失景观

2.1 从随机梯度下降到熵力

考虑标准 SGD 更新规则：

θ_{t + 1} = θ_{t} - η \nabla_{θ} L (θ_{t}) + noise,

其中 $η$ 为学习率， $L$ 为经验损失函数。

神经热力学理论的核心贡献是证明了上述随机学习动力学可以被重新解释为熵力（entropic force） 的作用。在物理学中，熵力是由系统的统计倾向产生的宏观力，而非来自能量景观本身。

定义（熵力）：给定有效熵 $S (θ)$ ，参数空间中的熵力定义为¹

F_{entropic} (θ) = T \cdot \nabla_{θ} S (θ),

其中 $T$ 为有效温度，与学习率和批量大小相关。

2.2 有效熵的来源

有效熵 $S (θ)$ 并非凭空产生，而是源于两个实际因素：

来源一：离散时间更新

离散时间步长 $η$ 在参数空间引入了”体积”效应。当 $η$ 较小时，连续近似成立；但当 $η$ 较大时，离散化的粗糙程度产生等效的熵贡献。

来源二：随机性（梯度噪声）

SGD 中的小批量采样产生梯度噪声 $ξ_{t}$ ：

ξ_{t} = \frac{1}{∣ B ∣} i \in B \sum \nabla_{θ} ℓ (x_{i}, θ) - \nabla_{θ} L (θ) .

这种噪声在参数空间产生扩散效应，类似于热运动。

2.3 熵损失函数

结合上述因素，可以定义熵损失函数（entropic loss）¹：

F_{η, γ} (θ) = 经验损失 L (θ) + 离散化熵项 \frac{η}{4} S (θ) + 权重衰减 γ ∥ θ ∥^{2},

其中：

$η$ 控制离散化熵项的强度
$γ$ 控制 $L^{2}$ 正则化
$S (θ)$ 是与参数对称性相关的有效熵

这一定义将隐式偏差（来自随机性和离散化）与显式正则化统一在同一框架下。

3. 对称性破缺：连续 vs 离散

3.1 神经网络中的参数对称性

神经网络具有丰富的参数空间对称性结构，这是理解熵力效应的关键。²

定义（参数空间对称性）：若存在参数变换 $T : Θ \to Θ$ 使得

f (x; θ) = f (x; T (θ)), \forall x \in X,

则 $T$ 为网络的一个对称性变换。

常见的对称性类型包括：

对称性类型	描述	连续/离散
排列对称性	隐藏单元重排列	离散（ $n!$ 种可能）
正交变换	权重空间旋转	连续（ $O (d)$ 维）
缩放对称性	$W \to α W$	连续
路径对称性	不同初始化等价	连续/离散混合

详见参数空间对称性。

3.2 熵力破缺连续对称性

核心定理（连续对称性破缺）：¹

在某些条件下，熵力项 $\frac{η}{4} S (θ)$ 会破缺经验损失 $L (θ)$ 的几乎所有连续对称性。

形式化地，设 $L$ 具有 $A$ -指数对称性：

L (e^{A t} θ) = e^{- λ t} L (θ), \forall t \in R,

其中 $A$ 为生成元矩阵。则熵损失函数 $F_{η, γ}$ 在局部极小值处满足梯度平衡条件，该条件破坏了 $A$ 对应的连续对称性。

直觉理解：连续对称性变换具有无限多个可能的状态（连续参数 $t$ ），因此在参数空间产生巨大的等效体积。熵力倾向于最大化这一体积，从而推动参数离开对称流形。

3.3 离散对称性得以保留

核心定理（离散对称性保持）：¹

正交离散对称性在熵损失函数下得以保留。

这意味着排列对称性（ $n!$ 种有限可能）不同于连续对称性，不会被熵力破缺。这一性质对于理解神经网络的表示学习具有重要意义。

对比：

对称性类型	熵力效应	示例
连续对称性	被破缺	缩放、旋转
离散对称性	被保留	排列

3.4 对称性破缺的数学表述

设 $G_{c}$ 为连续对称性群， $G_{d}$ 为离散对称性群。熵力作用下的对称性破缺可表述为：

\frac{d θ}{d t} = - \nabla_{θ} L (θ) + 熵力 T \cdot \nabla_{θ} S (θ) \propto - \nabla_{θ} F_{η, γ} (θ),

其中熵梯度 $T \cdot \nabla_{θ} S (θ)$ 在 $G_{c}$ 方向上有非零分量（破缺连续对称），而在 $G_{d}$ 方向上为零（保持离散对称）。

4. 能量均分定理与梯度平衡

4.1 物理中的能量均分定理

在统计力学中，能量均分定理（Equipartition Theorem） 指出：在热平衡状态下，能量等量地分配到所有自由度。对于经典系统：

⟨ θ_{i} \frac{\partial H}{\partial θ _{j}} ⟩ = δ_{ij} \cdot \frac{k _{B} T}{2},

其中 $H$ 为哈密顿量， $k_{B}$ 为玻尔兹曼常数， $T$ 为温度。

4.2 神经网络的梯度平衡现象

神经热力学理论证明，SGD 训练的神经网络展现出类似的梯度平衡（gradient balance） 现象。¹

主平衡定理（Master Balance Theorem）：¹

若原始损失函数具有 $A$ -指数对称性，则熵损失的任意局部极小值 $θ^{*}$ 满足梯度平衡条件：

- \frac{η}{4} E_{B} [E_{x \in B} (\nabla_{θ} ℓ (x, θ^{*}))]^{T} \tilde{A} [E_{x \in B} \nabla_{θ} ℓ (x, θ^{*})] + γ (θ^{*})^{T} \tilde{A} θ^{*} = 0,

其中 $\tilde{A} = \frac{A + A ^{T}}{2}$ 为对称化矩阵。

物理意义：这一定理表明，沿着 $\tilde{A}$ 正特征值方向的梯度必须与沿着负特征值方向的梯度相平衡——这正是能量均分定理在神经网络中的类比。

4.3 具体应用：ReLU 网络

对于使用 ReLU 激活的网络，可以推导更具体的梯度平衡性质。

定理（ReLU 网络层间平衡）：¹

考虑多层 ReLU 网络，第 $l$ 层的梯度满足：

E [∥ \nabla_{W_{l}} L ∥_{F}^{2}] \propto fan-in (l) \cdot σ_{l}^{2},

其中 $σ_{l}^{2}$ 为该层权重的方差， $fan-in (l)$ 为输入维度。

定理（神经元间平衡）：¹

同一层内不同神经元 $i, j$ 的梯度期望满足：

E [\nabla_{w_{i}} L \cdot \nabla_{w_{j}} L] \approx 0, i \neq = j,

即不同神经元的梯度近似正交——这与热平衡中不同自由度的解耦相对应。

4.4 自注意力网络的梯度平衡

定理（自注意力网络平衡）：¹

对于包含注意力机制的 Transformer 类网络，熵力产生以下梯度平衡：

E [\nabla_{W} L ⊙ (W)^{T}] \propto I,

其中 $⊙$ 为 Hadamard 积， $I$ 为单位矩阵。这表明权重矩阵的不同行（对应不同的注意力头）趋向于平衡的梯度贡献。

5. 柏拉图表示假说的证明

5.1 柏拉图表示假说概述

柏拉图表示假说（Platonic Representation Hypothesis） 由 Huh 等人（2024）提出³：

神经网络（在不同目标、数据和模态上训练）正在其表示空间中收敛到一个共享的现实统计模型。

核心论点：

观察空间 X, Y
     ↙    ↘
    ↙      ↘
   X         Y   ← 同一现实的不同投影
     ↘    ↙
      ↘  ↙
       Z        ← 现实（Latent Reality）

随着模型规模、数据和任务多样性的增加，不同模型学习到的表示越来越相似，最终趋向于一个共同的”柏拉图表示”——反映数据生成过程真实结构的表示。

详见 CLIP 与多模态对比学习中关于跨模态对齐的讨论。

5.2 深度线性网络的表示对齐

神经热力学理论为柏拉图表示假说提供了首个数学证明。¹

定理（深度线性网络表示对齐）：¹

设有两个深度线性网络 $f_{A}$ 和 $f_{B}$ ，分别在独立数据集上训练。在适当条件下，两个网络最终收敛到所有隐藏层彼此完美对齐的解：

W_{l}^{A} \propto W_{l}^{B}, \forall l,

关键条件：

网络为深度线性网络
使用 SGD（或其变体）训练
训练趋于收敛

直觉解释：

深度线性网络具有连续缩放对称性 $W \to α W$ 。根据前述定理，熵力会破缺这种连续对称性。然而，不同网络的破缺方向可能不同——这导致了表示的对齐。

5.3 形式化证明概要

设两个网络参数为 $θ_{A}$ 和 $θ_{B}$ ，各自最小化熵损失 $F_{η, γ}$ 。

步骤一：建立共同目标

熵损失函数 $F_{η, γ}$ 的形式表明，最终解需要平衡：

经验损失最小化（数据拟合）
有效熵最大化（对称性压力）

步骤二：对称性破缺路径

考虑缩放对称性 $W_{l} \to e^{t_{l}} W_{l}$ ，其生成元为对角矩阵 $Λ = diag (λ_{1}, ..., λ_{d})$ 。

熵力在此方向上的分量为：

F_{entropy, l} = \frac{\partial S}{\partial λ _{l}} \propto \frac{\partial}{\partial λ _{l}} lo g Vol (M_{λ}),

其中 $M_{λ}$ 为缩放流形。

步骤三：收敛到对齐解

独立训练的网络面对相同的对称性破缺压力。虽然初始条件不同，但熵力的方向性（由损失函数的结构决定）推动所有解趋向相同的表示空间。

5.4 从线性到非线性

严格证明仅在深度线性网络中成立。对于更一般的非线性网络，理论提供了强有力的证据和直觉：

证据一：实验观察

大量实验表明³：

视觉模型和语言模型的表示对齐程度随模型规模增加
不同架构（CNN、Transformer）在相似任务上产生相似表示
跨模态模型（如 CLIP）展现出天然的表示对齐

证据二：理论扩展

对于具有良好局部线性近似的非线性网络，可以逐层应用线性网络的结果。熵力在每一层都产生对齐压力，最终导致全局表示对齐。

6. 锐化与平坦极小值的调和

6.1 表面矛盾的现象

深度学习优化中观察到两个看似矛盾的现象：

现象 A：渐进锐化（Progressive Sharpening）

训练过程中，损失景观趋向更尖锐的极小值。cohen 等人（2021）观察到⁴：

损失景观的有效曲率逐渐增加
Hessian 的最大特征值 $λ_{m a x}$ 随训练单调增加
这与”锐化”（sharpening）过程一致

现象 B：平坦极小值泛化更好

大量研究表明⁵：

SGD 倾向于收敛到平坦（flat）的极小值
平坦极小值具有更好的泛化性能
小批量训练产生更平坦的极小值

表面矛盾：如果训练导致锐化，为何 SGD 还能找到泛化良好的平坦极小值？

6.2 熵力理论的解释

神经热力学理论巧妙地调和了这两个现象。¹

关键洞见：锐化与平坦化并非矛盾，而是发生在不同尺度上。

现象	空间	熵力解释
渐进锐化	批量统计尺度	熵力破缺连续对称性，导致 Hessian 特征值重新分布
平坦极小值	参数空间全局尺度	熵力阻止参数过于集中在狭窄区域

6.3 锐化的熵力机制

总锐度定义：¹

T (θ) = Tr (E_{x} \nabla^{2} ℓ (x, θ)),

即 Hessian 的迹（所有特征值之和）。

定理（锐化动力学）：¹

熵力驱动下，总锐度 $T (θ)$ 满足：

\frac{d T}{d t} \propto - \frac{\partial F _{η, γ}}{\partial θ} \cdot \nabla_{θ} T (θ) + entropy-pressure,

其中 entropy-pressure 项来自有效熵的曲率。

解释：

能量驱动锐化：最小化经验损失倾向于找到更尖锐的极小值（更好地拟合数据）
熵力驱动平坦化：熵力倾向于扩展解的”有效体积”，抵抗过度锐化
平衡结果：最终解处于能量-熵平衡点

6.4 批量大小的影响

批量大小 $B$ 对熵力有显著影响：

T_{eff} \propto \frac{1}{B},

即小批量对应更高有效温度。

批量大小	有效温度	熵力强度	极小值特性
小 ( $B = 32$ )	高	强	较平坦
中 ( $B = 256$ )	中	中	中等
大 ( $B = 4096$ )	低	弱	较尖锐

实验验证：这一预测与 Keskar 等人（2017）的经典实验结果完全一致。⁵

6.5 边缘稳定性与统一框架

边缘稳定性（Edge of Stability, EoS） 现象进一步验证了熵力理论。¹

观察：当使用大学习率训练时：

损失经历振荡而非单调下降
梯度范数稳定在某个临界值附近
曲率（锐度）逐渐增加直至临界点

熵力解释：

损失
 │
 │    ╱╲        ╱╲        ╱╲
 │   ╱  ╲      ╱  ╲      ╱  ╲
 │  ╱    ╲    ╱    ╲    ╱    ╲
 │ ╱      ╲  ╱      ╲  ╱      ╲
 │╱        ╲╱        ╲╱        ╲
 └──────────────────────────────────→ 步数

初期：能量主导，损失快速下降
中期：接近临界点，熵力开始抵抗
后期：能量-熵力平衡，振荡

详见边缘稳定性训练动态。

7. 与模式连接的关系

7.1 熵力与极小值连通性

模式连接（Mode Connectivity）理论研究独立训练网络极小值之间的连通性。⁶

核心发现：不同初始化训练的神经网络极小值通常可以通过低损失路径连接。

熵力理论为这一现象提供了新的解释：

连续对称性破缺：熵力推动参数离开对称流形，但不同初始化可能破缺不同的对称性方向
离散对称性保留：排列对称性的保留意味着存在”对称轨道”连接不同极小值
熵力屏障：熵力在参数空间产生有效势垒，影响极小值之间的连接性质

详见模式连接理论。

7.2 熵约束与模型合并

定理（熵约束下的模型合并）：¹

给定两个极小值 $θ_{1}$ 和 $θ_{2}$ ，其对称性对齐后的合并参数为：

θ_{merged} = ar g θ min {F_{η, γ} (θ) + D_{KL} (N (θ, σ^{2} I) ∥ N (θ_{1}, σ^{2} I)) + D_{KL} (N (θ, σ^{2} I) ∥ N (θ_{2}, σ^{2} I))} .

这一框架自然地包含了模式连接中的对齐思想，并提供了熵力视角下的最优合并策略。

8. 数学形式化总结

8.1 核心方程

神经热动力学的核心方程可概括为：

随机梯度下降的连续近似：

d θ = - \nabla_{θ} L (θ) d t + 2 T d W_{t},

其中 $W_{t}$ 为维纳过程， $T = \frac{η}{2} \cdot σ^{2}$ 为有效温度。

熵损失函数：

F_{η, γ} (θ) = L (θ) + \frac{η}{4} S (θ) + γ ∥ θ ∥^{2} .

熵力：

F_{entropy} = \frac{η}{4} \nabla_{θ} S (θ) .

8.2 主要定理汇总

定理	内容	物理类比
连续对称性破缺	熵力破缺几乎所有连续对称性	相变中的对称性破缺
离散对称性保持	排列对称性在熵损失下保持	离散对称性守恒
主平衡定理	梯度沿对称生成元方向平衡	能量均分定理
表示对齐定理	深度线性网络表示收敛	热力学平衡
锐度-平坦调和	锐化与平坦化在不同尺度共存	多尺度平衡

9. 实验验证

9.1 梯度平衡验证

实验设置：训练多层 ReLU 网络，测量不同层梯度的平衡程度。

指标：定义梯度平衡度

B_{l} = \frac{∥ E [ \nabla _{W_{l}} L ] ∥ _{F}^{2}}{\sum _{k} ∥ E [ \nabla _{W_{k}} L ] ∥ _{F}^{2}},

理想平衡下 $B_{l} \propto fan-in (l)$ 。

结果：理论与实验高度一致。¹

9.2 表示对齐验证

实验设置：训练深度线性网络对，比较不同随机初始化下的表示相似性。

指标：表示相似度

S_{ij} = \frac{⟨ W _{i}^{A} , W _{j}^{B} ⟩}{∥ W _{i}^{A} ∥∥ W _{j}^{B} ∥} .

结果：训练后期，不同网络的所有层完美对齐（ $S_{ij} = δ_{ij}$ 或 $S_{ij} = 1$ ）。¹

9.3 锐度演化验证

实验设置：在不同批量大小下训练 ResNet，监测总锐度 $T (θ)$ 随时间变化。

结果：

总锐度 T(θ)
   │
   │           小批量
   │              ↗
   │           /
   │        中批量 ────────
   │     /
   │  大批量 ─
   │/
   └──────────────────────────────────→ 步数

实验完全符合熵力理论的预测。¹

10. 与其他理论的关系

10.1 与隐式正则化的关系

隐式正则化（implicit regularization）研究 SGD 等优化器的隐式偏差。⁷

连接：熵力理论将隐式正则化重新解释为熵最大化的物理过程：

θ min L (θ) 隐式偏差 θ min F_{η, γ} (θ) .

详见梯度下降的隐式偏差。

10.2 与随机矩阵理论的关系

随机矩阵理论（RMT）研究高维随机矩阵的特征值分布。⁸

连接：熵力与 Hessian 特征值分布紧密相关：

熵力影响 Hessian 的特征值重排
能量均分条件约束特征值的和
对称性破缺与特征值简并相关

详见随机矩阵理论与机器学习。

10.3 与 PAC-Bayes 理论的关系

PAC-Bayes 理论提供泛化误差的概率界：

E [L (θ)] \leq L (θ_{0}) + \frac{D _{KL} ( Q ∥ P ) + ln ( 2 n / δ )}{2 n} .

连接：熵力框架下的有效熵 $S (θ)$ 与后验分布的复杂度直接相关。熵力倾向于选择熵更大的参数区域，这与 PAC-Bayes 中更紧的泛化界相呼应。

11. 总结与展望

11.1 核心要点

熵力的涌现：随机性和离散时间更新在 SGD 中产生等效的熵力
对称性破缺的精确描述：熵力系统地破缺连续对称性，保留离散对称性
能量均分类比：梯度平衡现象类似于热力学中的能量均分定理
柏拉图表示的理论证明：为表示收敛假说提供了首个严格数学框架
锐化-平坦的调和：解释了看似矛盾的渐进锐化与平坦极小值泛化现象

11.2 理论意义

神经热力学为深度学习提供了一个类似热力学的统一框架：

热力学	神经热力学
能量 $H$	经验损失 $L (θ)$
熵 $S$	有效熵 $S (θ)$
自由能 $F = H - TS$	熵损失 $F_{η, γ} = L + \frac{η}{4} S + γ ∥ θ ∥^{2}$
热平衡	梯度平衡
相变	对称性破缺

11.3 开放问题

非线性网络的严格证明：如何将深度线性网络的结果扩展到一般非线性网络？
有效温度的精确测量：如何准确估计不同训练配置下的有效温度 $T$ ？
Transformer 架构的应用：注意力机制如何影响熵力效应？
优化器设计：能否基于熵力原理设计更有效的优化算法？

11.4 实践启示

基于神经热力学理论，实践者可关注：

学习率选择：考虑有效温度与离散化熵项的平衡
批量大小：小批量增强熵力，趋向更平坦的极小值
权重衰减： $γ$ 参数直接影响熵损失的形状
训练监控：监测梯度平衡度以诊断训练状态

参考文献

Liu, Z., Xu, Y., & Chuang, I. (2025). Neural Thermodynamics: Entropic Forces in Deep and Universal Representation Learning. NeurIPS 2025. arXiv:2505.12387 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³ ↩¹⁴ ↩¹⁵ ↩¹⁶ ↩¹⁷ ↩¹⁸ ↩¹⁹ ↩²⁰ ↩²¹
参数空间对称性理论详见：神经网络参数空间对称性 ↩
Huh, M., Cheung, B., Wang, T., & Isola, P. (2024). Position: The Platonic Representation Hypothesis. ICML 2024. arXiv:2405.07987 ↩ ↩²
Cohen, J. M., et al. (2021). Gradient descent on neural networks typically occurs at the edge of dynamical stability. ICLR 2022. ↩
Keskar, N. S., et al. (2017). On large-batch training for deep learning: Generalization gap and sharp minima. ICLR 2017. ↩ ↩²
模式连接理论详见：神经网络模式连接理论 ↩
隐式偏差理论详见：梯度下降的隐式偏差 ↩
锐化与平坦极小值详见：Sharp vs Flat Minima ↩

Metaphor

探索