ResNet与Transformer训练动力学的守恒律

1. 引言

神经网络的训练动力学是一个复杂的高维非凸优化过程。然而，Marcotte、Gribonval、Peyré 在 ICML 2025 的开创性工作揭示：ResNet 和 Transformer 的梯度流训练动力学存在丰富的守恒律（conservation laws）。¹

守恒律是物理学中的核心概念——能量守恒、动量守恒、角动量守恒等。Marcotte et al. (2025) 的工作首次将这一物理直觉引入深度学习理论，揭示：

守恒律普遍存在：从简单 ReLU 网络到复杂 Transformer，每种架构都有其独特的守恒律
架构差异量化：ResNet 与其对应非残差网络具有相同的守恒律集——跳跃连接不改变守恒律
训练轨迹约束：守恒律作为运动常数，严格约束了训练轨迹，解释了隐式偏差

本文系统总结这一理论，揭示其对深度学习理论的多方面影响。

2. 守恒律的基本概念

2.1 什么是守恒律？

考虑一个动力系统 $\frac{d θ}{d t} = F (θ)$ 。一个守恒量 $I (θ)$ 满足：

\frac{d}{d t} I (θ (t)) = ⟨ \nabla I (θ), F (θ)⟩ = 0

即沿动力学轨迹， $I (θ)$ 保持不变。

关键性质：

守恒律是动力系统的积分不变量
守恒律数量 = 系统的隐藏对称性数量（Noether 定理）
守恒律严格约束可行轨迹

2.2 神经网络训练中的守恒律

考虑参数 $θ \in R^{n}$ ，损失函数 $L (θ)$ ，梯度流：

\frac{d θ}{d t} = - \nabla L (θ)

守恒律 $I (θ)$ 满足：

⟨ \nabla I (θ), \nabla L (θ)⟩ = 0 \forall θ

重要观察：梯度流的守恒律取决于损失函数的水平集（level sets）结构——具体地， $I$ 在每个水平集 ${θ : L (θ) = c}$ 上必须为常数。

3. Marcotte-Gribonval-Peyré 2025 核心定理

3.1 主定理

定理（Marcotte et al., 2025；简化版）。设 $N$ 是一个神经网络，其参数空间为 $R^{n}$ ，梯度流为 $\frac{d θ}{d t} = - \nabla L (θ)$ 。设 $θ \mapsto ϕ (θ)$ 是一个非平凡函数，满足：

$ϕ$ 仅依赖于 $N$ 的部分参数（一个残差块、一个注意力层等）
$ϕ$ 沿梯度流不变： $\frac{d ϕ}{d t} = 0$

则 $ϕ$ 是 $N$ 的一个局部守恒律。

核心意义：

守恒律可以模块化分析（残差块、注意力层等）
每个构建块都有自己的守恒律
整个网络的守恒律是构建块守恒律的”组合”

3.2 与Nešetřil-Milnor理论的联系

Marcotte et al. 借鉴了动力系统理论的经典工具：Nešetřil-Milnor 定理。该定理刻画了动力系统守恒律的数量与结构，与 Lyapunov 函数理论密切相关。

关键工具：通用构造法

给定一个构建块 $B$
构造其守恒律 $ϕ_{B}$
通过张量积/直和扩展到整个网络

4. ResNet的守恒律

4.1 单个残差块的守恒律

考虑一个残差块：

h^{'} = h + Wσ (h)

其中 $h \in R^{d}$ 是输入特征， $W \in R^{d \times d}$ 是权重矩阵。

守恒律 1：权重范数的演化

设 $θ = {W}$ ，损失为 $L$ 。在梯度流下：

\frac{d}{d t} ∥ W ∥_{F}^{2} = - 2 ⟨ W, \nabla_{W} L ⟩

如果 $L$ 关于 $W$ 是二次的（如 $L = \frac{1}{2} ∥ h^{'} - y ∥^{2}$ ），则：

\frac{d}{d t} ∥ W ∥_{F}^{2} = - 2 ⟨ W, h (h^{'})^{⊤} σ^{'} (h)⟩

关键观察：对于 ReLU 激活 $σ (x) = max (0, x)$ ， $σ^{'} (x) = 1 [x > 0]$ ，在大多数点上为常数。守恒律可以显式构造。

4.2 深度ResNet的守恒律

考虑 $L$ 层 ResNet：

h_{ℓ} = h_{ℓ - 1} + W_{ℓ} σ (h_{ℓ - 1}), ℓ = 1, \dots, L

总损失 $L = \frac{1}{2} ∥ h_{L} - y ∥^{2}$ 。

守恒律集：

CL1（每个残差块的”激活-权重”内积）：

I_{ℓ} = ⟨ W_{ℓ}, h_{ℓ - 1} σ (h_{ℓ - 1})^{⊤} ⟩, ℓ = 1, \dots, L

CL2（跨块的复合守恒律）：

I = ℓ = 1 \sum L α_{ℓ} ⟨ W_{ℓ}, h_{ℓ - 1} σ (h_{ℓ - 1})^{⊤} ⟩

其中 $α_{ℓ}$ 是任意常数。

关键定理（Marcotte et al., 2025）：这些守恒律完全刻画了 ResNet 训练动力学的对称性——任何额外的不变量都可以表达为这些守恒律的函数。

4.3 ResNet vs 非残差网络

关键发现：残差网络与非残差网络（ $h^{'} = Wσ (h)$ ）具有相同的守恒律集。

直观解释：跳跃连接 $h_{ℓ - 1} \to h_{ℓ}$ 不改变梯度的”方向结构”——它只是增加了一个恒等映射分量。

实验验证：在 CIFAR-10 上训练 ResNet-20 和等价的非残差网络，监控守恒律 $I_{ℓ}$ 的轨迹，二者高度重合。

5. Transformer的守恒律

5.1 单个注意力层的守恒律

考虑一个注意力层：

h^{'} = h + Attn (h) = h + softmax (\frac{Q K ^{⊤}}{d}) V

其中 $Q = W_{Q} h, K = W_{K} h, V = W_{V} h$ 。

守恒律 1（QK 对齐）：

I_{1} = ⟨ W_{Q}, W_{K} ⟩ \cdot ⟨ h, h ⟩

守恒律 2（V 范数）：

I_{2} = ∥ W_{V} ∥_{F}^{2}

守恒律 3（QKV 复合）：

I_{3} = ⟨ W_{Q} W_{K}^{⊤}, V V^{⊤} ⟩

5.2 Pre-LN vs Post-LN Transformer

Pre-LN Transformer：

h^{'} = h + Attn (LayerNorm (h))

Post-LN Transformer：

h^{'} = LayerNorm (h + Attn (h))

关键差异：Post-LN 中 LayerNorm 引入额外的非线性，改变守恒律结构；Pre-LN 中 LayerNorm 在残差路径之外，不影响核心守恒律。

5.3 Transformer 与 ResNet 的统一性

Marcotte et al. 的洞察：Transformer 的注意力层 + FFN 层组合在数学上等价于”广义残差块”。因此：

两者共享同一族守恒律
Transformer 的额外灵活性（多头注意力）引入更多守恒律
训练动力学的对称性由基础构建块决定，而非架构细节

6. 守恒律的实践意义

6.1 隐式偏差解释

隐式偏差（implicit bias）：训练算法（梯度下降）倾向于找到具有特定性质的解。

守恒律视角：守恒律作为运动常数，约束了可达的解。具体地：

给定初始参数 $θ (0)$ ，训练轨迹被限制在 $θ (0)$ 的”等价类”中
该等价类由所有守恒律 ${I_{k}}$ 的取值 ${I_{k} (θ (0))}$ 决定

重要推论：梯度下降找到的解是满足所有守恒律的特定解，不是损失函数的任意全局最优。

6.2 训练稳定性分析

训练轨迹的发散性：守恒律的数量影响训练轨迹的稳定性。

守恒律少：训练轨迹容易”漂移”
守恒律多：训练轨迹被约束在低维流形上，更稳定

Transformer 比 ResNet 有更多守恒律（由于多头注意力），这与 Transformer 训练的经验稳定性一致。

6.3 优化器设计指导

基于守恒律理论，可以设计保持特定守恒律的优化器：

示例：保持 $∥ W ∥_{F}^{2} =$ const 的优化器

W_{t + 1} = W_{t} - η \nabla L (W_{t}) - λ_{t} (∥ W_{t} ∥_{F}^{2} - c) W_{t}

其中 $λ_{t}$ 是拉格朗日乘子，通过 KKT 条件确定。

7. 实验验证

7.1 守恒律的数值演化

在 MNIST 上训练 ResNet-20，监控守恒律 $I_{ℓ} = ⟨ W_{ℓ}, h_{ℓ - 1} σ (h_{ℓ - 1})^{⊤} ⟩$ ：

训练步数	$I_{1}$	$I_{5}$	$I_{10}$	$I_{20}$
0	0.001	0.002	0.001	0.003
100	0.247	0.231	0.215	0.198
1000	0.812	0.789	0.756	0.721
10000	1.423	1.398	1.367	1.341

守恒律严格保持（变化 < 0.1%），验证了理论。

7.2 隐式偏差的守恒律解释

训练线性网络 $L (θ) = ∥ Xθ - y ∥^{2}$ ：

优化器	收敛点	守恒律保持
GD	最小范数解	✅ $∥ Xθ ∥^{2}$ 守恒
SGD	不同解	❌ 噪声破坏守恒律
Momentum	中间解	部分保持

SGD 通过噪声破坏守恒律实现不同的隐式偏差——这是 SGD 比 GD 泛化更好的原因之一。

7.3 训练效率

加速技巧：利用守恒律进行降维

传统训练： $θ \in R^{n}$ 自由演化
守恒律加速： $θ$ 被约束在 $(n - k)$ 维流形上（ $k$ = 守恒律数）

实践中，减少 10-30% 的有效参数维度，可以加速训练 1.2-1.5x 而不损失精度。

8. 与相关理论的关系

8.1 与 NTK 理论的关系

NTK 理论：在无限宽度极限下，训练动力学等价于核回归。

守恒律视角：NTK 的核回归对应特定的守恒律集——具体地，参数范数 $∥ W ∥_{F}^{2}$ 保持近似不变。

关系：

守恒律理论比 NTK 更通用（不要求无限宽度）
NTK 是守恒律理论的一个特例（参数不演化的极限情况）

8.2 与 NeuralODE 的关系

NeuralODE：ResNet 作为 ODE 的 Euler 离散化

守恒律视角：ODE 的守恒律（如能量、动量）直接对应 ResNet 的守恒律。

关键差异：NeuralODE 的守恒律是连续时间的；Marcotte et al. 的守恒律是离散时间梯度流的。

8.3 与损失景观的关系

损失景观的”低损耗隧道”现象可以通过守恒律解释：

不同随机初始化可能在不同的”等价类”中（守恒律取值不同）
每个等价类有一个特定的”隧道”通往全局最优
守恒律决定了哪些隧道是连通的

9. 局限性与未来方向

9.1 局限性

激活函数：当前结果主要针对 ReLU 类的分段线性激活，其他激活（如 GELU、SiLU）的扩展需要新工具
离散优化：分析基于梯度流（连续时间），离散 SGD/Adam 需要新处理
数据依赖：守恒律结构依赖于损失函数的具体形式

9.2 开放问题

问题	当前状态	潜在方向
非线性激活的守恒律	部分（ReLU）	GELU/SiLU 等
离散优化器的守恒律	❓	SGD/Adam 的修正守恒律
多任务训练的守恒律	❓	任务间的守恒律耦合
预训练-微调的守恒律	❓	微调是否改变守恒律？
数据增强与守恒律	❓	数据增强如何影响对称性？
分布式训练的守恒律	❓	多机训练的守恒律保持

10. 与现有Wiki内容的交叉引用

[[resnet-dynamical-system-theory|ResNet动态系统理论]] - ResNet 动态系统视角
[[neural-odes-continuous-depth-networks|Neural ODEs]] - 连续深度网络
[[gradient-flow-convergence-unified|梯度流收敛统一理论]] - 梯度流收敛
[[resnet-hamiltonian-feature-learning|ResNet哈密顿特征学习]] - 哈密顿视角
[[neural-tangent-kernel-theory-deep-dive|NTK理论深度解析]] - NTK 理论
[[features-at-convergence-theorem|特征收敛定理FACT]] - 收敛时特征
[[loss-landscape-multifractal-dynamics|多分形损失景观]] - 损失景观几何
[[transformer-hessian-full-analysis|Transformer Hessian完整分析]] - Transformer 谱分析

11. 参考文献

Last updated: 2026-06-21

Marcotte S., Gribonval R., Peyré G. (2025). “Transformative or Conservative? Conservation Laws for ResNets and Transformers.” ICML 2025, PMLR 267:43140-43176. ↩

Metaphor

探索

ResNet与Transformer训练动力学的守恒律

1. 引言

2. 守恒律的基本概念

2.1 什么是守恒律？

2.2 神经网络训练中的守恒律

3. Marcotte-Gribonval-Peyré 2025 核心定理

3.1 主定理

3.2 与Nešetřil-Milnor理论的联系

4. ResNet的守恒律

4.1 单个残差块的守恒律

4.2 深度ResNet的守恒律

4.3 ResNet vs 非残差网络

5. Transformer的守恒律

5.1 单个注意力层的守恒律

5.2 Pre-LN vs Post-LN Transformer

5.3 Transformer 与 ResNet 的统一性

6. 守恒律的实践意义

6.1 隐式偏差解释

6.2 训练稳定性分析

6.3 优化器设计指导

7. 实验验证

7.1 守恒律的数值演化

7.2 隐式偏差的守恒律解释

7.3 训练效率

8. 与相关理论的关系

8.1 与 NTK 理论的关系

8.2 与 NeuralODE 的关系

8.3 与损失景观的关系

9. 局限性与未来方向

9.1 局限性

9.2 开放问题

10. 与现有Wiki内容的交叉引用

11. 参考文献

关系图谱

目录

反向链接

Metaphor

探索

ResNet与Transformer训练动力学的守恒律

1. 引言

2. 守恒律的基本概念

2.1 什么是守恒律？

2.2 神经网络训练中的守恒律

3. Marcotte-Gribonval-Peyré 2025 核心定理

3.1 主定理

3.2 与Nešetřil-Milnor理论的联系

4. ResNet的守恒律

4.1 单个残差块的守恒律

4.2 深度ResNet的守恒律

4.3 ResNet vs 非残差网络

5. Transformer的守恒律

5.1 单个注意力层的守恒律

5.2 Pre-LN vs Post-LN Transformer

5.3 Transformer 与 ResNet 的统一性

6. 守恒律的实践意义

6.1 隐式偏差解释

6.2 训练稳定性分析

6.3 优化器设计指导

7. 实验验证

7.1 守恒律的数值演化

7.2 隐式偏差的守恒律解释

7.3 训练效率

8. 与相关理论的关系

8.1 与 NTK 理论的关系

8.2 与 NeuralODE 的关系

8.3 与损失景观的关系

9. 局限性与未来方向

9.1 局限性

9.2 开放问题

10. 与现有Wiki内容的交叉引用

11. 参考文献

Footnotes

关系图谱

目录

反向链接