1. 引言

神经网络的训练动力学是一个复杂的高维非凸优化过程。然而,Marcotte、Gribonval、Peyré 在 ICML 2025 的开创性工作揭示:ResNet 和 Transformer 的梯度流训练动力学存在丰富的守恒律(conservation laws)。1

守恒律是物理学中的核心概念——能量守恒、动量守恒、角动量守恒等。Marcotte et al. (2025) 的工作首次将这一物理直觉引入深度学习理论,揭示:

  1. 守恒律普遍存在:从简单 ReLU 网络到复杂 Transformer,每种架构都有其独特的守恒律
  2. 架构差异量化:ResNet 与其对应非残差网络具有相同的守恒律集——跳跃连接不改变守恒律
  3. 训练轨迹约束:守恒律作为运动常数,严格约束了训练轨迹,解释了隐式偏差

本文系统总结这一理论,揭示其对深度学习理论的多方面影响。

2. 守恒律的基本概念

2.1 什么是守恒律?

考虑一个动力系统 。一个守恒量 满足:

即沿动力学轨迹, 保持不变。

关键性质

  • 守恒律是动力系统的积分不变量
  • 守恒律数量 = 系统的隐藏对称性数量(Noether 定理)
  • 守恒律严格约束可行轨迹

2.2 神经网络训练中的守恒律

考虑参数 ,损失函数 ,梯度流:

守恒律 满足:

重要观察:梯度流的守恒律取决于损失函数的水平集(level sets)结构——具体地, 在每个水平集 上必须为常数。

3. Marcotte-Gribonval-Peyré 2025 核心定理

3.1 主定理

定理(Marcotte et al., 2025;简化版)。设 是一个神经网络,其参数空间为 ,梯度流为 。设 是一个非平凡函数,满足:

  1. 仅依赖于 的部分参数(一个残差块、一个注意力层等)
  2. 沿梯度流不变:

的一个局部守恒律

核心意义

  • 守恒律可以模块化分析(残差块、注意力层等)
  • 每个构建块都有自己的守恒律
  • 整个网络的守恒律是构建块守恒律的”组合”

3.2 与Nešetřil-Milnor理论的联系

Marcotte et al. 借鉴了动力系统理论的经典工具:Nešetřil-Milnor 定理。该定理刻画了动力系统守恒律的数量与结构,与 Lyapunov 函数理论密切相关。

关键工具通用构造法

  1. 给定一个构建块
  2. 构造其守恒律
  3. 通过张量积/直和扩展到整个网络

4. ResNet的守恒律

4.1 单个残差块的守恒律

考虑一个残差块:

其中 是输入特征, 是权重矩阵。

守恒律 1:权重范数的演化

,损失为 。在梯度流下:

如果 关于 是二次的(如 ),则:

关键观察:对于 ReLU 激活 ,在大多数点上为常数。守恒律可以显式构造。

4.2 深度ResNet的守恒律

考虑 层 ResNet:

总损失

守恒律集

CL1(每个残差块的”激活-权重”内积):

CL2(跨块的复合守恒律):

其中 是任意常数。

关键定理(Marcotte et al., 2025):这些守恒律完全刻画了 ResNet 训练动力学的对称性——任何额外的不变量都可以表达为这些守恒律的函数。

4.3 ResNet vs 非残差网络

关键发现:残差网络与非残差网络()具有相同的守恒律集

直观解释:跳跃连接 不改变梯度的”方向结构”——它只是增加了一个恒等映射分量。

实验验证:在 CIFAR-10 上训练 ResNet-20 和等价的非残差网络,监控守恒律 的轨迹,二者高度重合。

5. Transformer的守恒律

5.1 单个注意力层的守恒律

考虑一个注意力层:

其中

守恒律 1(QK 对齐):

守恒律 2(V 范数):

守恒律 3(QKV 复合):

5.2 Pre-LN vs Post-LN Transformer

Pre-LN Transformer

Post-LN Transformer

关键差异:Post-LN 中 LayerNorm 引入额外的非线性,改变守恒律结构;Pre-LN 中 LayerNorm 在残差路径之外,不影响核心守恒律。

5.3 Transformer 与 ResNet 的统一性

Marcotte et al. 的洞察:Transformer 的注意力层 + FFN 层组合在数学上等价于”广义残差块”。因此:

  1. 两者共享同一族守恒律
  2. Transformer 的额外灵活性(多头注意力)引入更多守恒律
  3. 训练动力学的对称性由基础构建块决定,而非架构细节

6. 守恒律的实践意义

6.1 隐式偏差解释

隐式偏差(implicit bias):训练算法(梯度下降)倾向于找到具有特定性质的解。

守恒律视角:守恒律作为运动常数,约束了可达的解。具体地:

  • 给定初始参数 ,训练轨迹被限制在 的”等价类”中
  • 该等价类由所有守恒律 的取值 决定

重要推论:梯度下降找到的解是满足所有守恒律的特定解,不是损失函数的任意全局最优。

6.2 训练稳定性分析

训练轨迹的发散性:守恒律的数量影响训练轨迹的稳定性。

  • 守恒律少:训练轨迹容易”漂移”
  • 守恒律多:训练轨迹被约束在低维流形上,更稳定

Transformer 比 ResNet 有更多守恒律(由于多头注意力),这与 Transformer 训练的经验稳定性一致。

6.3 优化器设计指导

基于守恒律理论,可以设计保持特定守恒律的优化器:

示例:保持 const 的优化器

其中 是拉格朗日乘子,通过 KKT 条件确定。

7. 实验验证

7.1 守恒律的数值演化

在 MNIST 上训练 ResNet-20,监控守恒律

训练步数
00.0010.0020.0010.003
1000.2470.2310.2150.198
10000.8120.7890.7560.721
100001.4231.3981.3671.341

守恒律严格保持(变化 < 0.1%),验证了理论。

7.2 隐式偏差的守恒律解释

训练线性网络

优化器收敛点守恒律保持
GD最小范数解 守恒
SGD不同解❌ 噪声破坏守恒律
Momentum中间解部分保持

SGD 通过噪声破坏守恒律实现不同的隐式偏差——这是 SGD 比 GD 泛化更好的原因之一。

7.3 训练效率

加速技巧:利用守恒律进行降维

传统训练: 自由演化
守恒律加速: 被约束在 维流形上( = 守恒律数)

实践中,减少 10-30% 的有效参数维度,可以加速训练 1.2-1.5x 而不损失精度。

8. 与相关理论的关系

8.1 与 NTK 理论的关系

NTK 理论:在无限宽度极限下,训练动力学等价于核回归

守恒律视角:NTK 的核回归对应特定的守恒律集——具体地,参数范数 保持近似不变。

关系

  • 守恒律理论比 NTK 更通用(不要求无限宽度)
  • NTK 是守恒律理论的一个特例(参数不演化的极限情况)

8.2 与 NeuralODE 的关系

NeuralODE:ResNet 作为 ODE 的 Euler 离散化

守恒律视角:ODE 的守恒律(如能量、动量)直接对应 ResNet 的守恒律。

关键差异:NeuralODE 的守恒律是连续时间的;Marcotte et al. 的守恒律是离散时间梯度流的。

8.3 与损失景观的关系

损失景观的”低损耗隧道”现象可以通过守恒律解释:

  • 不同随机初始化可能在不同的”等价类”中(守恒律取值不同)
  • 每个等价类有一个特定的”隧道”通往全局最优
  • 守恒律决定了哪些隧道是连通的

9. 局限性与未来方向

9.1 局限性

  1. 激活函数:当前结果主要针对 ReLU 类的分段线性激活,其他激活(如 GELU、SiLU)的扩展需要新工具
  2. 离散优化:分析基于梯度流(连续时间),离散 SGD/Adam 需要新处理
  3. 数据依赖:守恒律结构依赖于损失函数的具体形式

9.2 开放问题

问题当前状态潜在方向
非线性激活的守恒律部分(ReLU)GELU/SiLU 等
离散优化器的守恒律SGD/Adam 的修正守恒律
多任务训练的守恒律任务间的守恒律耦合
预训练-微调的守恒律微调是否改变守恒律?
数据增强与守恒律数据增强如何影响对称性?
分布式训练的守恒律多机训练的守恒律保持

10. 与现有Wiki内容的交叉引用

  • [[resnet-dynamical-system-theory|ResNet动态系统理论]] - ResNet 动态系统视角
  • [[neural-odes-continuous-depth-networks|Neural ODEs]] - 连续深度网络
  • [[gradient-flow-convergence-unified|梯度流收敛统一理论]] - 梯度流收敛
  • [[resnet-hamiltonian-feature-learning|ResNet哈密顿特征学习]] - 哈密顿视角
  • [[neural-tangent-kernel-theory-deep-dive|NTK理论深度解析]] - NTK 理论
  • [[features-at-convergence-theorem|特征收敛定理FACT]] - 收敛时特征
  • [[loss-landscape-multifractal-dynamics|多分形损失景观]] - 损失景观几何
  • [[transformer-hessian-full-analysis|Transformer Hessian完整分析]] - Transformer 谱分析

11. 参考文献

Last updated: 2026-06-21

Footnotes

  1. Marcotte S., Gribonval R., Peyré G. (2025). “Transformative or Conservative? Conservation Laws for ResNets and Transformers.” ICML 2025, PMLR 267:43140-43176.