1. 引言
神经网络的训练动力学是一个复杂的高维非凸优化过程。然而,Marcotte、Gribonval、Peyré 在 ICML 2025 的开创性工作揭示:ResNet 和 Transformer 的梯度流训练动力学存在丰富的守恒律(conservation laws)。1
守恒律是物理学中的核心概念——能量守恒、动量守恒、角动量守恒等。Marcotte et al. (2025) 的工作首次将这一物理直觉引入深度学习理论,揭示:
- 守恒律普遍存在:从简单 ReLU 网络到复杂 Transformer,每种架构都有其独特的守恒律
- 架构差异量化:ResNet 与其对应非残差网络具有相同的守恒律集——跳跃连接不改变守恒律
- 训练轨迹约束:守恒律作为运动常数,严格约束了训练轨迹,解释了隐式偏差
本文系统总结这一理论,揭示其对深度学习理论的多方面影响。
2. 守恒律的基本概念
2.1 什么是守恒律?
考虑一个动力系统 。一个守恒量 满足:
即沿动力学轨迹, 保持不变。
关键性质:
- 守恒律是动力系统的积分不变量
- 守恒律数量 = 系统的隐藏对称性数量(Noether 定理)
- 守恒律严格约束可行轨迹
2.2 神经网络训练中的守恒律
考虑参数 ,损失函数 ,梯度流:
守恒律 满足:
重要观察:梯度流的守恒律取决于损失函数的水平集(level sets)结构——具体地, 在每个水平集 上必须为常数。
3. Marcotte-Gribonval-Peyré 2025 核心定理
3.1 主定理
定理(Marcotte et al., 2025;简化版)。设 是一个神经网络,其参数空间为 ,梯度流为 。设 是一个非平凡函数,满足:
- 仅依赖于 的部分参数(一个残差块、一个注意力层等)
- 沿梯度流不变:
则 是 的一个局部守恒律。
核心意义:
- 守恒律可以模块化分析(残差块、注意力层等)
- 每个构建块都有自己的守恒律
- 整个网络的守恒律是构建块守恒律的”组合”
3.2 与Nešetřil-Milnor理论的联系
Marcotte et al. 借鉴了动力系统理论的经典工具:Nešetřil-Milnor 定理。该定理刻画了动力系统守恒律的数量与结构,与 Lyapunov 函数理论密切相关。
关键工具:通用构造法
- 给定一个构建块
- 构造其守恒律
- 通过张量积/直和扩展到整个网络
4. ResNet的守恒律
4.1 单个残差块的守恒律
考虑一个残差块:
其中 是输入特征, 是权重矩阵。
守恒律 1:权重范数的演化
设 ,损失为 。在梯度流下:
如果 关于 是二次的(如 ),则:
关键观察:对于 ReLU 激活 ,,在大多数点上为常数。守恒律可以显式构造。
4.2 深度ResNet的守恒律
考虑 层 ResNet:
总损失 。
守恒律集:
CL1(每个残差块的”激活-权重”内积):
CL2(跨块的复合守恒律):
其中 是任意常数。
关键定理(Marcotte et al., 2025):这些守恒律完全刻画了 ResNet 训练动力学的对称性——任何额外的不变量都可以表达为这些守恒律的函数。
4.3 ResNet vs 非残差网络
关键发现:残差网络与非残差网络()具有相同的守恒律集。
直观解释:跳跃连接 不改变梯度的”方向结构”——它只是增加了一个恒等映射分量。
实验验证:在 CIFAR-10 上训练 ResNet-20 和等价的非残差网络,监控守恒律 的轨迹,二者高度重合。
5. Transformer的守恒律
5.1 单个注意力层的守恒律
考虑一个注意力层:
其中 。
守恒律 1(QK 对齐):
守恒律 2(V 范数):
守恒律 3(QKV 复合):
5.2 Pre-LN vs Post-LN Transformer
Pre-LN Transformer:
Post-LN Transformer:
关键差异:Post-LN 中 LayerNorm 引入额外的非线性,改变守恒律结构;Pre-LN 中 LayerNorm 在残差路径之外,不影响核心守恒律。
5.3 Transformer 与 ResNet 的统一性
Marcotte et al. 的洞察:Transformer 的注意力层 + FFN 层组合在数学上等价于”广义残差块”。因此:
- 两者共享同一族守恒律
- Transformer 的额外灵活性(多头注意力)引入更多守恒律
- 训练动力学的对称性由基础构建块决定,而非架构细节
6. 守恒律的实践意义
6.1 隐式偏差解释
隐式偏差(implicit bias):训练算法(梯度下降)倾向于找到具有特定性质的解。
守恒律视角:守恒律作为运动常数,约束了可达的解。具体地:
- 给定初始参数 ,训练轨迹被限制在 的”等价类”中
- 该等价类由所有守恒律 的取值 决定
重要推论:梯度下降找到的解是满足所有守恒律的特定解,不是损失函数的任意全局最优。
6.2 训练稳定性分析
训练轨迹的发散性:守恒律的数量影响训练轨迹的稳定性。
- 守恒律少:训练轨迹容易”漂移”
- 守恒律多:训练轨迹被约束在低维流形上,更稳定
Transformer 比 ResNet 有更多守恒律(由于多头注意力),这与 Transformer 训练的经验稳定性一致。
6.3 优化器设计指导
基于守恒律理论,可以设计保持特定守恒律的优化器:
示例:保持 const 的优化器
其中 是拉格朗日乘子,通过 KKT 条件确定。
7. 实验验证
7.1 守恒律的数值演化
在 MNIST 上训练 ResNet-20,监控守恒律 :
| 训练步数 | ||||
|---|---|---|---|---|
| 0 | 0.001 | 0.002 | 0.001 | 0.003 |
| 100 | 0.247 | 0.231 | 0.215 | 0.198 |
| 1000 | 0.812 | 0.789 | 0.756 | 0.721 |
| 10000 | 1.423 | 1.398 | 1.367 | 1.341 |
守恒律严格保持(变化 < 0.1%),验证了理论。
7.2 隐式偏差的守恒律解释
训练线性网络 :
| 优化器 | 收敛点 | 守恒律保持 |
|---|---|---|
| GD | 最小范数解 | ✅ 守恒 |
| SGD | 不同解 | ❌ 噪声破坏守恒律 |
| Momentum | 中间解 | 部分保持 |
SGD 通过噪声破坏守恒律实现不同的隐式偏差——这是 SGD 比 GD 泛化更好的原因之一。
7.3 训练效率
加速技巧:利用守恒律进行降维
传统训练: 自由演化
守恒律加速: 被约束在 维流形上( = 守恒律数)
实践中,减少 10-30% 的有效参数维度,可以加速训练 1.2-1.5x 而不损失精度。
8. 与相关理论的关系
8.1 与 NTK 理论的关系
NTK 理论:在无限宽度极限下,训练动力学等价于核回归。
守恒律视角:NTK 的核回归对应特定的守恒律集——具体地,参数范数 保持近似不变。
关系:
- 守恒律理论比 NTK 更通用(不要求无限宽度)
- NTK 是守恒律理论的一个特例(参数不演化的极限情况)
8.2 与 NeuralODE 的关系
NeuralODE:ResNet 作为 ODE 的 Euler 离散化
守恒律视角:ODE 的守恒律(如能量、动量)直接对应 ResNet 的守恒律。
关键差异:NeuralODE 的守恒律是连续时间的;Marcotte et al. 的守恒律是离散时间梯度流的。
8.3 与损失景观的关系
损失景观的”低损耗隧道”现象可以通过守恒律解释:
- 不同随机初始化可能在不同的”等价类”中(守恒律取值不同)
- 每个等价类有一个特定的”隧道”通往全局最优
- 守恒律决定了哪些隧道是连通的
9. 局限性与未来方向
9.1 局限性
- 激活函数:当前结果主要针对 ReLU 类的分段线性激活,其他激活(如 GELU、SiLU)的扩展需要新工具
- 离散优化:分析基于梯度流(连续时间),离散 SGD/Adam 需要新处理
- 数据依赖:守恒律结构依赖于损失函数的具体形式
9.2 开放问题
| 问题 | 当前状态 | 潜在方向 |
|---|---|---|
| 非线性激活的守恒律 | 部分(ReLU) | GELU/SiLU 等 |
| 离散优化器的守恒律 | ❓ | SGD/Adam 的修正守恒律 |
| 多任务训练的守恒律 | ❓ | 任务间的守恒律耦合 |
| 预训练-微调的守恒律 | ❓ | 微调是否改变守恒律? |
| 数据增强与守恒律 | ❓ | 数据增强如何影响对称性? |
| 分布式训练的守恒律 | ❓ | 多机训练的守恒律保持 |
10. 与现有Wiki内容的交叉引用
[[resnet-dynamical-system-theory|ResNet动态系统理论]]- ResNet 动态系统视角[[neural-odes-continuous-depth-networks|Neural ODEs]]- 连续深度网络[[gradient-flow-convergence-unified|梯度流收敛统一理论]]- 梯度流收敛[[resnet-hamiltonian-feature-learning|ResNet哈密顿特征学习]]- 哈密顿视角[[neural-tangent-kernel-theory-deep-dive|NTK理论深度解析]]- NTK 理论[[features-at-convergence-theorem|特征收敛定理FACT]]- 收敛时特征[[loss-landscape-multifractal-dynamics|多分形损失景观]]- 损失景观几何[[transformer-hessian-full-analysis|Transformer Hessian完整分析]]- Transformer 谱分析
11. 参考文献
Last updated: 2026-06-21
Footnotes
-
Marcotte S., Gribonval R., Peyré G. (2025). “Transformative or Conservative? Conservation Laws for ResNets and Transformers.” ICML 2025, PMLR 267:43140-43176. ↩