学习力学:深度学习的科学理论
引言
2026 年 4 月,一篇 41 页的论文《There Will Be a Scientific Theory of Deep Learning》由 Simon, Kunin 等 13 位顶尖研究者联合发表,正式提出 “Learning Mechanics”(学习力学) 这一新学科。
核心论断:
深度学习理论正从碎片化的”什么有效”研究转向”为什么有效”的科学——以可证伪、可量化预测的”力学定律”为基础。
论文提出5 大支柱:
- 理想化可解设定(Idealized solvable settings)
- 可处理极限(Treatable limits)
- 数学定律(Mathematical laws)
- 超参数理论(Hyperparameter theory)
- 普遍行为(Universal behavior)
这与 2025-2026 年兴起的”反向传播 = 最小作用量原理”、“训练 = Hamilton-Jacobi 初值问题”、“网络 = 内部传播流形”等物理类比完全一致——标志着深度学习理论进入了物理学范式。1
一、深度学习理论的现状与挑战
1.1 现状:经验驱动的”炼金术”
典型研究模式:
- 提出新架构 → 跑实验 → 报告性能提升
- 调超参数 → 发现新 tricks → 发表
- 缺乏预测性理论——为什么这个有效?什么时候会失效?
理论现状的局限:
- 统计学习理论(VC 维、PAC):对深度网络过松
- 优化理论(凸优化):深度网络非凸
- 神经科学:太复杂,难以直接指导工程
1.2 三个关键问题
深度学习缺乏统一框架来回答:
-
为什么这个有效?
- 为什么 ResNet 训练稳定?→ 不是经验观察
- 为什么 Attention 比 RNN 长程好?→ 不是简单解释
- 为什么大模型涌现能力?→ 不是”scale 就行”
-
什么时候会失效?
- 哪些架构在哪些任务失败?
- 长度泛化的边界在哪里?
- 分布外泛化的限制?
-
如何设计新架构?
- 不是 trial-and-error
- 是基于第一性原理的设计
1.3 “科学理论”的标志
一个成熟的科学理论应具备(按物理学标准):
| 标志 | 描述 | 深度学习是否满足? |
|---|---|---|
| 公理化 | 几条基本原理出发 | 暂无(只有经验原则) |
| 数学定律 | 类似 的简洁公式 | 部分(如缩放律) |
| 可证伪 | 实验可验证/反驳 | 有一些(如 EoS) |
| 预测能力 | 预测未观察到的现象 | 弱 |
| 统一性 | 解释多个现象 | 碎片化 |
学习力学 的目标:把深度学习提升到完整科学。
二、Learning Mechanics 的 5 大支柱
2.1 支柱 1:理想化可解设定(Idealized Solvable Settings)
核心思想:
寻找可解析求解的简化模型,作为研究 DL 的”理想实验”。
2.1.1 线性网络
最简单但有信息量的理想化模型:
可解之处:
- 损失函数显式表达式(二次型)
- 训练动力学 = 矩阵分解(梯度流 → 平衡态)
- NTK 极限下的收敛性
关键结果:
- Saxe et al. 2014:线性网络的频域训练动力学
- 权重矩阵奇异值的单调演化
- 与深度学习的”特征学习”现象的直接联系
class LinearNetwork(nn.Module):
"""线性网络 - 理想化可解设定"""
def __init__(self, d_in, d_hidden, d_out, n_layers):
super().__init__()
self.layers = nn.ModuleList([
nn.Linear(d_in if i == 0 else d_hidden, d_hidden if i < n_layers-1 else d_out, bias=False)
for i in range(n_layers)
])
def forward(self, x):
h = x
for layer in self.layers:
h = layer(h)
return h
def train_linear_analysis(model, X, Y, n_steps=1000):
"""训练并分析线性网络的奇异值演化"""
singular_values_history = []
opt = torch.optim.SGD(model.parameters(), lr=1e-3)
for step in range(n_steps):
pred = model(X)
loss = F.mse_loss(pred, Y)
opt.zero_grad()
loss.backward()
opt.step()
if step % 50 == 0:
# 记录每个权重矩阵的奇异值
with torch.no_grad():
sv = [torch.linalg.svdvals(layer.weight)[0].item()
for layer in model.layers]
singular_values_history.append(sv)
return singular_values_history观察:随训练进行,每层权重矩阵的奇异值向训练目标决定的”理想”值收敛。
2.1.2 无限宽网络(NTK 极限)
宽度 时的极限:
Neural Tangent Kernel (NTK)(Jacot et al. 2018):
- 无限宽网络等价于核方法
- 训练动力学由 NTK 决定
- 收敛性可证明
意义:
- 解释了过参数化的泛化能力
- 提供了理论保证
- 但 NTK 模式下无”特征学习”——与实际 DL 有差距
2.1.3 有限深/宽(Mean-Field 极限)
深度 或 有限但宽度大时的极限:
Mean-Field (Chizat & Bach 2018):
- 单层宽 → 概率测度演化(PDE)
- 提供全局收敛性证明
- 解释”懒惰训练”(lazy training)
有限深宽(最新进展):
- 三重极限 的同时分析
- ResNet 2026 三极限收敛性证明
- 完整刻画训练动力学
2.1.4 其他理想化设定
| 设定 | 简化内容 | 适用问题 |
|---|---|---|
| 线性注意力 | softmax → 线性 | 注意力理论分析 |
| 标量网络 | 标量而非向量 | 简化数值实验 |
| 合成任务 | 已知解的简单任务 | 特征学习研究 |
| 单层网络 | 深度 = 1 | 通用逼近性 |
| 无限数据 | 经验风险 = 期望 | 优化理论 |
| 二分类 | 多类 → 二类 | 几何分析 |
2.2 支柱 2:可处理极限(Treatable Limits)
核心思想:
取各种极限后,模型变得可分析——给出原问题的渐近或近似理解。
2.2.1 无限宽度极限
NTK 理论:
- 任何架构的 NTK 可显式计算
- 给出训练收敛和泛化界
Feature Learning 极限(更新):
- (Yang 2020):无限宽极限下保留特征学习
- 提供超参数迁移的理论基础
2.2.2 无限深度极限
Neural ODE(Chen et al. 2018):
- 离散层 → 连续时间
- 无限深度极限
- 训练动力学由ODE 决定
2.2.3 无限数据极限
随机梯度下降 (SGD):
- 经验损失 → 期望损失
- 训练轨迹 → 随机微分方程 (SDE)
- 收敛性分析简化
2.2.4 高维极限
随机矩阵理论:
- 权重矩阵 ,
- 特征值分布 → 连续谱
- Marchenko-Pastur 定律
应用:
- 注意力矩阵的谱分析
- 损失景观的高维几何
- 训练动力学的随机矩阵分析
2.2.5 噪声极限
添加噪声 → 扩散:
- 训练噪声 → 后验分布
- 噪声尺度 → 泛化界
- Langevin 动力学
2.2.6 多极限同时
最新进展:多个极限同时分析
| 工作 | 多极限 | 结论 |
|---|---|---|
| Chaintron 2026 (ResNets) | 三极限收敛性 | |
| Bordelon 2020 (CNNs) | , | NTK 演化 |
| Yang 2020 () | with | 特征学习 |
2.3 支柱 3:数学定律(Mathematical Laws)
核心思想:
涌现出简洁、普遍的数学规律,类似物理学的”定律”。
2.3.1 缩放律(Scaling Laws)
Kaplan et al. 2020 经验发现:
其中:
- = 损失
- = 模型参数
- = 数据量
- = 拟合参数
理论解释:
- 来自高维统计(幂律的普遍性)
- 与随机矩阵理论一致
- 但指数 仍待理解
2.3.2 EoS 现象
Edge of Stability(Cohen et al. 2021):
训练时,损失锐度(top Hessian eigenvalue )稳定在 ( 是学习率)
意义:
- 训练非凸优化的普遍现象
- 解释了”学习率边界”
- 提供了收敛率的理论
2.3.3 Grokking
Grokking 现象(Power et al. 2022):
模型在训练 loss 接近 0 之后,突然在测试集上泛化
理论:
- 来自”电路形成”的相变
- 与损失景观的拓扑变化相关
- 标度律 训练样本数
2.3.4 神经塌缩(Neural Collapse)
Papyan, Han & Donoho 2020:
训练到收敛时,类内特征塌缩到类均值,类均值形成单纯形等角紧框架 (Simplex ETF)
意义:
- 解释了最后一层的几何
- 提供了分类器的理论基础
- 与 HMAX、INVAR 等神经科学发现一致
2.3.5 双下降 / 良性过拟合
Belkin et al. 2019, Bartlett et al. 2020:
泛化误差 vs 模型规模呈”双下降”曲线,插值阈值处有峰值
理论:
- 来自高维随机矩阵理论
- 与核方法的联系
- 现代深度网络处于”过参数化”区域
2.3.6 特征学习相变
阶段转变(Cui et al. 2024 NeurIPS):
训练过程中,特征学习经历两阶段相变:
- 位置信息聚集
- 语义学习开始
意义:
- 解释 Transformer 训练的”先位置后语义”现象
- 与损失景观的拓扑变化相关
- 提供了学习率调度的理论基础
2.4 支柱 4:超参数理论(Hyperparameter Theory)
核心思想:
学习率、宽度、深度等超参数不是经验设置,而是有理论最优值。
2.4.1 特征学习机制
理论(Yang 2020, Bordelon 2023):
- 特征学习需要超过某个”懒惰”边界
- 边界 = 学习率 × 初始化尺度
- (最大更新参数化)给出特征学习保持
2.4.2 学习率-批大小等比
Smith et al. 2017:
理论:
- SGD 噪声尺度
- 固定噪声 → 固定泛化
- 提供超参数迁移原则
2.4.3 (最大更新参数化)
Yang 2020:
在无限宽极限下,保持特征学习的参数化
具体:
- 学习率 ( = 宽度)
- 初始化
- 残差缩放
意义:
- 5% 的小模型 → 100% 大模型
- 超参数无需重新调优
2.4.4 谱初始化
Schoenholz et al. 2017:
- 用 NTK 的特征值谱指导初始化
- 让信号/梯度在所有层保持尺度
- 解决了深度网络的”梯度消失”
2.4.5 学习率调度
理论进展:
- Warmup:前 步线性增加
- Cosine: 时 cosine 衰减
- 理论:与损失景观的”阶段转变”匹配
2.5 支柱 5:普遍行为(Universal Behavior)
核心思想:
跨模型、跨任务、跨数据的共性行为。
2.5.1 训练动力学的普遍性
实证发现:
- 不同架构(MLP / CNN / Transformer)训练轨迹惊人相似
- 损失 vs 时间曲线几乎重合(归一化后)
- 特征学习曲线有共性阶段
2.5.2 缩放律的普遍性
对所有架构:
- (语言)
- (视觉)
含义:
- 大模型总是更好
- 但有对数线性的边际收益
2.5.3 涌现能力的相变
Wei et al. 2022:
大模型突然获得小模型没有的能力
例子:
- 多步算术
- 跨语言迁移
- 工具使用
理论:
- 相变发生在特定规模(不是渐变)
- 与电路形成相关
2.5.4 “学习力学”定律
核心定律(猜想):
深度学习是一个相变系统,经历几个特征性阶段:
- 懒惰阶段(Lazy phase):输出接近线性函数
- 特征学习阶段(Feature learning):权重变化显著
- 电路形成阶段(Circuit formation):涌现功能模块
- 精炼阶段(Refinement):细节优化
每个阶段有特征时长和特征损失。
三、相关子领域整合
3.1 反向传播 = 最小作用量原理
Chizat 2026 等*:
反向传播 = 经典力学的最小作用量原理
具体地:
- 训练轨迹 = 拉格朗日量的驻点
- 损失 = 作用量(拉格朗日的时间积分)
- 梯度下降 = 欧拉-拉格朗日方程的数值求解
引入工具:
- 辛几何(Symplectic geometry):保持能量的优化
- 诺特定理(Noether’s theorem):训练不变量
- 路径积分(Path integral):训练的概率分布
- 守恒律:可证明的训练守恒量
理论意义:
- 深度学习训练本质上是物理过程
- 可用分析力学的全部工具
3.2 训练 = Hamilton-Jacobi 初值问题
Miñoza et al. 2026:
训练神经网络 = 求解Hamilton-Jacobi PDE 初值问题
其中 是值函数(最优化目标), 是哈密顿量。
具体应用:
- 梯度流 → 特征线方法
- SGD 噪声 → 随机 Hamilton-Jacobi
- 损失景观 → 多值 HJ
与物理学对应:
- 经典力学中,Hamilton-Jacobi 描述粒子运动
- 深度学习中,描述参数演化
- 完全同构!
3.3 网络 = 内部传播流形
Gu 2026 (Propagation Field):
神经网络应理解为内部传播的几何流形
核心思想:
- 隐藏态 演化 = 流形上的扩散
- 训练 = 流形的几何形变
- 损失 = 流形上的距离
理论意义:
- 解释深度的几何意义
- 解释宽度的信息容量
- 解释残差连接作为捷径
3.4 凸共轭 = 训练动力学
Qi 2026 (Conjugate Learning Theory):
用凸共轭对偶统一刻画训练的可训练性和泛化
核心思想:
- 损失 → 凸共轭
- 训练动力学 = 凸共轭域内的梯度流
- 泛化界 = 凸共轭的支撑集大小
理论意义:
- 解释 Edge of Stability
- 解释 Grokking
- 提供训练算法的统一视角
3.5 其他子领域
| 子领域 | 与学习力学的关系 |
|---|---|
| Mechanistic Interpretability | 提供”电路”——学习力学的微观结构 |
| PAC-Bayes | 提供泛化界——学习力学的统计保证 |
| 信息瓶颈 | 提供特征压缩——学习力学的相变理论 |
| 神经科学 | 提供生物类比——学习力学的物理实现 |
| 统计力学 | 提供数学工具——学习力学的形式化 |
四、从经验到科学的研究方法
4.1 假设-预测-验证循环
科学方法:
观察 → 假设 → 数学预测 → 实验验证 → 修正假设 → ...
深度学习的应用:
- 观察:训练现象(EoS、Grokking、双下降)
- 假设:背后有”力学定律”
- 预测:基于假设预测新现象
- 验证:实验检查预测
- 修正:迭代优化理论
4.2 多个理想化设定
方法论:
- 不用一个完整理论,而用多个简化模型
- 每个模型捕捉一个核心现象
- 综合多个模型得到全面理解
例子:
- 线性网络:理解训练动力学
- 无限宽网络:理解优化
- NTK:理解懒惰训练
- Mean-Field:理解特征学习
4.3 实验与理论协同
关键原则:
- 理论必须可证伪
- 实验必须可重复
- 数据必须公开
工具:
- 合成数据集(已知解)
- 玩具任务(小规模)
- 缩放实验(系统变化)
- 消融研究(隔离因素)
4.4 跨学科类比
深度学习 ↔ 物理学:
- 神经元 = 粒子
- 层 = 时间
- 反向传播 = 牛顿第二定律
- 损失 = 势能
- 优化 = 拉格朗日力学
深度学习 ↔ 统计力学:
- 温度 = 学习率/批大小
- 熵 = 信息瓶颈
- 相变 = 阶段转变
- 序参量 = 特征学习度量
深度学习 ↔ 神经科学:
- 学习 = 突触可塑性
- 电路 = 神经元集群
- 记忆 = 海马体
- 泛化 = 皮层整合
五、与现有理论框架的关系
5.1 统计学习理论
SLT 局限:
- VC 维对深度网络过松
- PAC 界非紧
- 不解释特征学习
学习力学的补充:
- 不用 VC 维,用电路大小
- 不用 PAC 界,用相变条件
- 不用模型选择,用几何理解
5.2 信息论
IB(信息瓶颈)方法:
- 互信息 vs
- 解释压缩 vs 预测的权衡
学习力学:
- 视为 IB 的动力学实现
- 相变 = 互信息的突变
- 提供优化算法统一视角
5.3 算法理论
PAC-Bayes、压缩界:
- 提供泛化界的算法视角
- 与学习力学的力学定律互补
算法视角 vs 力学视角:
- 算法:
- 力学:为什么、何时触发学习
5.4 优化理论
凸优化:
- 完备理论,但仅适用凸
- 深度学习非凸
非凸优化:
- 仍依赖经验方法
- 学习力学试图提供第一性原理
5.5 微分几何
流形上的优化:
- 自然梯度、黎曼优化
- 与学习力学的几何视角一致
学习力学:
- 视为微分几何的具体应用
- 信息几何 = 概率分布的流形
- 损失景观 = 高维流形
六、开放问题与未来方向
6.1 核心开放问题
-
三极限同时收敛:
- , ,
- Chaintron 2026 在 ResNet 上起步
- 完整理论待发展
-
离散 vs 连续动力学的统一:
- 离散层 vs Neural ODE
- 何时用哪种模型?
- 转换条件?
-
跨模态的普遍规律:
- 视觉、语言、音频
- 训练动力学是否相似?
- 缩放律是否一致?
-
特征学习的精确刻画:
- 何时发生?
- 如何度量?
- 何时停止?
-
电路形成理论:
- Grokking 的相变机制
- 涌现能力的数学刻画
- 与生物学可塑性的联系
6.2 未来方向
方向 1:理论预测的实验验证
- 基于”力学定律”做新预测
- 用实验验证/反驳
- 推动理论-实验协同
方向 2:架构设计的第一性原理
- 不用 trial-and-error
- 基于”力学”设计
- 预测新架构的性能
方向 3:训练算法的统一视角
- Adam、SGD、Muon 等的统一
- 学习力学给出最优算法
- 提供收敛率保证
方向 4:神经科学的桥接
- 深度学习 = 神经网络的”工程版本”
- 学习力学 ↔ 神经科学的”力学”
- 相互启发
方向 5:AI 安全的理论基础
- 涌现能力的预测
- 分布外泛化的界限
- 对齐的力学基础
6.3 2026 年值得关注的论文
| 论文 | 主题 | 链接 |
|---|---|---|
| Simon et al. 2026 | Scientific Theory of DL | arXiv:2604.21691 |
| Miñoza et al. 2026 | HJ Theory of DL | arXiv:2605.28983 |
| Gu 2026 | Propagation Field | arXiv:2605.08529 |
| Qi 2026 | Conjugate Learning | arXiv:2602.16177 |
| Chaintron et al. 2026 | ResNet 三极限 | arXiv:2603.18168 |
| Ye 2026 | Math Foundations of DL | arXiv:2603.18387 |
| Chodron de Courcel 2026 | EoS Free Energy | arXiv:2606.05326 |
七、实践启示
7.1 工程师视角
架构设计:
- 用 原则:保持特征学习
- 用 NTK 视角:理解训练开始
- 用 ODE 视角:理解训练结束
- 用流形视角:理解整个过程
超参数调优:
- 学习率 / 批大小 = 固定比
- 初始化 = NTK 引导
- 调度 = 阶段匹配
训练监控:
- 谱演化(Hessian 谱)
- 损失景观(投影到低维)
- 训练阶段(识别相变)
7.2 研究者视角
新现象:
- 发现”力学定律”形式
- 用数学严格化
- 实验验证
新架构:
- 基于”力学”设计
- 预测性能
- 实验验证
新算法:
- 基于”力学”推导
- 提供收敛性
- 与已知算法对比
7.3 教育视角
教学顺序:
- 传统 ML(统计学习)
- 深度学习基础(CNN/RNN)
- 优化理论(凸/非凸)
- 学习力学(统一框架)
- 前沿研究
核心教材:
- “Mathematical Foundations of Deep Learning” (Ye 2026)
- “There Will Be a Scientific Theory of Deep Learning” (Simon 2026)
- “The Hamilton-Jacobi Theory of Deep Learning” (Miñoza 2026)
八、完整学习路径
8.1 入门路径
第 1 步:经典统计学习
- VC 维、PAC 学习
- 正则化、偏差-方差权衡
第 2 步:深度学习基础
- 反向传播、自动微分
- CNN、RNN、Transformer
- 优化器(SGD、Adam)
第 3 步:现代理论
- NTK 理论
- 无限宽极限
- 信息瓶颈
第 4 步:学习力学
- 5 大支柱
- 反向传播 = 最小作用量
- 训练 = Hamilton-Jacobi
8.2 进阶路径
专题 1:缩放律与相变
- 经验缩放律
- 双下降
- Grokking
- 涌现能力
专题 2:训练动力学
- EoS 现象
- 损失景观
- 谱分析
- 优化器理论
专题 3:架构理论
- Transformer = TC⁰
- 简洁性
- 表达力界限
- 新架构设计
专题 4:神经科学
- 突触可塑性
- 神经编码
- 脑启发学习
- 元学习
8.3 前沿研究
方向 A:力学定律的形式化
- 寻找”简洁公式”
- 跨架构普遍性
- 实验验证
方向 B:架构设计原理
- 基于力学的设计
- 性能预测
- 自动化设计
方向 C:训练算法创新
- 基于力学的算法
- 收敛性保证
- 实际性能
九、总结
学习力学 (Learning Mechanics) 是 2026 年提出的深度学习科学理论框架,标志着深度学习理论进入物理学范式。
5 大支柱:
- 理想化可解设定:简化模型作为研究工具
- 可处理极限:通过极限让问题可解
- 数学定律:类似物理的简洁公式
- 超参数理论:理论指导超参数
- 普遍行为:跨模型、跨任务共性
关键洞察:
深度学习是物理过程,不是经验炼金术——它有自己的”力学定律”,只是我们刚刚开始发现。
未来方向:
- 三极限同时收敛
- 离散-连续动力学统一
- 跨模态普遍规律
- 神经科学桥接
- AI 安全的理论基础
对工程师:
- 不用死记 tricks,理解为什么
- 用力学原理预测性能
- 用第一性原理设计架构
对研究者:
- 寻找新的”力学定律”
- 用数学严格化
- 用实验验证
对学生:
- 学习现代理论框架
- 跨学科(物理 + 统计 + CS)
- 关注统一视角
学习力学是深度学习走向成熟科学的里程碑。1
参考资料
Footnotes
-
主要参考:Simon, Kunin et al. 2026 “There Will Be a Scientific Theory of Deep Learning” (arXiv:2604.21691, 41 页, 13 位作者)。其他关键工作:Miñoza et al. 2026 “The Hamilton-Jacobi Theory of Deep Learning” (arXiv:2605.28983);Gu 2026 “The Propagation Field” (arXiv:2605.08529);Qi 2026 “Conjugate Learning Theory” (arXiv:2602.16177);Chaintron, Chizat, Maass 2026 “ResNets of All Shapes and Sizes” (arXiv:2603.18168);Ye 2026 “Mathematical Foundations of Deep Learning” (arXiv:2603.18387);Chodron de Courcel 2026 “Gradient descent at Edge of Stability” (arXiv:2606.05326)。早期奠基:Jacot et al. 2018 (NTK)、Cohen et al. 2021 (EoS)、Power et al. 2022 (Grokking)、Papyan et al. 2020 (Neural Collapse)、Belkin et al. 2019 (Double Descent)、Yang 2020 (μP)、Chizat & Bach 2018 (Mean-Field) 等。 ↩ ↩2