学习力学:深度学习的科学理论

引言

2026 年 4 月,一篇 41 页的论文《There Will Be a Scientific Theory of Deep Learning》由 Simon, Kunin 等 13 位顶尖研究者联合发表,正式提出 “Learning Mechanics”(学习力学) 这一新学科

核心论断

深度学习理论正从碎片化的”什么有效”研究转向”为什么有效”的科学——以可证伪、可量化预测的”力学定律”为基础。

论文提出5 大支柱

  1. 理想化可解设定(Idealized solvable settings)
  2. 可处理极限(Treatable limits)
  3. 数学定律(Mathematical laws)
  4. 超参数理论(Hyperparameter theory)
  5. 普遍行为(Universal behavior)

这与 2025-2026 年兴起的”反向传播 = 最小作用量原理”、“训练 = Hamilton-Jacobi 初值问题”、“网络 = 内部传播流形”等物理类比完全一致——标志着深度学习理论进入了物理学范式1


一、深度学习理论的现状与挑战

1.1 现状:经验驱动的”炼金术”

典型研究模式

  • 提出新架构 → 跑实验 → 报告性能提升
  • 调超参数 → 发现新 tricks → 发表
  • 缺乏预测性理论——为什么这个有效?什么时候会失效?

理论现状的局限

  • 统计学习理论(VC 维、PAC):对深度网络过松
  • 优化理论(凸优化):深度网络非凸
  • 神经科学:太复杂,难以直接指导工程

1.2 三个关键问题

深度学习缺乏统一框架来回答:

  1. 为什么这个有效?

    • 为什么 ResNet 训练稳定?→ 不是经验观察
    • 为什么 Attention 比 RNN 长程好?→ 不是简单解释
    • 为什么大模型涌现能力?→ 不是”scale 就行”
  2. 什么时候会失效?

    • 哪些架构在哪些任务失败?
    • 长度泛化的边界在哪里?
    • 分布外泛化的限制?
  3. 如何设计新架构?

    • 不是 trial-and-error
    • 是基于第一性原理的设计

1.3 “科学理论”的标志

一个成熟的科学理论应具备(按物理学标准):

标志描述深度学习是否满足?
公理化几条基本原理出发暂无(只有经验原则)
数学定律类似 的简洁公式部分(如缩放律)
可证伪实验可验证/反驳有一些(如 EoS)
预测能力预测未观察到的现象
统一性解释多个现象碎片化

学习力学 的目标:把深度学习提升到完整科学


二、Learning Mechanics 的 5 大支柱

2.1 支柱 1:理想化可解设定(Idealized Solvable Settings)

核心思想

寻找可解析求解的简化模型,作为研究 DL 的”理想实验”。

2.1.1 线性网络

最简单但有信息量的理想化模型:

可解之处

  • 损失函数显式表达式(二次型)
  • 训练动力学 = 矩阵分解(梯度流 → 平衡态)
  • NTK 极限下的收敛性

关键结果

  • Saxe et al. 2014:线性网络的频域训练动力学
  • 权重矩阵奇异值的单调演化
  • 与深度学习的”特征学习”现象的直接联系
class LinearNetwork(nn.Module):
    """线性网络 - 理想化可解设定"""
    def __init__(self, d_in, d_hidden, d_out, n_layers):
        super().__init__()
        self.layers = nn.ModuleList([
            nn.Linear(d_in if i == 0 else d_hidden, d_hidden if i < n_layers-1 else d_out, bias=False)
            for i in range(n_layers)
        ])
 
    def forward(self, x):
        h = x
        for layer in self.layers:
            h = layer(h)
        return h
 
 
def train_linear_analysis(model, X, Y, n_steps=1000):
    """训练并分析线性网络的奇异值演化"""
    singular_values_history = []
    opt = torch.optim.SGD(model.parameters(), lr=1e-3)
 
    for step in range(n_steps):
        pred = model(X)
        loss = F.mse_loss(pred, Y)
        opt.zero_grad()
        loss.backward()
        opt.step()
 
        if step % 50 == 0:
            # 记录每个权重矩阵的奇异值
            with torch.no_grad():
                sv = [torch.linalg.svdvals(layer.weight)[0].item()
                      for layer in model.layers]
                singular_values_history.append(sv)
 
    return singular_values_history

观察:随训练进行,每层权重矩阵的奇异值向训练目标决定的”理想”值收敛。

2.1.2 无限宽网络(NTK 极限)

宽度 时的极限:

Neural Tangent Kernel (NTK)(Jacot et al. 2018):

  • 无限宽网络等价于核方法
  • 训练动力学由 NTK 决定
  • 收敛性可证明

意义

  • 解释了过参数化的泛化能力
  • 提供了理论保证
  • 但 NTK 模式下无”特征学习”——与实际 DL 有差距

2.1.3 有限深/宽(Mean-Field 极限)

深度 有限但宽度大时的极限:

Mean-Field (Chizat & Bach 2018)

  • 单层宽 → 概率测度演化(PDE)
  • 提供全局收敛性证明
  • 解释”懒惰训练”(lazy training)

有限深宽(最新进展):

  • 三重极限 的同时分析
  • ResNet 2026 三极限收敛性证明
  • 完整刻画训练动力学

2.1.4 其他理想化设定

设定简化内容适用问题
线性注意力softmax → 线性注意力理论分析
标量网络标量而非向量简化数值实验
合成任务已知解的简单任务特征学习研究
单层网络深度 = 1通用逼近性
无限数据经验风险 = 期望优化理论
二分类多类 → 二类几何分析

2.2 支柱 2:可处理极限(Treatable Limits)

核心思想

取各种极限后,模型变得可分析——给出原问题的渐近近似理解。

2.2.1 无限宽度极限

NTK 理论

  • 任何架构的 NTK 可显式计算
  • 给出训练收敛泛化界

Feature Learning 极限(更新):

  • (Yang 2020):无限宽极限下保留特征学习
  • 提供超参数迁移的理论基础

2.2.2 无限深度极限

Neural ODE(Chen et al. 2018):

  • 离散层 → 连续时间
  • 无限深度极限
  • 训练动力学由ODE 决定

2.2.3 无限数据极限

随机梯度下降 (SGD)

  • 经验损失 → 期望损失
  • 训练轨迹 → 随机微分方程 (SDE)
  • 收敛性分析简化

2.2.4 高维极限

随机矩阵理论

  • 权重矩阵
  • 特征值分布 → 连续谱
  • Marchenko-Pastur 定律

应用

  • 注意力矩阵的谱分析
  • 损失景观的高维几何
  • 训练动力学的随机矩阵分析

2.2.5 噪声极限

添加噪声 → 扩散

  • 训练噪声 → 后验分布
  • 噪声尺度 → 泛化界
  • Langevin 动力学

2.2.6 多极限同时

最新进展:多个极限同时分析

工作多极限结论
Chaintron 2026 (ResNets)三极限收敛性
Bordelon 2020 (CNNs), NTK 演化
Yang 2020 () with 特征学习

2.3 支柱 3:数学定律(Mathematical Laws)

核心思想

涌现出简洁、普遍的数学规律,类似物理学的”定律”。

2.3.1 缩放律(Scaling Laws)

Kaplan et al. 2020 经验发现

其中:

  • = 损失
  • = 模型参数
  • = 数据量
  • = 拟合参数

理论解释

  • 来自高维统计(幂律的普遍性)
  • 随机矩阵理论一致
  • 指数 仍待理解

2.3.2 EoS 现象

Edge of Stability(Cohen et al. 2021):

训练时,损失锐度(top Hessian eigenvalue )稳定在 是学习率)

意义

  • 训练非凸优化的普遍现象
  • 解释了”学习率边界”
  • 提供了收敛率的理论

2.3.3 Grokking

Grokking 现象(Power et al. 2022):

模型在训练 loss 接近 0 之后,突然在测试集上泛化

理论

  • 来自”电路形成”的相变
  • 与损失景观的拓扑变化相关
  • 标度律 训练样本数

2.3.4 神经塌缩(Neural Collapse)

Papyan, Han & Donoho 2020

训练到收敛时,类内特征塌缩到类均值,类均值形成单纯形等角紧框架 (Simplex ETF)

意义

  • 解释了最后一层的几何
  • 提供了分类器的理论基础
  • 与 HMAX、INVAR 等神经科学发现一致

2.3.5 双下降 / 良性过拟合

Belkin et al. 2019, Bartlett et al. 2020

泛化误差 vs 模型规模呈”双下降”曲线,插值阈值处有峰值

理论

  • 来自高维随机矩阵理论
  • 核方法的联系
  • 现代深度网络处于”过参数化”区域

2.3.6 特征学习相变

阶段转变(Cui et al. 2024 NeurIPS):

训练过程中,特征学习经历两阶段相变

  1. 位置信息聚集
  2. 语义学习开始

意义

  • 解释 Transformer 训练的”先位置后语义”现象
  • 与损失景观的拓扑变化相关
  • 提供了学习率调度的理论基础

2.4 支柱 4:超参数理论(Hyperparameter Theory)

核心思想

学习率、宽度、深度等超参数不是经验设置,而是有理论最优值

2.4.1 特征学习机制

理论(Yang 2020, Bordelon 2023):

  • 特征学习需要超过某个”懒惰”边界
  • 边界 = 学习率 × 初始化尺度
  • (最大更新参数化)给出特征学习保持

2.4.2 学习率-批大小等比

Smith et al. 2017

理论

  • SGD 噪声尺度
  • 固定噪声 → 固定泛化
  • 提供超参数迁移原则

2.4.3 (最大更新参数化)

Yang 2020

在无限宽极限下,保持特征学习的参数化

具体

  • 学习率 = 宽度)
  • 初始化
  • 残差缩放

意义

  • 5% 的小模型 → 100% 大模型
  • 超参数无需重新调优

2.4.4 谱初始化

Schoenholz et al. 2017

  • 用 NTK 的特征值谱指导初始化
  • 让信号/梯度在所有层保持尺度
  • 解决了深度网络的”梯度消失”

2.4.5 学习率调度

理论进展

  • Warmup:前 步线性增加
  • Cosine: 时 cosine 衰减
  • 理论:与损失景观的”阶段转变”匹配

2.5 支柱 5:普遍行为(Universal Behavior)

核心思想

跨模型、跨任务、跨数据的共性行为

2.5.1 训练动力学的普遍性

实证发现

  • 不同架构(MLP / CNN / Transformer)训练轨迹惊人相似
  • 损失 vs 时间曲线几乎重合(归一化后)
  • 特征学习曲线有共性阶段

2.5.2 缩放律的普遍性

对所有架构

  • (语言)
  • (视觉)

含义

  • 大模型总是更好
  • 但有对数线性的边际收益

2.5.3 涌现能力的相变

Wei et al. 2022

大模型突然获得小模型没有的能力

例子

  • 多步算术
  • 跨语言迁移
  • 工具使用

理论

  • 相变发生在特定规模(不是渐变)
  • 电路形成相关

2.5.4 “学习力学”定律

核心定律(猜想)

深度学习是一个相变系统,经历几个特征性阶段

  1. 懒惰阶段(Lazy phase):输出接近线性函数
  2. 特征学习阶段(Feature learning):权重变化显著
  3. 电路形成阶段(Circuit formation):涌现功能模块
  4. 精炼阶段(Refinement):细节优化

每个阶段有特征时长特征损失


三、相关子领域整合

3.1 反向传播 = 最小作用量原理

Chizat 2026*:

反向传播 = 经典力学的最小作用量原理

具体地:

  • 训练轨迹 = 拉格朗日量的驻点
  • 损失 = 作用量(拉格朗日的时间积分)
  • 梯度下降 = 欧拉-拉格朗日方程的数值求解

引入工具

  • 辛几何(Symplectic geometry):保持能量的优化
  • 诺特定理(Noether’s theorem):训练不变量
  • 路径积分(Path integral):训练的概率分布
  • 守恒律:可证明的训练守恒量

理论意义

  • 深度学习训练本质上是物理过程
  • 可用分析力学的全部工具

3.2 训练 = Hamilton-Jacobi 初值问题

Miñoza et al. 2026

训练神经网络 = 求解Hamilton-Jacobi PDE 初值问题

其中 值函数(最优化目标), 是哈密顿量。

具体应用

  • 梯度流 → 特征线方法
  • SGD 噪声 → 随机 Hamilton-Jacobi
  • 损失景观 → 多值 HJ

与物理学对应

  • 经典力学中,Hamilton-Jacobi 描述粒子运动
  • 深度学习中,描述参数演化
  • 完全同构

3.3 网络 = 内部传播流形

Gu 2026 (Propagation Field)

神经网络应理解为内部传播的几何流形

核心思想

  • 隐藏态 演化 = 流形上的扩散
  • 训练 = 流形的几何形变
  • 损失 = 流形上的距离

理论意义

  • 解释深度的几何意义
  • 解释宽度的信息容量
  • 解释残差连接作为捷径

3.4 凸共轭 = 训练动力学

Qi 2026 (Conjugate Learning Theory)

凸共轭对偶统一刻画训练的可训练性和泛化

核心思想

  • 损失 → 凸共轭
  • 训练动力学 = 凸共轭域内的梯度流
  • 泛化界 = 凸共轭的支撑集大小

理论意义

  • 解释 Edge of Stability
  • 解释 Grokking
  • 提供训练算法的统一视角

3.5 其他子领域

子领域与学习力学的关系
Mechanistic Interpretability提供”电路”——学习力学的微观结构
PAC-Bayes提供泛化界——学习力学的统计保证
信息瓶颈提供特征压缩——学习力学的相变理论
神经科学提供生物类比——学习力学的物理实现
统计力学提供数学工具——学习力学的形式化

四、从经验到科学的研究方法

4.1 假设-预测-验证循环

科学方法

观察 → 假设 → 数学预测 → 实验验证 → 修正假设 → ...

深度学习的应用

  1. 观察:训练现象(EoS、Grokking、双下降)
  2. 假设:背后有”力学定律”
  3. 预测:基于假设预测新现象
  4. 验证:实验检查预测
  5. 修正:迭代优化理论

4.2 多个理想化设定

方法论

  • 不用一个完整理论,而用多个简化模型
  • 每个模型捕捉一个核心现象
  • 综合多个模型得到全面理解

例子

  • 线性网络:理解训练动力学
  • 无限宽网络:理解优化
  • NTK:理解懒惰训练
  • Mean-Field:理解特征学习

4.3 实验与理论协同

关键原则

  • 理论必须可证伪
  • 实验必须可重复
  • 数据必须公开

工具

  • 合成数据集(已知解)
  • 玩具任务(小规模)
  • 缩放实验(系统变化)
  • 消融研究(隔离因素)

4.4 跨学科类比

深度学习 ↔ 物理学

  • 神经元 = 粒子
  • 层 = 时间
  • 反向传播 = 牛顿第二定律
  • 损失 = 势能
  • 优化 = 拉格朗日力学

深度学习 ↔ 统计力学

  • 温度 = 学习率/批大小
  • 熵 = 信息瓶颈
  • 相变 = 阶段转变
  • 序参量 = 特征学习度量

深度学习 ↔ 神经科学

  • 学习 = 突触可塑性
  • 电路 = 神经元集群
  • 记忆 = 海马体
  • 泛化 = 皮层整合

五、与现有理论框架的关系

5.1 统计学习理论

SLT 局限

  • VC 维对深度网络过松
  • PAC 界非紧
  • 不解释特征学习

学习力学的补充

  • 不用 VC 维,用电路大小
  • 不用 PAC 界,用相变条件
  • 不用模型选择,用几何理解

5.2 信息论

IB(信息瓶颈)方法

  • 互信息 vs
  • 解释压缩 vs 预测的权衡

学习力学

  • 视为 IB 的动力学实现
  • 相变 = 互信息的突变
  • 提供优化算法统一视角

5.3 算法理论

PAC-Bayes、压缩界

  • 提供泛化界的算法视角
  • 与学习力学的力学定律互补

算法视角 vs 力学视角

  • 算法:
  • 力学:为什么何时触发学习

5.4 优化理论

凸优化

  • 完备理论,但仅适用凸
  • 深度学习非凸

非凸优化

  • 仍依赖经验方法
  • 学习力学试图提供第一性原理

5.5 微分几何

流形上的优化

  • 自然梯度、黎曼优化
  • 与学习力学的几何视角一致

学习力学

  • 视为微分几何的具体应用
  • 信息几何 = 概率分布的流形
  • 损失景观 = 高维流形

六、开放问题与未来方向

6.1 核心开放问题

  1. 三极限同时收敛

    • , ,
    • Chaintron 2026 在 ResNet 上起步
    • 完整理论待发展
  2. 离散 vs 连续动力学的统一

    • 离散层 vs Neural ODE
    • 何时用哪种模型?
    • 转换条件?
  3. 跨模态的普遍规律

    • 视觉、语言、音频
    • 训练动力学是否相似?
    • 缩放律是否一致?
  4. 特征学习的精确刻画

    • 何时发生?
    • 如何度量?
    • 何时停止?
  5. 电路形成理论

    • Grokking 的相变机制
    • 涌现能力的数学刻画
    • 与生物学可塑性的联系

6.2 未来方向

方向 1:理论预测的实验验证

  • 基于”力学定律”做新预测
  • 用实验验证/反驳
  • 推动理论-实验协同

方向 2:架构设计的第一性原理

  • 不用 trial-and-error
  • 基于”力学”设计
  • 预测新架构的性能

方向 3:训练算法的统一视角

  • Adam、SGD、Muon 等的统一
  • 学习力学给出最优算法
  • 提供收敛率保证

方向 4:神经科学的桥接

  • 深度学习 = 神经网络的”工程版本”
  • 学习力学 ↔ 神经科学的”力学”
  • 相互启发

方向 5:AI 安全的理论基础

  • 涌现能力的预测
  • 分布外泛化的界限
  • 对齐的力学基础

6.3 2026 年值得关注的论文

论文主题链接
Simon et al. 2026Scientific Theory of DLarXiv:2604.21691
Miñoza et al. 2026HJ Theory of DLarXiv:2605.28983
Gu 2026Propagation FieldarXiv:2605.08529
Qi 2026Conjugate LearningarXiv:2602.16177
Chaintron et al. 2026ResNet 三极限arXiv:2603.18168
Ye 2026Math Foundations of DLarXiv:2603.18387
Chodron de Courcel 2026EoS Free EnergyarXiv:2606.05326

七、实践启示

7.1 工程师视角

架构设计

  • 原则:保持特征学习
  • 用 NTK 视角:理解训练开始
  • 用 ODE 视角:理解训练结束
  • 流形视角:理解整个过程

超参数调优

  • 学习率 / 批大小 = 固定比
  • 初始化 = NTK 引导
  • 调度 = 阶段匹配

训练监控

  • 谱演化(Hessian 谱)
  • 损失景观(投影到低维)
  • 训练阶段(识别相变)

7.2 研究者视角

新现象

  • 发现”力学定律”形式
  • 用数学严格化
  • 实验验证

新架构

  • 基于”力学”设计
  • 预测性能
  • 实验验证

新算法

  • 基于”力学”推导
  • 提供收敛性
  • 与已知算法对比

7.3 教育视角

教学顺序

  1. 传统 ML(统计学习)
  2. 深度学习基础(CNN/RNN)
  3. 优化理论(凸/非凸)
  4. 学习力学(统一框架)
  5. 前沿研究

核心教材

  • “Mathematical Foundations of Deep Learning” (Ye 2026)
  • “There Will Be a Scientific Theory of Deep Learning” (Simon 2026)
  • “The Hamilton-Jacobi Theory of Deep Learning” (Miñoza 2026)

八、完整学习路径

8.1 入门路径

第 1 步:经典统计学习

  • VC 维、PAC 学习
  • 正则化、偏差-方差权衡

第 2 步:深度学习基础

  • 反向传播、自动微分
  • CNN、RNN、Transformer
  • 优化器(SGD、Adam)

第 3 步:现代理论

  • NTK 理论
  • 无限宽极限
  • 信息瓶颈

第 4 步:学习力学

  • 5 大支柱
  • 反向传播 = 最小作用量
  • 训练 = Hamilton-Jacobi

8.2 进阶路径

专题 1:缩放律与相变

  • 经验缩放律
  • 双下降
  • Grokking
  • 涌现能力

专题 2:训练动力学

  • EoS 现象
  • 损失景观
  • 谱分析
  • 优化器理论

专题 3:架构理论

  • Transformer = TC⁰
  • 简洁性
  • 表达力界限
  • 新架构设计

专题 4:神经科学

  • 突触可塑性
  • 神经编码
  • 脑启发学习
  • 元学习

8.3 前沿研究

方向 A:力学定律的形式化

  • 寻找”简洁公式”
  • 跨架构普遍性
  • 实验验证

方向 B:架构设计原理

  • 基于力学的设计
  • 性能预测
  • 自动化设计

方向 C:训练算法创新

  • 基于力学的算法
  • 收敛性保证
  • 实际性能

九、总结

学习力学 (Learning Mechanics) 是 2026 年提出的深度学习科学理论框架,标志着深度学习理论进入物理学范式

5 大支柱

  1. 理想化可解设定:简化模型作为研究工具
  2. 可处理极限:通过极限让问题可解
  3. 数学定律:类似物理的简洁公式
  4. 超参数理论:理论指导超参数
  5. 普遍行为:跨模型、跨任务共性

关键洞察

深度学习是物理过程,不是经验炼金术——它有自己的”力学定律”,只是我们刚刚开始发现。

未来方向

  • 三极限同时收敛
  • 离散-连续动力学统一
  • 跨模态普遍规律
  • 神经科学桥接
  • AI 安全的理论基础

对工程师

  • 不用死记 tricks,理解为什么
  • 用力学原理预测性能
  • 用第一性原理设计架构

对研究者

  • 寻找新的”力学定律”
  • 用数学严格化
  • 用实验验证

对学生

  • 学习现代理论框架
  • 跨学科(物理 + 统计 + CS)
  • 关注统一视角

学习力学是深度学习走向成熟科学的里程碑。1


参考资料

Footnotes

  1. 主要参考:Simon, Kunin et al. 2026 “There Will Be a Scientific Theory of Deep Learning” (arXiv:2604.21691, 41 页, 13 位作者)。其他关键工作:Miñoza et al. 2026 “The Hamilton-Jacobi Theory of Deep Learning” (arXiv:2605.28983);Gu 2026 “The Propagation Field” (arXiv:2605.08529);Qi 2026 “Conjugate Learning Theory” (arXiv:2602.16177);Chaintron, Chizat, Maass 2026 “ResNets of All Shapes and Sizes” (arXiv:2603.18168);Ye 2026 “Mathematical Foundations of Deep Learning” (arXiv:2603.18387);Chodron de Courcel 2026 “Gradient descent at Edge of Stability” (arXiv:2606.05326)。早期奠基:Jacot et al. 2018 (NTK)、Cohen et al. 2021 (EoS)、Power et al. 2022 (Grokking)、Papyan et al. 2020 (Neural Collapse)、Belkin et al. 2019 (Double Descent)、Yang 2020 (μP)、Chizat & Bach 2018 (Mean-Field) 等。 2