科学深度学习理论：学习力学框架

1 引言

深度学习以其强大的性能著称，却长期被视为一个「黑箱」——我们能够训练神经网络完成各种超人类水平的任务，却缺乏一个统一的科学框架来解释为什么或如何实现这些目标。传统统计学习理论（如VC维、PAC学习）在解释现代过参数化神经网络的泛化能力时遇到了显著困难：经典理论预言，当参数量远超训练样本数时应该严重过拟合，但实践却展现截然相反的结果。

在arXiv:2604.21691（2026年）中，Simon等人提出了一个振奋人心的论断：科学深度学习理论正在形成。他们认为，这个新兴理论将采取「学习力学」（Learning Mechanics）的形式——类似于物理学中力学研究物体如何在力的作用下运动，学习力学研究神经网络如何在梯度的「推动」下穿越参数空间。

本文将系统性地介绍这一框架的核心理论、五个支柱组成部分，以及与其他理论视角的关系。

2 学习力学的核心论点

2.1 核心主张

学习力学框架的核心主张可以概括为以下三点：

科学理论正在形成：深度学习领域正在涌现出一个能够刻画训练过程、隐藏表示、最终权重和网络性能重要特性的理论
理论具有力学特征：这个新兴理论与物理学中的经典力学、连续介质力学、统计力学和量子力学有着深刻的相似性
学习力学 = 物理学的对应物：正如生物学与物理学互补，机制可解释性（Mechanistic Interpretability）与学习力学将形成一种共生的、互相支撑的关系

2.2 与物理学的类比

学习力学与物理学的类比并非空谈，而是有着深刻的结构性对应：

物理学概念	学习力学对应物	说明
物体在空间中的运动	模型参数在参数空间中的移动	离散更新构成连续轨迹
力	梯度	梯度决定参数移动的方向和速度
场	数据分布、损失景观	介导参数间的「相互作用」
势能极小值（平衡态）	损失函数的局部最小值	系统趋向稳定的构型
粒子间相互作用	参数间的耦合	网络层与层之间的信息传递

正如物理学研究从牛顿力学到统计力学的多尺度描述，学习力学也关注不同粗粒化层级的现象。

2.3 学习力学的七大期望

一个成熟的学习力学理论应当满足以下七个标准：

基础性：从神经网络训练的第一性原理出发推导
数学化：对神经网络的重要特性做出明确、无歧义的定量陈述
可预测性：得到简单、可重复的实证测量的支持
全面性：在单一框架内描述训练过程、隐藏表示和最终权重
直观性：简单、启发性强，能够「去神秘化」深度学习
实用性：作为应用深度学习的科学基础，在工程实践中发挥指导作用
谦逊性：明确标注适用边界，不做超出能力范围的承诺

3 学习力学框架的五大支柱

学习力学框架建立在五条相互关联的研究主线之上，每一条都提供了独特的洞察视角。

3.1 可解理想化设置（Intuition）—— 提供直觉的基石

3.1.1 核心思想

物理学中，谐振子和氢原子等可解模型为理解更广泛的系统提供了关键直觉。同样，深度学习也发现了一系列可解析求解的简化设置，在这些设置中，学习动力学可以被完全捕获，重要量的计算变得简单可行。

这些分析上可处理的基石之所以有用，是因为它们揭示了我们在转向现实深度学习时应该寻找的现象和机制。

3.1.2 线性化的两种途径

数据的线性化：深度线性网络

深度线性网络通过移除神经网络中的所有非线性激活函数得到：

f (x; θ) = W_{L} W_{L - 1} \dots W_{1} x, 其中 θ := {W_{ℓ}}_{ℓ = 1}^{L}

尽管简单，深度线性网络保留了深度学习的许多标志性行为：

鞍点主导的损失景观：Baldi和Hornik（1989）证明全局极小值对应于秩-1矩阵的乘积
动力学中的相变和时域分离：Gissin等（2019）揭示了任务对齐初始化下模式学习的阶段性特征
深度-宽度权衡的直觉：为理解深度网络的信息流提供基础

参数的线性化：神经正切核（NTK）

将非线性网络在初始化点附近进行泰勒展开并截断非线性项，训练可以被约化为核脊回归：

f (x; θ) \approx f (x; θ_{0}) + \nabla_{θ} f (x; θ_{0})^{⊤} \cdot Δ θ

神经正切核定义为：

NTK (x, x^{'}) = \nabla_{θ} f (x; θ)^{⊤} \nabla_{θ} f (x^{'}; θ)

这种分析将网络架构与归纳偏置通过NTK的特征结构联系起来，能够准确预测这些网络在无穷宽度极限下的测试性能。

3.1.3 其他可解模型

模型类型	关键洞察	参考
高斯过程回归	无限宽度网络的贝叶斯推断解释	Neal（1996）
随机矩阵理论	初始化时权重/激活的谱特性	Pennington等（2017）
平均场理论	宽网络动力学的闭式描述	Matthews等（2018）
可分离激活函数	特定架构的精确分析	Kobolev等（2025）

3.2 可处理极限（Fundamental Phenomena）—— 揭示基本学习现象

3.2.1 核心思想

物理学大量使用极限作为简化工具：热力学极限（粒子数趋于无穷）揭示了相变；连续极限将离散系统转化为连续统。学习力学同样通过有洞察力的极限来揭示基本学习行为。

3.2.2 无限宽度极限

无限宽度极限是研究最充分的极限之一。当网络宽度趋于无穷时，许多复杂的非线性动力学变得线性化和可处理。

在无限宽度下，网络输出在参数空间中是线性的：

f (x; θ) n \to \infty f_{0} (x) + \nabla_{θ} f (x; θ_{0})^{⊤} \cdot Δ θ

关键发现包括：

神经网络初始化的平均场理论：权重服从特定的分布，能精确描述激活和梯度的统计特性
梯度方差的有效标度：确保信号在深度网络中流动
Lazy Training与Rich Regime的转变：窄网络和宽网络在学习过程中表现出根本不同的行为

3.2.3 无限深度极限

与宽度对应的是深度极限。在深度趋于无穷时，某些架构展现出有趣的临界行为：

残差网络在深度极限下趋向确定性映射
注意力机制在深度极限下可能表现为简单的投影操作
状态空间模型（SSM）在深度极限下展示连续时间动力学的特征

相关研究见 Mamba 2 SSD理论和 SSM记忆与学习动力学理论。

3.2.4 时域极限与渐进极限

极限类型	研究问题	关键洞察
短时间极限	初始动态	线性化有效，NTK主导
长时间极限	收敛行为	吸引子结构，泛化特性
弱非线性极限	扰动分析	可微扰处理非线性效应
低噪声极限	确定性动态	SGD噪声的关键作用

3.3 简单数学定律（Macroscopic Observables）—— 捕捉重要宏观可观测

3.3.1 核心思想

连续介质力学和统计力学用粗粒化统计量代替追踪每个粒子的运动。学习力学同样发现，许多有意义的宏观统计量可以被简单的经验定律捕获。

3.3.2 神经标度律（Neural Scaling Laws）

深度学习中最著名的宏观规律是标度律——模型性能（测试损失）如何随计算量、数据量和模型规模变化：

L (N) \propto N^{- α} + L_{\infty}

其中 $N$ 是模型参数量， $α$ 是标度指数， $L_{\infty}$ 是不可约损失。

更精确的双参数标度律为：

L (N, D) = L_{\infty} + \frac{A}{N ^{α}} + \frac{B}{D ^{β}}

其中 $D$ 是训练数据量， $α, β$ 是标度指数。

相关深度分析见特征学习机制的标度律和标度律起源理论。

3.3.3 损失景观的锐度与泛化

损失景观的锐度（sharpness）与泛化能力之间存在关联。Kesheson等（2020）提出的Edge of Stability现象表明：

梯度下降在训练早期表现出锐度增加
达到临界锐度后进入稳定边缘区域
最终收敛到具有特定Hessian特征值的解

这一现象与以下文献相关：稳定边缘收敛率、训练动态与稳定边缘。

3.3.4 学习曲线的普遍形式

学习曲线（损失随训练步数的变化）在许多设置中遵循可预测的形式：

L (t) = L_{\infty} + \frac{L _{0} - L _{\infty}}{( 1 + t / T ) ^{α}}

其中 $T$ 是特征时间尺度， $α$ 是衰减指数。

这种现象与以下研究相关：Grokking与学习动力学、去噪得分匹配的标度律。

3.3.5 关键宏观可观测量

宏观可观测量	定义	预测意义
测试损失 $L$	泛化误差的度量	核心性能指标
损失锐度 $λ_{m a x}$	Hessian最大特征值	Edge of Stability
有效参数数 $N_{eff}$	损失景观维数	模型复杂度
特征值谱 $ρ (λ)$	Hessian特征值分布	收敛行为
更新-参数比 $η \cdot ∥\nabla L ∥/∥ θ ∥$	参数变化的相对幅度	训练稳定性

3.4 超参数理论（Disentanglement）—— 解耦训练过程

3.4.1 核心思想

物理系统通常具有多个系统参数（特征尺度、耦合常数等），这些参数以特定方式影响系统行为。学习力学中，超参数（学习率、批量大小、权重衰减等）起着类似作用。

超参数理论的目标是解耦这些超参数与训练过程，留下更简单的有效动力学系统。

3.4.2 学习率的特征标度

学习力学的一个关键发现是：存在特征学习率，超过该值时训练行为发生质变：

η^{*} \propto \frac{1}{d \cdot σ _{init}^{2}}

其中 $d$ 是层宽度， $σ_{init}$ 是初始化标准差。

学习率的影响可以通过等效学习率重新参数化来统一描述：

\eta_{\text{eff}} = \eta \cdot d \quad \text{或} \quad \eta_{\text{eff}} = \frac{\eta}{\text{Var}(\text{激活})}}

相关讨论见：自适应优化器理论、Muon优化器理论。

3.4.3 批量大小的缩放关系

批量大小 $B$ 与学习率 $η$ 之间存在联合缩放关系：

η \propto B^{β} （通常 β \approx 0.5 ）

这使得在不同批量大小下的训练可以被统一理解。

关键现象包括：

关键批量大小：超过此值后泛化性能开始下降
噪声标度：SGD噪声协方差与批量大小成反比
有效学习率： $g = η / B$ 是有意义的组合不变量

3.4.4 学习率预热与层-wise归一化

学习率预热解决了训练初期的不稳定性，其有效时长可以通过以下特征时间尺度理解：

T_{warmup} \propto \frac{1}{η \cdot λ _{m a x} ( 0 )}

其中 $λ_{m a x} (0)$ 是初始Hessian的最大特征值。

层-wise自适应优化器的行为可以通过有效学习率矩阵来解耦：

η_{ℓ}^{eff} = η \cdot diag (G_{ℓ})^{- 1}

其中 $G_{ℓ}$ 是层-wise梯度统计量。

相关研究见：归一化与梯度流、MuP参数化的全局收敛性。

3.5 通用行为（Universal Behaviors）—— 跨系统和设置的共同现象

3.5.1 核心思想

物理学充满了普适性的例子：相同的临界指数出现在非常不同的系统中（如铁磁相变和水-油临界点）。深度学习同样展现出跨设置和任务的通用现象。

3.5.2 观察到的通用行为

双下降现象：随着模型规模增大，测试误差先下降、再上升（过拟合）、然后再次下降¹
特征复现：不同任务训练出的网络展现出相似的表示结构
神经网络崩溃（Neural Collapse）：在训练的终端阶段，类内特征趋向于同一向量，类间特征形成对称结构
Grokking现象：验证损失在训练损失已经饱和后很久才突然下降

3.5.3 通用性层级

通用性层级	描述	示例
初始化通用	与任务无关的初始动态	NTK结构、梯度方差
架构通用	跨架构的共同行为	双下降、Edge of Stability
任务通用	不同任务共享的模式	Neural Collapse、表示对齐
规模通用	大规模与小规模模型共同规律	标度律、Grokking

3.5.4 普适类的识别

学习力学正在努力识别普适类——具有相同临界指数或相同渐近行为的系统家族。例如：

标度律普适类：具有相同标度指数的模型家族
动力学普适类：具有相同特征时间尺度的训练动态
表示普适类：共享相似表示结构的模型

4 学习力学的核心特征

4.1 关注训练过程的动态

学习力学不同于传统理论的静态分析，而是将训练过程视为一个随时间演化的动力系统：

\frac{d θ}{d t} = - η \nabla_{θ} L (θ; D)

这种动态视角揭示了：

学习的阶段性特征
吸引子和分岔点
训练过程中表示的演变

相关研究：学习动力学与泛化的统一理论、残差网络作为动力系统理论。

4.2 描述粗粒化聚合统计

学习力学关注的是聚合统计量而非单个参数：

平均场近似：用分布描述权重/激活
谱方法：通过特征值分布理解动力学
粗粒化参数：如有效参数数、损失锐度

这种方法的灵感来自统计力学中的粗粒化策略：用少量宏观变量捕获系统的关键行为，而忽略微观细节。

4.3 强调可证伪的定量预测

学习力学是可实验验证的科学理论：

定量预测：给出具体数值预测（如特定标度指数）
可重复实验：深度学习实验易于设计和复制
明确边界：清楚标注理论的适用范围

5 与其他理论方法的对比

5.1 统计学习理论

统计学习理论（Statistical Learning Theory）关注学习算法的样本复杂度和保证泛化的条件，核心工具包括VC维、Rademacher复杂度和PAC学习框架。

维度	统计学习理论	学习力学
关注点	样本复杂度、最坏情况保证	训练动态、平均行为
分析工具	组合复杂度度量	微分方程、谱分析
预测类型	最坏情况上界	典型行为预测
适用模型	简单模型（线性、核方法）	复杂神经网络
与实践差距	往往过于宽松	常常准确预测

局限性：统计学习理论在解释现代过参数化模型的成功时遇到困难，因为其最坏情况分析无法捕捉到实际中「好的」归纳偏置。

5.2 信息论视角

信息论视角将学习问题重新定义为对数损失下的通用预测问题，通过Fisher信息和regret bound来刻画泛化能力。

详细讨论见：深度学习的信息论框架。

维度	信息论视角	学习力学
核心概念	信息瓶颈、压缩	动力学、相变
分析对象	表示的信息内容	训练轨迹的统计
优势	解释表示学习	解释训练动态
局限性	难以精确预测	难以解释为什么

5.3 机制可解释性（生物学类比）

机制可解释性（Mechanistic Interpretability）旨在「逆向工程」神经网络，理解其电路和算法层面的实现。

详细讨论见：因果抽象：机制可解释性理论基础和电路发现。

核心对比

维度	机制可解释性	学习力学
关注层次	单个神经元、电路	宏观统计、动力学
方法论	干预实验、因果分析	理论推导、数值模拟
目标	理解「如何计算」	理解「为什么能学」
生物学类比	生物学	物理学

共生关系

学习力学与机制可解释性应该形成共生的、互相支撑的关系：

学习力学提供框架：理解哪些电路/结构是「自然出现」的
机制可解释性提供细节：识别具体实现机制
互相验证：力学预测指导电路寻找，电路发现验证力学预测

正如在生物学中，理解细胞机制（生物学）需要物理化学的基础（物理学），理解神经网络机制也需要学习力学的支撑。

5.4 三种视角的统一框架

┌─────────────────────────────────────────────────────────────┐
│                    深度学习理论                               │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   ┌─────────────┐    ┌─────────────┐    ┌─────────────┐    │
│   │  统计学习   │    │   信息论    │    │   学习力学   │    │
│   │   理论      │    │   视角      │    │             │    │
│   │             │    │             │    │             │    │
│   │ 样本复杂度  │    │ Fisher信息  │    │ 训练动力学   │    │
│   │ VC维       │    │ 信息瓶颈    │    │ 标度律      │    │
│   │ PAC保证    │    │ 压缩表示    │    │ 相变临界性  │    │
│   └─────────────┘    └─────────────┘    └─────────────┘    │
│          │                  │                  │          │
│          └──────────────────┼──────────────────┘          │
│                             │                             │
│                    ┌────────┴────────┐                   │
│                    │   机制可解释性    │                   │
│                    │   （实现层）      │                   │
│                    │   电路发现       │                   │
│                    │   特征分析       │                   │
│                    └─────────────────┘                   │
└─────────────────────────────────────────────────────────────┘

6 学习力学的七大期望详解

6.1 基础性（Fundamental）

学习力学应该从第一性原理出发推导。这意味着：

从权重初始化、数据分布、损失函数和优化器的明确定义出发
通过近似和渐近展开逐步简化
不依赖于 ad-hoc 假设

6.2 数学化（Mathematical）

学习力学是数学理论而非定性科学：

预测 : P (性能 > α ∣ 系统参数) > 1 - ϵ

所有陈述都应该是明确、无歧义的定量表述。

6.3 可预测性（Predictive）

学习力学做出可验证的预测：

L (N) = L_{\infty} + A \cdot N^{- α} + O (N^{- α - δ})

预测应该能够被简单、可重复的实验验证。

6.4 全面性（Comprehensive）

学习力学描述训练过程、隐藏表示和最终权重的统一图景：

阶段	关键问题	理论工具
初始化	初始动态由什么决定？	随机矩阵理论
早期训练	Lazy vs Rich regime	NTK理论
中期训练	表示学习何时开始？	协变量迁移
收敛	最终解的结构	损失景观分析

6.5 直观性（Intuitive）

学习力学追求简单洞察而非技术复杂性：

Edge of Stability：一个简单的不等式解释训练动态
标度律：一个幂律解释所有规模化实验
Neural Collapse：几何对称性解释终端态

6.6 实用性（Useful）

学习力学应该指导实践：

减少超参数调优：提供学习率等参数的先验选择
指导数据集设计：预测数据量对性能的影响
支撑AI安全：为可解释性和对齐提供理论基础

6.7 谦逊性（Humble）

学习力学应该明确边界：

在小规模、精心设计的场景中可能失效
在分布外任务中可能不适用
承认近似和假设的适用范围

7 开放研究方向

7.1 预测标度律的起源

尽管标度律在经验上已被充分验证，但其第一性原理推导仍是一个开放问题。关键问题包括：

为什么性能遵循幂律而非对数或其他函数？
标度指数由什么决定？
如何预测特定任务的标度指数？

7.2 理解Grokking

Grokking——验证准确率在训练损失饱和后很久才突然提升——的机制尚未完全理解。开放问题：

什么决定了grokking发生的时间？
为什么某些任务发生grokking而其他任务不发生？
如何利用grokking现象？

详细讨论见：从第一性原理解析Grokking。

7.3 消除超参数

学习力学的一个目标是从第一性原理推导超参数的缩放关系，减少试错：

学习率与批量大小的精确关系
权重衰减与正则化的理论基础
学习率预热的必要性条件

7.4 表示的统一理论

深度学习中的表示学习缺乏统一理论。开放问题：

不同任务为何产生相似表示结构？
如何量化表示的「好」？
表示学习与泛化能力的精确关系？

7.5 理解数据分布的作用

学习力学目前对数据分布的处理相对简化。重要问题：

如何从数据分布的性质预测学习动态？
合成数据与真实数据的本质区别？
课程学习为何有效？

7.6 超越极限的理论

当前理论依赖各种极限（无限宽度、无限深度等）。关键挑战：

精确宽度/深度修正的系统理论
有限尺寸效应的定量预测
从极限到现实的插值方法

7.7 架构设计原理

学习力学应该指导架构选择：

为什么Transformer在规模化时优于其他架构？
状态空间模型的优势来源？
新架构设计的第一性原理指导？

7.8 与机制可解释性的整合

学习力学与机制可解释性的深度整合：

力学预测指导电路发现
电路发现验证力学理论
统一的表示语言

7.9 超越反向传播

当前学习力学主要研究梯度下降。开放方向：

其他优化器（Adam、Muon等）的动力学理论
生物学上更合理的学习规则
无梯度优化

7.10 AI安全中的应用

学习力学可能对AI安全有重要贡献：

识别危险能力的涌现条件
理解模型内部表示的可控性
预测大规模模型的意外行为

8 总结与展望

科学深度学习理论正在以「学习力学」的形式兴起。这一框架融合了：

可解理想化设置：提供直觉和概念框架
可处理极限：揭示基本学习现象
简单数学定律：捕获重要宏观可观测
超参数理论：解耦训练过程
通用行为：识别跨设置的共同规律

学习力学与物理学有着深刻的结构对应：

学习 = 物体运动
梯度 = 力
损失景观 = 势能面
机制可解释性 = 生物学

科学意义：理解深度学习可能揭示智能的一般原则，对神经科学和认知科学产生深远影响。

实践意义：成熟的理论将指导模型设计、优化和部署，从试错走向原理驱动。

安全意义：清晰的理论框架为AI治理和可靠性提供科学基础。

正如热力学在理解蒸汽机之后才真正起飞，学习力学可能在理解深度学习之后，开启人工智能的新纪元。

Metaphor

探索

科学深度学习理论：学习力学框架

科学深度学习理论：学习力学框架

1 引言

2 学习力学的核心论点

2.1 核心主张

2.2 与物理学的类比

2.3 学习力学的七大期望

3 学习力学框架的五大支柱

3.1 可解理想化设置（Intuition）—— 提供直觉的基石

3.1.1 核心思想

3.1.2 线性化的两种途径

数据的线性化：深度线性网络

参数的线性化：神经正切核（NTK）

3.1.3 其他可解模型

3.2 可处理极限（Fundamental Phenomena）—— 揭示基本学习现象

3.2.1 核心思想

3.2.2 无限宽度极限

3.2.3 无限深度极限

3.2.4 时域极限与渐进极限

3.3 简单数学定律（Macroscopic Observables）—— 捕捉重要宏观可观测

3.3.1 核心思想

3.3.2 神经标度律（Neural Scaling Laws）

3.3.3 损失景观的锐度与泛化

3.3.4 学习曲线的普遍形式

3.3.5 关键宏观可观测量

3.4 超参数理论（Disentanglement）—— 解耦训练过程

3.4.1 核心思想

3.4.2 学习率的特征标度

3.4.3 批量大小的缩放关系

3.4.4 学习率预热与层-wise归一化

3.5 通用行为（Universal Behaviors）—— 跨系统和设置的共同现象

3.5.1 核心思想

3.5.2 观察到的通用行为

3.5.3 通用性层级

3.5.4 普适类的识别

4 学习力学的核心特征

4.1 关注训练过程的动态

4.2 描述粗粒化聚合统计

4.3 强调可证伪的定量预测

5 与其他理论方法的对比

5.1 统计学习理论

5.2 信息论视角

5.3 机制可解释性（生物学类比）

核心对比

共生关系

5.4 三种视角的统一框架

6 学习力学的七大期望详解

6.1 基础性（Fundamental）

6.2 数学化（Mathematical）

6.3 可预测性（Predictive）

6.4 全面性（Comprehensive）

6.5 直观性（Intuitive）

6.6 实用性（Useful）

6.7 谦逊性（Humble）

7 开放研究方向

7.1 预测标度律的起源

7.2 理解Grokking

7.3 消除超参数

7.4 表示的统一理论

7.5 理解数据分布的作用

7.6 超越极限的理论

7.7 架构设计原理

7.8 与机制可解释性的整合

7.9 超越反向传播

7.10 AI安全中的应用

8 总结与展望

参考

延伸阅读

Footnotes

关系图谱

目录

反向链接