学习力学：深度学习的科学理论

引言

2026 年 4 月，一篇 41 页的论文《There Will Be a Scientific Theory of Deep Learning》由 Simon, Kunin 等 13 位顶尖研究者联合发表，正式提出 “Learning Mechanics”（学习力学） 这一新学科。

核心论断：

深度学习理论正从碎片化的”什么有效”研究转向”为什么有效”的科学——以可证伪、可量化预测的”力学定律”为基础。

论文提出5 大支柱：

理想化可解设定（Idealized solvable settings）
可处理极限（Treatable limits）
数学定律（Mathematical laws）
超参数理论（Hyperparameter theory）
普遍行为（Universal behavior）

这与 2025-2026 年兴起的”反向传播 = 最小作用量原理”、“训练 = Hamilton-Jacobi 初值问题”、“网络 = 内部传播流形”等物理类比完全一致——标志着深度学习理论进入了物理学范式。¹

一、深度学习理论的现状与挑战

1.1 现状：经验驱动的”炼金术”

典型研究模式：

提出新架构 → 跑实验 → 报告性能提升
调超参数 → 发现新 tricks → 发表
缺乏预测性理论——为什么这个有效？什么时候会失效？

理论现状的局限：

统计学习理论（VC 维、PAC）：对深度网络过松
优化理论（凸优化）：深度网络非凸
神经科学：太复杂，难以直接指导工程

1.2 三个关键问题

深度学习缺乏统一框架来回答：

为什么这个有效？
- 为什么 ResNet 训练稳定？→ 不是经验观察
- 为什么 Attention 比 RNN 长程好？→ 不是简单解释
- 为什么大模型涌现能力？→ 不是”scale 就行”
什么时候会失效？
- 哪些架构在哪些任务失败？
- 长度泛化的边界在哪里？
- 分布外泛化的限制？
如何设计新架构？
- 不是 trial-and-error
- 是基于第一性原理的设计

1.3 “科学理论”的标志

一个成熟的科学理论应具备（按物理学标准）：

标志	描述	深度学习是否满足？
公理化	几条基本原理出发	暂无（只有经验原则）
数学定律	类似 $F = ma$ 的简洁公式	部分（如缩放律）
可证伪	实验可验证/反驳	有一些（如 EoS）
预测能力	预测未观察到的现象	弱
统一性	解释多个现象	碎片化

学习力学 的目标：把深度学习提升到完整科学。

二、Learning Mechanics 的 5 大支柱

2.1 支柱 1：理想化可解设定（Idealized Solvable Settings）

核心思想：

寻找可解析求解的简化模型，作为研究 DL 的”理想实验”。

2.1.1 线性网络

最简单但有信息量的理想化模型：

h_{l + 1} = W_{l} h_{l} + b_{l}

可解之处：

损失函数显式表达式（二次型）
训练动力学 = 矩阵分解（梯度流 → 平衡态）
NTK 极限下的收敛性

关键结果：

Saxe et al. 2014：线性网络的频域训练动力学
权重矩阵奇异值的单调演化
与深度学习的”特征学习”现象的直接联系

class LinearNetwork(nn.Module):
    """线性网络 - 理想化可解设定"""
    def __init__(self, d_in, d_hidden, d_out, n_layers):
        super().__init__()
        self.layers = nn.ModuleList([
            nn.Linear(d_in if i == 0 else d_hidden, d_hidden if i < n_layers-1 else d_out, bias=False)
            for i in range(n_layers)
        ])
 
    def forward(self, x):
        h = x
        for layer in self.layers:
            h = layer(h)
        return h
 
 
def train_linear_analysis(model, X, Y, n_steps=1000):
    """训练并分析线性网络的奇异值演化"""
    singular_values_history = []
    opt = torch.optim.SGD(model.parameters(), lr=1e-3)
 
    for step in range(n_steps):
        pred = model(X)
        loss = F.mse_loss(pred, Y)
        opt.zero_grad()
        loss.backward()
        opt.step()
 
        if step % 50 == 0:
            # 记录每个权重矩阵的奇异值
            with torch.no_grad():
                sv = [torch.linalg.svdvals(layer.weight)[0].item()
                      for layer in model.layers]
                singular_values_history.append(sv)
 
    return singular_values_history

观察：随训练进行，每层权重矩阵的奇异值向训练目标决定的”理想”值收敛。

2.1.2 无限宽网络（NTK 极限）

宽度 $n \to \infty$ 时的极限：

Θ (x, x^{'}) = n \to \infty lim ⟨ \nabla f (x; θ), \nabla f (x^{'}; θ)⟩

Neural Tangent Kernel (NTK)（Jacot et al. 2018）：

无限宽网络等价于核方法
训练动力学由 NTK 决定
收敛性可证明

意义：

解释了过参数化的泛化能力
提供了理论保证
但 NTK 模式下无”特征学习”——与实际 DL 有差距

2.1.3 有限深/宽（Mean-Field 极限）

深度 $L \to \infty$ 或 $L$ 有限但宽度大时的极限：

Mean-Field (Chizat & Bach 2018)：

单层宽 → 概率测度演化（PDE）
提供全局收敛性证明
解释”懒惰训练”（lazy training）

有限深宽（最新进展）：

三重极限 $L, M, D \to \infty$ 的同时分析
ResNet 2026 三极限收敛性证明
完整刻画训练动力学

2.1.4 其他理想化设定

设定	简化内容	适用问题
线性注意力	softmax → 线性	注意力理论分析
标量网络	标量而非向量	简化数值实验
合成任务	已知解的简单任务	特征学习研究
单层网络	深度 = 1	通用逼近性
无限数据	经验风险 = 期望	优化理论
二分类	多类 → 二类	几何分析

2.2 支柱 2：可处理极限（Treatable Limits）

核心思想：

取各种极限后，模型变得可分析——给出原问题的渐近或近似理解。

2.2.1 无限宽度极限

NTK 理论：

任何架构的 NTK 可显式计算
给出训练收敛和泛化界

Feature Learning 极限（更新）：

$μ P$ (Yang 2020)：无限宽极限下保留特征学习
提供超参数迁移的理论基础

2.2.2 无限深度极限

Neural ODE（Chen et al. 2018）：

\frac{d h ( t )}{d t} = f (h (t), t)

离散层 → 连续时间
无限深度极限
训练动力学由ODE 决定

2.2.3 无限数据极限

随机梯度下降 (SGD)：

经验损失 → 期望损失
训练轨迹 → 随机微分方程 (SDE)
收敛性分析简化

2.2.4 高维极限

随机矩阵理论：

权重矩阵 $W \in R^{n \times n}$ ， $n \to \infty$
特征值分布 → 连续谱
Marchenko-Pastur 定律

应用：

注意力矩阵的谱分析
损失景观的高维几何
训练动力学的随机矩阵分析

2.2.5 噪声极限

添加噪声 → 扩散：

训练噪声 → 后验分布
噪声尺度 → 泛化界
Langevin 动力学

2.2.6 多极限同时

最新进展：多个极限同时分析

工作	多极限	结论
Chaintron 2026 (ResNets)	$L, M, D \to \infty$	三极限收敛性
Bordelon 2020 (CNNs)	$L \to \infty$ , $n \to \infty$	NTK 演化
Yang 2020 ( $μ P$ )	$n \to \infty$ with $μ P$	特征学习

2.3 支柱 3：数学定律（Mathematical Laws）

核心思想：

涌现出简洁、普遍的数学规律，类似物理学的”定律”。

2.3.1 缩放律（Scaling Laws）

Kaplan et al. 2020 经验发现：

L (N, D) = E + \frac{A}{N ^{α}} + \frac{B}{D ^{β}}

其中：

$L$ = 损失
$N$ = 模型参数
$D$ = 数据量
$E, A, B, α, β$ = 拟合参数

理论解释：

来自高维统计（幂律的普遍性）
与随机矩阵理论一致
但指数 $α, β$ 仍待理解

2.3.2 EoS 现象

Edge of Stability（Cohen et al. 2021）：

训练时，损失锐度（top Hessian eigenvalue $λ_{ma x}$ ）稳定在 $2/ η$ （ $η$ 是学习率）

意义：

训练非凸优化的普遍现象
解释了”学习率边界”
提供了收敛率的理论

2.3.3 Grokking

Grokking 现象（Power et al. 2022）：

模型在训练 loss 接近 0 之后，突然在测试集上泛化

理论：

来自”电路形成”的相变
与损失景观的拓扑变化相关
标度律 $\sim$ 训练样本数

2.3.4 神经塌缩（Neural Collapse）

Papyan, Han & Donoho 2020：

训练到收敛时，类内特征塌缩到类均值，类均值形成单纯形等角紧框架 (Simplex ETF)

意义：

解释了最后一层的几何
提供了分类器的理论基础
与 HMAX、INVAR 等神经科学发现一致

2.3.5 双下降 / 良性过拟合

Belkin et al. 2019, Bartlett et al. 2020：

泛化误差 vs 模型规模呈”双下降”曲线，插值阈值处有峰值

理论：

来自高维随机矩阵理论
与核方法的联系
现代深度网络处于”过参数化”区域

2.3.6 特征学习相变

阶段转变（Cui et al. 2024 NeurIPS）：

训练过程中，特征学习经历两阶段相变：

位置信息聚集

语义学习开始

意义：

解释 Transformer 训练的”先位置后语义”现象
与损失景观的拓扑变化相关
提供了学习率调度的理论基础

2.4 支柱 4：超参数理论（Hyperparameter Theory）

核心思想：

学习率、宽度、深度等超参数不是经验设置，而是有理论最优值。

2.4.1 特征学习机制

理论（Yang 2020, Bordelon 2023）：

特征学习需要超过某个”懒惰”边界
边界 = 学习率 × 初始化尺度
$μ P$ （最大更新参数化）给出特征学习保持

2.4.2 学习率-批大小等比

Smith et al. 2017：

η \propto B （在合理范围内）

理论：

SGD 噪声尺度 $\sim η / B$
固定噪声 → 固定泛化
提供超参数迁移原则

2.4.3 $μ P$ （最大更新参数化）

Yang 2020：

在无限宽极限下，保持特征学习的参数化

具体：

学习率 $η \propto 1/ n$ （ $n$ = 宽度）
初始化 $σ \propto 1/ n$
残差缩放 $\propto 1/ L$

意义：

5% 的小模型 → 100% 大模型
超参数无需重新调优

2.4.4 谱初始化

Schoenholz et al. 2017：

用 NTK 的特征值谱指导初始化
让信号/梯度在所有层保持尺度
解决了深度网络的”梯度消失”

2.4.5 学习率调度

理论进展：

Warmup：前 $T_{0}$ 步线性增加
Cosine： $T_{0} \to T_{ma x}$ 时 cosine 衰减
理论：与损失景观的”阶段转变”匹配

2.5 支柱 5：普遍行为（Universal Behavior）

核心思想：

跨模型、跨任务、跨数据的共性行为。

2.5.1 训练动力学的普遍性

实证发现：

不同架构（MLP / CNN / Transformer）训练轨迹惊人相似
损失 vs 时间曲线几乎重合（归一化后）
特征学习曲线有共性阶段

2.5.2 缩放律的普遍性

对所有架构：

$loss \sim N^{- α}$
$α \approx 0.07$ （语言）
$α \approx 0.5$ （视觉）

含义：

大模型总是更好
但有对数线性的边际收益

2.5.3 涌现能力的相变

Wei et al. 2022：

大模型突然获得小模型没有的能力

例子：

多步算术
跨语言迁移
工具使用

理论：

相变发生在特定规模（不是渐变）
与电路形成相关

2.5.4 “学习力学”定律

核心定律（猜想）：

深度学习是一个相变系统，经历几个特征性阶段：

懒惰阶段（Lazy phase）：输出接近线性函数

特征学习阶段（Feature learning）：权重变化显著

电路形成阶段（Circuit formation）：涌现功能模块

精炼阶段（Refinement）：细节优化

每个阶段有特征时长和特征损失。

三、相关子领域整合

3.1 反向传播 = 最小作用量原理

Chizat 2026 等*：

反向传播 = 经典力学的最小作用量原理

具体地：

训练轨迹 = 拉格朗日量的驻点
损失 = 作用量（拉格朗日的时间积分）
梯度下降 = 欧拉-拉格朗日方程的数值求解

引入工具：

辛几何（Symplectic geometry）：保持能量的优化
诺特定理（Noether’s theorem）：训练不变量
路径积分（Path integral）：训练的概率分布
守恒律：可证明的训练守恒量

理论意义：

深度学习训练本质上是物理过程
可用分析力学的全部工具

3.2 训练 = Hamilton-Jacobi 初值问题

Miñoza et al. 2026：

训练神经网络 = 求解Hamilton-Jacobi PDE 初值问题

\partial_{t} u + H (\nabla u, x, t) = 0

其中 $u$ 是值函数（最优化目标）， $H$ 是哈密顿量。

具体应用：

梯度流 → 特征线方法
SGD 噪声 → 随机 Hamilton-Jacobi
损失景观 → 多值 HJ

与物理学对应：

经典力学中，Hamilton-Jacobi 描述粒子运动
深度学习中，描述参数演化
完全同构！

3.3 网络 = 内部传播流形

Gu 2026 (Propagation Field)：

神经网络应理解为内部传播的几何流形

核心思想：

隐藏态 $h_{l}$ 演化 = 流形上的扩散
训练 = 流形的几何形变
损失 = 流形上的距离

理论意义：

解释深度的几何意义
解释宽度的信息容量
解释残差连接作为捷径

3.4 凸共轭 = 训练动力学

Qi 2026 (Conjugate Learning Theory)：

用凸共轭对偶统一刻画训练的可训练性和泛化

核心思想：

损失 $L (θ)$ → 凸共轭 $L^{*} (\nabla L)$
训练动力学 = 凸共轭域内的梯度流
泛化界 = 凸共轭的支撑集大小

理论意义：

解释 Edge of Stability
解释 Grokking
提供训练算法的统一视角

3.5 其他子领域

子领域	与学习力学的关系
Mechanistic Interpretability	提供”电路”——学习力学的微观结构
PAC-Bayes	提供泛化界——学习力学的统计保证
信息瓶颈	提供特征压缩——学习力学的相变理论
神经科学	提供生物类比——学习力学的物理实现
统计力学	提供数学工具——学习力学的形式化

四、从经验到科学的研究方法

4.1 假设-预测-验证循环

科学方法：

观察 → 假设 → 数学预测 → 实验验证 → 修正假设 → ...

深度学习的应用：

观察：训练现象（EoS、Grokking、双下降）
假设：背后有”力学定律”
预测：基于假设预测新现象
验证：实验检查预测
修正：迭代优化理论

4.2 多个理想化设定

方法论：

不用一个完整理论，而用多个简化模型
每个模型捕捉一个核心现象
综合多个模型得到全面理解

例子：

线性网络：理解训练动力学
无限宽网络：理解优化
NTK：理解懒惰训练
Mean-Field：理解特征学习

4.3 实验与理论协同

关键原则：

理论必须可证伪
实验必须可重复
数据必须公开

工具：

合成数据集（已知解）
玩具任务（小规模）
缩放实验（系统变化）
消融研究（隔离因素）

4.4 跨学科类比

深度学习 ↔ 物理学：

神经元 = 粒子
层 = 时间
反向传播 = 牛顿第二定律
损失 = 势能
优化 = 拉格朗日力学

深度学习 ↔ 统计力学：

温度 = 学习率/批大小
熵 = 信息瓶颈
相变 = 阶段转变
序参量 = 特征学习度量

深度学习 ↔ 神经科学：

学习 = 突触可塑性
电路 = 神经元集群
记忆 = 海马体
泛化 = 皮层整合

五、与现有理论框架的关系

5.1 统计学习理论

SLT 局限：

VC 维对深度网络过松
PAC 界非紧
不解释特征学习

学习力学的补充：

不用 VC 维，用电路大小
不用 PAC 界，用相变条件
不用模型选择，用几何理解

5.2 信息论

IB（信息瓶颈）方法：

互信息 $I (X; T)$ vs $I (T; Y)$
解释压缩 vs 预测的权衡

学习力学：

视为 IB 的动力学实现
相变 = 互信息的突变
提供优化算法统一视角

5.3 算法理论

PAC-Bayes、压缩界：

提供泛化界的算法视角
与学习力学的力学定律互补

算法视角 vs 力学视角：

算法： $P (error > ϵ) \leq δ$
力学：为什么、何时触发学习

5.4 优化理论

凸优化：

完备理论，但仅适用凸
深度学习非凸

非凸优化：

仍依赖经验方法
学习力学试图提供第一性原理

5.5 微分几何

流形上的优化：

自然梯度、黎曼优化
与学习力学的几何视角一致

学习力学：

视为微分几何的具体应用
信息几何 = 概率分布的流形
损失景观 = 高维流形

六、开放问题与未来方向

6.1 核心开放问题

三极限同时收敛：
- $L \to \infty$ , $M \to \infty$ , $D \to \infty$
- Chaintron 2026 在 ResNet 上起步
- 完整理论待发展
离散 vs 连续动力学的统一：
- 离散层 vs Neural ODE
- 何时用哪种模型？
- 转换条件？
跨模态的普遍规律：
- 视觉、语言、音频
- 训练动力学是否相似？
- 缩放律是否一致？
特征学习的精确刻画：
- 何时发生？
- 如何度量？
- 何时停止？
电路形成理论：
- Grokking 的相变机制
- 涌现能力的数学刻画
- 与生物学可塑性的联系

6.2 未来方向

方向 1：理论预测的实验验证

基于”力学定律”做新预测
用实验验证/反驳
推动理论-实验协同

方向 2：架构设计的第一性原理

不用 trial-and-error
基于”力学”设计
预测新架构的性能

方向 3：训练算法的统一视角

Adam、SGD、Muon 等的统一
学习力学给出最优算法
提供收敛率保证

方向 4：神经科学的桥接

深度学习 = 神经网络的”工程版本”
学习力学 ↔ 神经科学的”力学”
相互启发

方向 5：AI 安全的理论基础

涌现能力的预测
分布外泛化的界限
对齐的力学基础

6.3 2026 年值得关注的论文

论文	主题	链接
Simon et al. 2026	Scientific Theory of DL	arXiv:2604.21691
Miñoza et al. 2026	HJ Theory of DL	arXiv:2605.28983
Gu 2026	Propagation Field	arXiv:2605.08529
Qi 2026	Conjugate Learning	arXiv:2602.16177
Chaintron et al. 2026	ResNet 三极限	arXiv:2603.18168
Ye 2026	Math Foundations of DL	arXiv:2603.18387
Chodron de Courcel 2026	EoS Free Energy	arXiv:2606.05326

七、实践启示

7.1 工程师视角

架构设计：

用 $μ P$ 原则：保持特征学习
用 NTK 视角：理解训练开始
用 ODE 视角：理解训练结束
用流形视角：理解整个过程

超参数调优：

学习率 / 批大小 = 固定比
初始化 = NTK 引导
调度 = 阶段匹配

训练监控：

谱演化（Hessian 谱）
损失景观（投影到低维）
训练阶段（识别相变）

7.2 研究者视角

新现象：

发现”力学定律”形式
用数学严格化
实验验证

新架构：

基于”力学”设计
预测性能
实验验证

新算法：

基于”力学”推导
提供收敛性
与已知算法对比

7.3 教育视角

教学顺序：

传统 ML（统计学习）
深度学习基础（CNN/RNN）
优化理论（凸/非凸）
学习力学（统一框架）
前沿研究

核心教材：

“Mathematical Foundations of Deep Learning” (Ye 2026)
“There Will Be a Scientific Theory of Deep Learning” (Simon 2026)
“The Hamilton-Jacobi Theory of Deep Learning” (Miñoza 2026)

八、完整学习路径

8.1 入门路径

第 1 步：经典统计学习

VC 维、PAC 学习
正则化、偏差-方差权衡

第 2 步：深度学习基础

反向传播、自动微分
CNN、RNN、Transformer
优化器（SGD、Adam）

第 3 步：现代理论

NTK 理论
无限宽极限
信息瓶颈

第 4 步：学习力学

5 大支柱
反向传播 = 最小作用量
训练 = Hamilton-Jacobi

8.2 进阶路径

专题 1：缩放律与相变

经验缩放律
双下降
Grokking
涌现能力

专题 2：训练动力学

EoS 现象
损失景观
谱分析
优化器理论

专题 3：架构理论

Transformer = TC⁰
简洁性
表达力界限
新架构设计

专题 4：神经科学

突触可塑性
神经编码
脑启发学习
元学习

8.3 前沿研究

方向 A：力学定律的形式化

寻找”简洁公式”
跨架构普遍性
实验验证

方向 B：架构设计原理

基于力学的设计
性能预测
自动化设计

方向 C：训练算法创新

基于力学的算法
收敛性保证
实际性能

九、总结

学习力学 (Learning Mechanics) 是 2026 年提出的深度学习科学理论框架，标志着深度学习理论进入物理学范式。

5 大支柱：

理想化可解设定：简化模型作为研究工具
可处理极限：通过极限让问题可解
数学定律：类似物理的简洁公式
超参数理论：理论指导超参数
普遍行为：跨模型、跨任务共性

关键洞察：

深度学习是物理过程，不是经验炼金术——它有自己的”力学定律”，只是我们刚刚开始发现。

未来方向：

三极限同时收敛
离散-连续动力学统一
跨模态普遍规律
神经科学桥接
AI 安全的理论基础

对工程师：

不用死记 tricks，理解为什么
用力学原理预测性能
用第一性原理设计架构

对研究者：

寻找新的”力学定律”
用数学严格化
用实验验证

对学生：

学习现代理论框架
跨学科（物理 + 统计 + CS）
关注统一视角

学习力学是深度学习走向成熟科学的里程碑。¹

参考资料

主要参考：Simon, Kunin et al. 2026 “There Will Be a Scientific Theory of Deep Learning” (arXiv:2604.21691, 41 页, 13 位作者)。其他关键工作：Miñoza et al. 2026 “The Hamilton-Jacobi Theory of Deep Learning” (arXiv:2605.28983)；Gu 2026 “The Propagation Field” (arXiv:2605.08529)；Qi 2026 “Conjugate Learning Theory” (arXiv:2602.16177)；Chaintron, Chizat, Maass 2026 “ResNets of All Shapes and Sizes” (arXiv:2603.18168)；Ye 2026 “Mathematical Foundations of Deep Learning” (arXiv:2603.18387)；Chodron de Courcel 2026 “Gradient descent at Edge of Stability” (arXiv:2606.05326)。早期奠基：Jacot et al. 2018 (NTK)、Cohen et al. 2021 (EoS)、Power et al. 2022 (Grokking)、Papyan et al. 2020 (Neural Collapse)、Belkin et al. 2019 (Double Descent)、Yang 2020 (μP)、Chizat & Bach 2018 (Mean-Field) 等。 ↩ ↩²

Metaphor

探索

学习力学：深度学习的科学理论

学习力学：深度学习的科学理论

引言

一、深度学习理论的现状与挑战

1.1 现状：经验驱动的”炼金术”

1.2 三个关键问题

1.3 “科学理论”的标志

二、Learning Mechanics 的 5 大支柱

2.1 支柱 1：理想化可解设定（Idealized Solvable Settings）

2.1.1 线性网络

2.1.2 无限宽网络（NTK 极限）

2.1.3 有限深/宽（Mean-Field 极限）

2.1.4 其他理想化设定

2.2 支柱 2：可处理极限（Treatable Limits）

2.2.1 无限宽度极限

2.2.2 无限深度极限

2.2.3 无限数据极限

2.2.4 高维极限

2.2.5 噪声极限

2.2.6 多极限同时

2.3 支柱 3：数学定律（Mathematical Laws）

2.3.1 缩放律（Scaling Laws）

2.3.2 EoS 现象

2.3.3 Grokking

2.3.4 神经塌缩（Neural Collapse）

2.3.5 双下降 / 良性过拟合

2.3.6 特征学习相变

2.4 支柱 4：超参数理论（Hyperparameter Theory）

2.4.1 特征学习机制

2.4.2 学习率-批大小等比

2.4.3 μP（最大更新参数化）

2.4.4 谱初始化

2.4.5 学习率调度

2.5 支柱 5：普遍行为（Universal Behavior）

2.5.1 训练动力学的普遍性

2.5.2 缩放律的普遍性

2.5.3 涌现能力的相变

2.5.4 “学习力学”定律

三、相关子领域整合

3.1 反向传播 = 最小作用量原理

3.2 训练 = Hamilton-Jacobi 初值问题

3.3 网络 = 内部传播流形

3.4 凸共轭 = 训练动力学

3.5 其他子领域

四、从经验到科学的研究方法

4.1 假设-预测-验证循环

4.2 多个理想化设定

4.3 实验与理论协同

4.4 跨学科类比

五、与现有理论框架的关系

5.1 统计学习理论

5.2 信息论

5.3 算法理论

5.4 优化理论

5.5 微分几何

六、开放问题与未来方向

6.1 核心开放问题

6.2 未来方向

6.3 2026 年值得关注的论文

七、实践启示

7.1 工程师视角

7.2 研究者视角

7.3 教育视角

八、完整学习路径

8.1 入门路径

8.2 进阶路径

8.3 前沿研究

九、总结

参考资料

Footnotes

关系图谱

目录

反向链接

2.4.3 $μ P$ （最大更新参数化）