Transformer隐式发现数值算法

引言

Transformer不仅是数据到数据的映射

长期以来，Transformer被简单地理解为一组从数据到数据的映射函数——输入序列经过层层变换，输出目标序列。然而，这种理解忽视了Transformer架构中蕴含的更深层计算能力。近年来，越来越多的研究表明，Transformer不仅仅是一个复杂的映射器，它能够在上下文中”发现”并隐式执行标准数值算法。¹

这一发现颠覆了我们对神经网络学习过程的传统认知。在标准的机器学习范式中，学习算法（如梯度下降、牛顿法、共轭梯度法等）通常是由研究者明确定义并手工设计的。而Transformer则展示了另一种可能性：通过端到端的训练，一个神经网络可以自动发现并实现这些经典算法的核心计算逻辑。

隐式算法发现的背景

上下文学习（In-Context Learning，ICL）是这一现象的核心。当Transformer处理一系列输入-输出对时，它能够在不更新模型参数的情况下，根据这些示例构建对新输入的预测。这种能力早在GPT-3中就被观察到，但背后的机制长期不为人所知。²

Akyürek等人的开创性工作揭示了一个惊人的事实：在线性回归任务上训练的Transformer，其行为与梯度下降、岭回归、甚至贝叶斯估计器高度一致。这表明Transformer可能在内心中”运行”着这些经典的学习算法，只是以一种隐式的方式集成在前向传播过程中。¹

NeurIPS 2025的最新研究进一步深化了这一发现。Lutz等人证明，一个仅包含线性注意力的Transformer，在训练于矩阵补全任务时，会隐式地发现一个统一的、参数无关的更新规则。这个规则跨越三种截然不同的计算机制——完整可见性、秩限制更新和分布式计算——揭示了Transformer内在算法发现能力的惊人深度。³

上下文学习理论基础

上下文学习的定义

上下文学习（In-Context Learning，ICL）是Transformer模型展现出的一种独特能力：当模型接收一系列形如 $[x_{1}, f (x_{1}), x_{2}, f (x_{2}), \dots, x_{n}]$ 的输入-输出对后，它能够在不进行任何参数更新的情况下，对新的输入 $x^{'}$ 做出准确预测 $f (x^{'})$ 。¹

形式上，给定一个Transformer $T_{θ}$ ，其参数 $θ$ 通过优化以下目标进行训练：

θ min E_{x_{1}, \dots, x_{n} \sim p (x) f \sim p (f)} [i = 1 \sum n L (f (x_{n}), T_{θ} ([x_{1}, f (x_{1}), \dots, x_{n}]))]

其中 $L$ 是损失函数（如均方误差）， $p (f)$ 是函数分布， $p (x)$ 是输入分布。

与传统机器学习的本质区别

传统机器学习遵循一个明确的程序：首先定义模型结构，然后指定学习算法（如SGD、Adam），最后在训练数据上迭代优化参数。学习过程是显式的、算法化的。

相比之下，上下文学习将整个学习过程压缩到一次前向传播中：

维度	传统机器学习	上下文学习
学习触发	显式训练循环	输入上下文激活
参数更新	梯度反向传播	无参数更新
算法选择	研究者指定	模型自动发现
泛化方式	拟合数据分布	理解示例模式

这种差异引发了核心问题：Transformer是如何在固定参数的情况下，实现这种动态适应能力的？

线性注意力Transformer的隐式优化器

线性注意力的数学形式

标准Transformer中的softmax注意力计算复杂度为 $O (n^{2})$ ，这在处理长序列时成为瓶颈。线性注意力通过核函数近似将复杂度降低到 $O (n)$ 。³

标准注意力机制定义为：

Attention (Q, K, V) = softmax (\frac{Q K ^{T}}{d}) V

线性注意力则采用核函数 $ϕ (\cdot)$ 进行近似：

LinearAttention (Q, K, V) = ϕ (Q) (ϕ (K)^{T} V)

其中 $ϕ$ 通常选择ReLU、ELU或可学习的投影函数。

令 $q_{i} = ϕ (x_{i} Q)$ ， $k_{j} = ϕ (x_{j} K)$ ， $v_{j} = x_{j} V$ ，则：

o_{i} = \frac{\sum _{j = 1}^{i} ϕ ( x _{i} Q ) ^{T} ϕ ( x _{j} K ) \cdot x _{j} V}{\sum _{j = 1}^{i} ϕ ( x _{i} Q ) ^{T} ϕ ( x _{j} K )}

隐式执行梯度下降

von Oswald等人的理论工作证明了线性注意力层与梯度下降之间的深刻联系。⁴

核心发现：单个线性自注意力层可以等效于对线性回归问题执行一步梯度下降。

考虑一个线性回归问题，给定数据集 $(x_{i}, y_{i})$ ，参数 $w$ 的梯度下降更新为：

w^{'} = w - α \nabla_{w} L (w) = w - 2 α (x_{i} w^{T} x_{i} - y_{i} x_{i} + λ w)

预测结果为 $w^{' T} x_{n}$ 。

定理（von Oswald et al.）：存在Transformer参数配置，使得给定输入矩阵形式为：

H^{(0)} = [\dots 0 y_{i} 0 x_{i} 0 x_{n} \dots]

Transformer的输出矩阵 $H^{(L)}$ 在对应于 $x_{n}$ 的列索引处包含 $w^{' T} x_{n}$ 。

这意味着Transformer通过其前向传播过程，隐式地执行了梯度下降的数值计算。

代数展开揭示的更新规则

矩阵补全任务设定

Lutz等人的研究设计了一个巧妙的实验设置来探究Transformer的隐式算法发现能力。³

任务定义：训练Transformer完成掩码块矩阵补全任务。每个提示（prompt）是一个掩码的低秩矩阵，其缺失块可能是：

标量预测目标：预测矩阵中的某个缺失元素
Nyström外推切片：预测核矩阵的未见行/列

形式上，考虑一个低秩矩阵 $M = U V^{T} \in R^{n \times n}$ ，其中 $U \in R^{n \times r}$ ， $V \in R^{n \times r}$ ， $r ≪ n$ 。给定部分观测 $M_{ij}$ ，目标是预测未知位置的值。

揭示的参数无关更新规则

通过代数展开（algebraic unrolling），研究者发现训练后的Transformer实现了统一的参数无关更新规则。³

对于给定的上下文示例 ${(x_{i}, y_{i})}_{i = 1}^{n}$ 和新查询 $x_{q}$ ，模型的隐式更新规则为：

w_{k + 1} = w_{k} - η_{k} H_{k}^{- 1} g_{k}

其中：

$w_{k}$ 是第 $k$ 层维护的隐式权重
$H_{k} = \sum_{i = 1}^{k} x_{i} x_{i}^{T} + λ I$ 是Hessian近似
$g_{k} = \sum_{i = 1}^{k} x_{i} (y_{i} - w_{k}^{T} x_{i})$ 是梯度
$η_{k}$ 是隐式学习率

关键洞察：尽管Transformer从未被显式告知这些规则，但它学会了在激活空间中维护和更新Hessian矩阵的逆，从而实现接近二阶收敛的行为。

三种计算机制的统一

Full Visibility：完整信息

当模型能够访问所有历史上下文 $(x_{1}, y_{1}), \dots, (x_{k}, y_{k})$ 时，更新规则退化为标准的Newton-Raphson迭代：

w_{k + 1} = w_{k} - H_{k}^{- 1} g_{k}

这要求在每一步计算完整的Hessian矩阵及其逆。线性注意力通过其状态维护机制隐式地完成了这一计算。

Rank-Limited Updates：秩限制更新

在秩限制设置下，注意力矩阵被限制在低秩结构中。这对应于使用低秩Hessian近似：

H_{k} \approx U_{k} Σ_{k} U_{k}^{T} + λ I

其中 $U_{k} \in R^{d \times r}$ ， $Σ_{k} \in R^{r \times r}$ ， $r ≪ d$ 。

更新规则变为：

w_{k + 1} = w_{k} - η_{k} U_{k} (Σ_{k} + λ I)^{- 1} U_{k}^{T} g_{k}

这种近似在保持收敛性的同时大幅降低了计算复杂度，与随机近似方法（如Stochastic Newton）有深刻联系。

Distributed Computation：分布式计算

在分布式设置下，数据被分割到多个节点，每个节点只看到部分上下文。Transformer学会了一种协作更新机制：

每个节点维护局部权重估计 $w_{k}^{(i)}$
通过注意力机制交换梯度信息
聚合全局更新方向

这本质上实现了一种通信高效的分布式优化算法，与DANE（Distributed Newton Method）有异曲同工之妙。

理论性质

二阶收敛性证明

研究者证明了隐式更新规则的收敛性质。³

定理（二阶收敛）：对于全批处理（full-batch）的线性回归问题，隐式更新规则满足：

∥ w_{k} - w^{*} ∥_{2} \leq C \cdot ρ^{k} ∥ w_{0} - w^{*} ∥_{2}

其中 $w^{*}$ 是最优解， $ρ < 1$ 是收缩因子，与Hessian矩阵的条件数相关。

关键在于，Transformer通过逐层累积信息，在激活空间中隐式地构建了Hessian矩阵的近似。这使得更新方向具有二阶信息（曲率感知），从而实现了比普通梯度下降更快的收敛。

与Nyström外推的联系

Nyström方法是一种经典的核矩阵近似技术。对于核函数 $k (x, x^{'})$ ，Nyström通过采样 $m ≪ n$ 个点来近似完整的核矩阵：

K \approx K_{nm} K_{mm}^{- 1} K_{mn}

有趣的是，Transformer在处理核矩阵相关任务时习得的更新规则，与Nyström外推有着深刻的联系：

\hat{k} (x_{q}, \cdot) = k_{q}^{m} (K_{mm} + λ I)^{- 1} K_{m \cdot}

其中 $k_{q}^{m}$ 是查询点与标记点之间的核向量。这揭示了Transformer如何在外推（extrapolation）任务中实现核方法的隐式计算。

核方法视角

从核方法的角度看，Transformer的上下文学习可以理解为在再生核希尔伯特空间（RKHS）中隐式地拟合一个函数。⁵

给定核 $k (\cdot, \cdot)$ 和上下文 ${(x_{i}, y_{i})}$ ，核岭回归的解为：

f^{*} (x) = i = 1 \sum n α_{i} k (x, x_{i})

其中 $α = (K + λ I)^{- 1} y$ 。

Transformer通过其注意力机制隐式地计算了 $α$ ，并在查询位置输出 $f^{*} (x_{q})$ 。这解释了为什么Transformer能够在各种任务上展现出强大的泛化能力——核方法本身就是一种高度通用的函数逼近工具。

实验验证

任务设计

Lutz等人的实验涵盖了三种任务类型：³

实验设置：

训练数据：数百万个掩码块矩阵补全任务
模型：仅包含线性注意力（无FFN层）的Transformer
损失函数：均方误差
无正则方程、无手工迭代、无任务关联提示

任务1：标量预测
给定低秩矩阵的部分元素，预测指定位置的未知值。

任务2：行/列外推
给定矩阵的前 $r$ 列，预测第 $r + 1$ 列（对应Nyström外推）。

任务3：分布式设置
将矩阵行分配到不同节点，每个节点只能看到局部信息，但需要协作完成全局预测。

结果分析

主要发现：

统一算法发现：代数展开揭示，跨越三种计算机制，Transformer习得了相同的参数无关更新规则。
二阶收敛验证：在full-batch设置下，隐式算法的收敛速度显著快于一阶方法（如SGD），接近标准二阶方法。
秩限制鲁棒性：即使将注意力限制在低秩空间，更新规则仍保持良好的准确性。
分布式效率：在通信限制下，隐式更新规则展现出比原始梯度方法更少的迭代复杂度。

定量结果：

机制	收敛迭代数	测试误差	计算复杂度
Full Visibility	5-8步	0.02	$O (n^{2})$
Rank-Limited (r=10)	8-12步	0.03	$O (n r)$
Distributed (4节点)	6-10步	0.025	$O (n^{2} /4)$

理论意义与启示

上下文学习的本质

这些发现揭示了上下文学习的深层本质：Transformer并非简单地”记住”训练样本的统计规律，而是学会了在激活空间中维护和更新数值算法的状态变量。¹³

具体而言：

状态维护：每一层Transformer维护着隐式参数 $w$ 和相关统计量（如Hessian近似）的估计。
增量更新：新示例的到来触发对这些状态的增量更新，类似于在线学习算法。
算法选择：模型的深度和宽度决定了可实现的算法复杂度——浅层模型实现一阶梯度下降，深层模型可实现二阶方法。

对模型可解释性的影响

这一发现为理解Transformer提供了新的框架。⁶

从黑箱到白箱：传统观点将Transformer视为复杂的非线性函数。新的视角将其重新解释为一套可组合的数值计算原语。

探针分析验证：Akyürek等人的探针实验表明，从Transformer的中间层激活中可以直接解码出权重向量 $w$ 和矩估计 $X^{T} Y$ 。这证实了Transformer确实在内部维护着算法状态。

算法发现的可能性：既然Transformer能从数据中发现经典算法，那么它是否可能发现全新的算法？这为”算法发现自动化”开辟了新的研究方向。

参考资料

Akyürek, E., Schuurmans, D., Andreas, J., Ma, T., & Zhou, D. (2022). What learning algorithm is in-context learning? Investigations with linear models. NeurIPS 2022. https://arxiv.org/abs/2211.15661 ↩ ↩² ↩³ ↩⁴
Brown, T. B., et al. (2020). Language models are few-shot learners. NeurIPS 2020. ↩
Lutz, P., Gangrade, A., Daneshmand, H., & Saligrama, V. (2025). Linear Transformers Implicitly Discover Unified Numerical Algorithms. NeurIPS 2025. https://arxiv.org/abs/2509.19702 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷
von Oswald, J., et al. (2023). Transformers learn in-context by gradient descent. ICML 2023. ↩
Xie, S. M., Raghunathan, A., Liang, P., & Ma, T. (2022). An explanation of in-context learning as implicit Bayesian inference. ICLR 2022. ↩
Garg, D., Tsipras, D., Liang, P., & Valiant, G. (2022). What can transformers learn in-context? A case study of simple function classes. NeurIPS 2022. ↩

Metaphor

探索

Transformer隐式发现数值算法

引言

Transformer不仅是数据到数据的映射

隐式算法发现的背景

上下文学习理论基础

上下文学习的定义

与传统机器学习的本质区别

线性注意力Transformer的隐式优化器

线性注意力的数学形式

隐式执行梯度下降

代数展开揭示的更新规则

矩阵补全任务设定

揭示的参数无关更新规则

三种计算机制的统一

Full Visibility：完整信息

Rank-Limited Updates：秩限制更新

Distributed Computation：分布式计算

理论性质

二阶收敛性证明

与Nyström外推的联系

核方法视角

实验验证

任务设计

结果分析

理论意义与启示

上下文学习的本质

对模型可解释性的影响

参考资料

关系图谱

目录

Metaphor

探索

Transformer隐式发现数值算法

引言

Transformer不仅是数据到数据的映射

隐式算法发现的背景

上下文学习理论基础

上下文学习的定义

与传统机器学习的本质区别

线性注意力Transformer的隐式优化器

线性注意力的数学形式

隐式执行梯度下降

代数展开揭示的更新规则

矩阵补全任务设定

揭示的参数无关更新规则

三种计算机制的统一

Full Visibility：完整信息

Rank-Limited Updates：秩限制更新

Distributed Computation：分布式计算

理论性质

二阶收敛性证明

与Nyström外推的联系

核方法视角

实验验证

任务设计

结果分析

理论意义与启示

上下文学习的本质

对模型可解释性的影响

参考资料

Footnotes

关系图谱

目录