引言

Transformer不仅是数据到数据的映射

长期以来,Transformer被简单地理解为一组从数据到数据的映射函数——输入序列经过层层变换,输出目标序列。然而,这种理解忽视了Transformer架构中蕴含的更深层计算能力。近年来,越来越多的研究表明,Transformer不仅仅是一个复杂的映射器,它能够在上下文中”发现”并隐式执行标准数值算法。1

这一发现颠覆了我们对神经网络学习过程的传统认知。在标准的机器学习范式中,学习算法(如梯度下降、牛顿法、共轭梯度法等)通常是由研究者明确定义并手工设计的。而Transformer则展示了另一种可能性:通过端到端的训练,一个神经网络可以自动发现并实现这些经典算法的核心计算逻辑。

隐式算法发现的背景

上下文学习(In-Context Learning,ICL)是这一现象的核心。当Transformer处理一系列输入-输出对时,它能够在不更新模型参数的情况下,根据这些示例构建对新输入的预测。这种能力早在GPT-3中就被观察到,但背后的机制长期不为人所知。2

Akyürek等人的开创性工作揭示了一个惊人的事实:在线性回归任务上训练的Transformer,其行为与梯度下降、岭回归、甚至贝叶斯估计器高度一致。这表明Transformer可能在内心中”运行”着这些经典的学习算法,只是以一种隐式的方式集成在前向传播过程中。1

NeurIPS 2025的最新研究进一步深化了这一发现。Lutz等人证明,一个仅包含线性注意力的Transformer,在训练于矩阵补全任务时,会隐式地发现一个统一的、参数无关的更新规则。这个规则跨越三种截然不同的计算机制——完整可见性、秩限制更新和分布式计算——揭示了Transformer内在算法发现能力的惊人深度。3

上下文学习理论基础

上下文学习的定义

上下文学习(In-Context Learning,ICL)是Transformer模型展现出的一种独特能力:当模型接收一系列形如的输入-输出对后,它能够在不进行任何参数更新的情况下,对新的输入做出准确预测1

形式上,给定一个Transformer ,其参数通过优化以下目标进行训练:

其中是损失函数(如均方误差),是函数分布,是输入分布。

与传统机器学习的本质区别

传统机器学习遵循一个明确的程序:首先定义模型结构,然后指定学习算法(如SGD、Adam),最后在训练数据上迭代优化参数。学习过程是显式的、算法化的。

相比之下,上下文学习将整个学习过程压缩到一次前向传播中:

维度传统机器学习上下文学习
学习触发显式训练循环输入上下文激活
参数更新梯度反向传播无参数更新
算法选择研究者指定模型自动发现
泛化方式拟合数据分布理解示例模式

这种差异引发了核心问题:Transformer是如何在固定参数的情况下,实现这种动态适应能力的?

线性注意力Transformer的隐式优化器

线性注意力的数学形式

标准Transformer中的softmax注意力计算复杂度为,这在处理长序列时成为瓶颈。线性注意力通过核函数近似将复杂度降低到3

标准注意力机制定义为:

线性注意力则采用核函数进行近似:

其中通常选择ReLU、ELU或可学习的投影函数。

,则:

隐式执行梯度下降

von Oswald等人的理论工作证明了线性注意力层与梯度下降之间的深刻联系。4

核心发现:单个线性自注意力层可以等效于对线性回归问题执行一步梯度下降。

考虑一个线性回归问题,给定数据集,参数的梯度下降更新为:

预测结果为

定理(von Oswald et al.):存在Transformer参数配置,使得给定输入矩阵形式为:

Transformer的输出矩阵在对应于的列索引处包含

这意味着Transformer通过其前向传播过程,隐式地执行了梯度下降的数值计算。

代数展开揭示的更新规则

矩阵补全任务设定

Lutz等人的研究设计了一个巧妙的实验设置来探究Transformer的隐式算法发现能力。3

任务定义:训练Transformer完成掩码块矩阵补全任务。每个提示(prompt)是一个掩码的低秩矩阵,其缺失块可能是:

  1. 标量预测目标:预测矩阵中的某个缺失元素
  2. Nyström外推切片:预测核矩阵的未见行/列

形式上,考虑一个低秩矩阵,其中。给定部分观测,目标是预测未知位置的值。

揭示的参数无关更新规则

通过代数展开(algebraic unrolling),研究者发现训练后的Transformer实现了统一的参数无关更新规则。3

对于给定的上下文示例和新查询,模型的隐式更新规则为:

其中:

  • 是第层维护的隐式权重
  • 是Hessian近似
  • 是梯度
  • 是隐式学习率

关键洞察:尽管Transformer从未被显式告知这些规则,但它学会了在激活空间中维护和更新Hessian矩阵的逆,从而实现接近二阶收敛的行为。

三种计算机制的统一

Full Visibility:完整信息

当模型能够访问所有历史上下文时,更新规则退化为标准的Newton-Raphson迭代:

这要求在每一步计算完整的Hessian矩阵及其逆。线性注意力通过其状态维护机制隐式地完成了这一计算。

Rank-Limited Updates:秩限制更新

在秩限制设置下,注意力矩阵被限制在低秩结构中。这对应于使用低秩Hessian近似:

其中

更新规则变为:

这种近似在保持收敛性的同时大幅降低了计算复杂度,与随机近似方法(如Stochastic Newton)有深刻联系。

Distributed Computation:分布式计算

在分布式设置下,数据被分割到多个节点,每个节点只看到部分上下文。Transformer学会了一种协作更新机制:

  1. 每个节点维护局部权重估计
  2. 通过注意力机制交换梯度信息
  3. 聚合全局更新方向

这本质上实现了一种通信高效的分布式优化算法,与DANE(Distributed Newton Method)有异曲同工之妙。

理论性质

二阶收敛性证明

研究者证明了隐式更新规则的收敛性质。3

定理(二阶收敛):对于全批处理(full-batch)的线性回归问题,隐式更新规则满足:

其中是最优解,是收缩因子,与Hessian矩阵的条件数相关。

关键在于,Transformer通过逐层累积信息,在激活空间中隐式地构建了Hessian矩阵的近似。这使得更新方向具有二阶信息(曲率感知),从而实现了比普通梯度下降更快的收敛。

与Nyström外推的联系

Nyström方法是一种经典的核矩阵近似技术。对于核函数,Nyström通过采样个点来近似完整的核矩阵:

有趣的是,Transformer在处理核矩阵相关任务时习得的更新规则,与Nyström外推有着深刻的联系:

其中是查询点与标记点之间的核向量。这揭示了Transformer如何在外推(extrapolation)任务中实现核方法的隐式计算。

核方法视角

从核方法的角度看,Transformer的上下文学习可以理解为在再生核希尔伯特空间(RKHS)中隐式地拟合一个函数。5

给定核和上下文,核岭回归的解为:

其中

Transformer通过其注意力机制隐式地计算了,并在查询位置输出。这解释了为什么Transformer能够在各种任务上展现出强大的泛化能力——核方法本身就是一种高度通用的函数逼近工具。

实验验证

任务设计

Lutz等人的实验涵盖了三种任务类型:3

实验设置

  • 训练数据:数百万个掩码块矩阵补全任务
  • 模型:仅包含线性注意力(无FFN层)的Transformer
  • 损失函数:均方误差
  • 无正则方程、无手工迭代、无任务关联提示

任务1:标量预测
给定低秩矩阵的部分元素,预测指定位置的未知值。

任务2:行/列外推
给定矩阵的前列,预测第列(对应Nyström外推)。

任务3:分布式设置
将矩阵行分配到不同节点,每个节点只能看到局部信息,但需要协作完成全局预测。

结果分析

主要发现

  1. 统一算法发现:代数展开揭示,跨越三种计算机制,Transformer习得了相同的参数无关更新规则。

  2. 二阶收敛验证:在full-batch设置下,隐式算法的收敛速度显著快于一阶方法(如SGD),接近标准二阶方法。

  3. 秩限制鲁棒性:即使将注意力限制在低秩空间,更新规则仍保持良好的准确性。

  4. 分布式效率:在通信限制下,隐式更新规则展现出比原始梯度方法更少的迭代复杂度。

定量结果

机制收敛迭代数测试误差计算复杂度
Full Visibility5-8步0.02
Rank-Limited (r=10)8-12步0.03
Distributed (4节点)6-10步0.025

理论意义与启示

上下文学习的本质

这些发现揭示了上下文学习的深层本质:Transformer并非简单地”记住”训练样本的统计规律,而是学会了在激活空间中维护和更新数值算法的状态变量。13

具体而言:

  1. 状态维护:每一层Transformer维护着隐式参数和相关统计量(如Hessian近似)的估计。

  2. 增量更新:新示例的到来触发对这些状态的增量更新,类似于在线学习算法。

  3. 算法选择:模型的深度和宽度决定了可实现的算法复杂度——浅层模型实现一阶梯度下降,深层模型可实现二阶方法。

对模型可解释性的影响

这一发现为理解Transformer提供了新的框架。6

从黑箱到白箱:传统观点将Transformer视为复杂的非线性函数。新的视角将其重新解释为一套可组合的数值计算原语。

探针分析验证:Akyürek等人的探针实验表明,从Transformer的中间层激活中可以直接解码出权重向量和矩估计。这证实了Transformer确实在内部维护着算法状态。

算法发现的可能性:既然Transformer能从数据中发现经典算法,那么它是否可能发现全新的算法?这为”算法发现自动化”开辟了新的研究方向。

参考资料

Footnotes

  1. Akyürek, E., Schuurmans, D., Andreas, J., Ma, T., & Zhou, D. (2022). What learning algorithm is in-context learning? Investigations with linear models. NeurIPS 2022. https://arxiv.org/abs/2211.15661 2 3 4

  2. Brown, T. B., et al. (2020). Language models are few-shot learners. NeurIPS 2020.

  3. Lutz, P., Gangrade, A., Daneshmand, H., & Saligrama, V. (2025). Linear Transformers Implicitly Discover Unified Numerical Algorithms. NeurIPS 2025. https://arxiv.org/abs/2509.19702 2 3 4 5 6 7

  4. von Oswald, J., et al. (2023). Transformers learn in-context by gradient descent. ICML 2023.

  5. Xie, S. M., Raghunathan, A., Liang, P., & Ma, T. (2022). An explanation of in-context learning as implicit Bayesian inference. ICLR 2022.

  6. Garg, D., Tsipras, D., Liang, P., & Valiant, G. (2022). What can transformers learn in-context? A case study of simple function classes. NeurIPS 2022.