引言
Transformer不仅是数据到数据的映射
长期以来,Transformer被简单地理解为一组从数据到数据的映射函数——输入序列经过层层变换,输出目标序列。然而,这种理解忽视了Transformer架构中蕴含的更深层计算能力。近年来,越来越多的研究表明,Transformer不仅仅是一个复杂的映射器,它能够在上下文中”发现”并隐式执行标准数值算法。1
这一发现颠覆了我们对神经网络学习过程的传统认知。在标准的机器学习范式中,学习算法(如梯度下降、牛顿法、共轭梯度法等)通常是由研究者明确定义并手工设计的。而Transformer则展示了另一种可能性:通过端到端的训练,一个神经网络可以自动发现并实现这些经典算法的核心计算逻辑。
隐式算法发现的背景
上下文学习(In-Context Learning,ICL)是这一现象的核心。当Transformer处理一系列输入-输出对时,它能够在不更新模型参数的情况下,根据这些示例构建对新输入的预测。这种能力早在GPT-3中就被观察到,但背后的机制长期不为人所知。2
Akyürek等人的开创性工作揭示了一个惊人的事实:在线性回归任务上训练的Transformer,其行为与梯度下降、岭回归、甚至贝叶斯估计器高度一致。这表明Transformer可能在内心中”运行”着这些经典的学习算法,只是以一种隐式的方式集成在前向传播过程中。1
NeurIPS 2025的最新研究进一步深化了这一发现。Lutz等人证明,一个仅包含线性注意力的Transformer,在训练于矩阵补全任务时,会隐式地发现一个统一的、参数无关的更新规则。这个规则跨越三种截然不同的计算机制——完整可见性、秩限制更新和分布式计算——揭示了Transformer内在算法发现能力的惊人深度。3
上下文学习理论基础
上下文学习的定义
上下文学习(In-Context Learning,ICL)是Transformer模型展现出的一种独特能力:当模型接收一系列形如的输入-输出对后,它能够在不进行任何参数更新的情况下,对新的输入做出准确预测。1
形式上,给定一个Transformer ,其参数通过优化以下目标进行训练:
其中是损失函数(如均方误差),是函数分布,是输入分布。
与传统机器学习的本质区别
传统机器学习遵循一个明确的程序:首先定义模型结构,然后指定学习算法(如SGD、Adam),最后在训练数据上迭代优化参数。学习过程是显式的、算法化的。
相比之下,上下文学习将整个学习过程压缩到一次前向传播中:
| 维度 | 传统机器学习 | 上下文学习 |
|---|---|---|
| 学习触发 | 显式训练循环 | 输入上下文激活 |
| 参数更新 | 梯度反向传播 | 无参数更新 |
| 算法选择 | 研究者指定 | 模型自动发现 |
| 泛化方式 | 拟合数据分布 | 理解示例模式 |
这种差异引发了核心问题:Transformer是如何在固定参数的情况下,实现这种动态适应能力的?
线性注意力Transformer的隐式优化器
线性注意力的数学形式
标准Transformer中的softmax注意力计算复杂度为,这在处理长序列时成为瓶颈。线性注意力通过核函数近似将复杂度降低到。3
标准注意力机制定义为:
线性注意力则采用核函数进行近似:
其中通常选择ReLU、ELU或可学习的投影函数。
令,,,则:
隐式执行梯度下降
von Oswald等人的理论工作证明了线性注意力层与梯度下降之间的深刻联系。4
核心发现:单个线性自注意力层可以等效于对线性回归问题执行一步梯度下降。
考虑一个线性回归问题,给定数据集,参数的梯度下降更新为:
预测结果为。
定理(von Oswald et al.):存在Transformer参数配置,使得给定输入矩阵形式为:
Transformer的输出矩阵在对应于的列索引处包含。
这意味着Transformer通过其前向传播过程,隐式地执行了梯度下降的数值计算。
代数展开揭示的更新规则
矩阵补全任务设定
Lutz等人的研究设计了一个巧妙的实验设置来探究Transformer的隐式算法发现能力。3
任务定义:训练Transformer完成掩码块矩阵补全任务。每个提示(prompt)是一个掩码的低秩矩阵,其缺失块可能是:
- 标量预测目标:预测矩阵中的某个缺失元素
- Nyström外推切片:预测核矩阵的未见行/列
形式上,考虑一个低秩矩阵,其中,,。给定部分观测,目标是预测未知位置的值。
揭示的参数无关更新规则
通过代数展开(algebraic unrolling),研究者发现训练后的Transformer实现了统一的参数无关更新规则。3
对于给定的上下文示例和新查询,模型的隐式更新规则为:
其中:
- 是第层维护的隐式权重
- 是Hessian近似
- 是梯度
- 是隐式学习率
关键洞察:尽管Transformer从未被显式告知这些规则,但它学会了在激活空间中维护和更新Hessian矩阵的逆,从而实现接近二阶收敛的行为。
三种计算机制的统一
Full Visibility:完整信息
当模型能够访问所有历史上下文时,更新规则退化为标准的Newton-Raphson迭代:
这要求在每一步计算完整的Hessian矩阵及其逆。线性注意力通过其状态维护机制隐式地完成了这一计算。
Rank-Limited Updates:秩限制更新
在秩限制设置下,注意力矩阵被限制在低秩结构中。这对应于使用低秩Hessian近似:
其中,,。
更新规则变为:
这种近似在保持收敛性的同时大幅降低了计算复杂度,与随机近似方法(如Stochastic Newton)有深刻联系。
Distributed Computation:分布式计算
在分布式设置下,数据被分割到多个节点,每个节点只看到部分上下文。Transformer学会了一种协作更新机制:
- 每个节点维护局部权重估计
- 通过注意力机制交换梯度信息
- 聚合全局更新方向
这本质上实现了一种通信高效的分布式优化算法,与DANE(Distributed Newton Method)有异曲同工之妙。
理论性质
二阶收敛性证明
研究者证明了隐式更新规则的收敛性质。3
定理(二阶收敛):对于全批处理(full-batch)的线性回归问题,隐式更新规则满足:
其中是最优解,是收缩因子,与Hessian矩阵的条件数相关。
关键在于,Transformer通过逐层累积信息,在激活空间中隐式地构建了Hessian矩阵的近似。这使得更新方向具有二阶信息(曲率感知),从而实现了比普通梯度下降更快的收敛。
与Nyström外推的联系
Nyström方法是一种经典的核矩阵近似技术。对于核函数,Nyström通过采样个点来近似完整的核矩阵:
有趣的是,Transformer在处理核矩阵相关任务时习得的更新规则,与Nyström外推有着深刻的联系:
其中是查询点与标记点之间的核向量。这揭示了Transformer如何在外推(extrapolation)任务中实现核方法的隐式计算。
核方法视角
从核方法的角度看,Transformer的上下文学习可以理解为在再生核希尔伯特空间(RKHS)中隐式地拟合一个函数。5
给定核和上下文,核岭回归的解为:
其中。
Transformer通过其注意力机制隐式地计算了,并在查询位置输出。这解释了为什么Transformer能够在各种任务上展现出强大的泛化能力——核方法本身就是一种高度通用的函数逼近工具。
实验验证
任务设计
Lutz等人的实验涵盖了三种任务类型:3
实验设置:
- 训练数据:数百万个掩码块矩阵补全任务
- 模型:仅包含线性注意力(无FFN层)的Transformer
- 损失函数:均方误差
- 无正则方程、无手工迭代、无任务关联提示
任务1:标量预测
给定低秩矩阵的部分元素,预测指定位置的未知值。
任务2:行/列外推
给定矩阵的前列,预测第列(对应Nyström外推)。
任务3:分布式设置
将矩阵行分配到不同节点,每个节点只能看到局部信息,但需要协作完成全局预测。
结果分析
主要发现:
-
统一算法发现:代数展开揭示,跨越三种计算机制,Transformer习得了相同的参数无关更新规则。
-
二阶收敛验证:在full-batch设置下,隐式算法的收敛速度显著快于一阶方法(如SGD),接近标准二阶方法。
-
秩限制鲁棒性:即使将注意力限制在低秩空间,更新规则仍保持良好的准确性。
-
分布式效率:在通信限制下,隐式更新规则展现出比原始梯度方法更少的迭代复杂度。
定量结果:
| 机制 | 收敛迭代数 | 测试误差 | 计算复杂度 |
|---|---|---|---|
| Full Visibility | 5-8步 | 0.02 | |
| Rank-Limited (r=10) | 8-12步 | 0.03 | |
| Distributed (4节点) | 6-10步 | 0.025 |
理论意义与启示
上下文学习的本质
这些发现揭示了上下文学习的深层本质:Transformer并非简单地”记住”训练样本的统计规律,而是学会了在激活空间中维护和更新数值算法的状态变量。13
具体而言:
-
状态维护:每一层Transformer维护着隐式参数和相关统计量(如Hessian近似)的估计。
-
增量更新:新示例的到来触发对这些状态的增量更新,类似于在线学习算法。
-
算法选择:模型的深度和宽度决定了可实现的算法复杂度——浅层模型实现一阶梯度下降,深层模型可实现二阶方法。
对模型可解释性的影响
这一发现为理解Transformer提供了新的框架。6
从黑箱到白箱:传统观点将Transformer视为复杂的非线性函数。新的视角将其重新解释为一套可组合的数值计算原语。
探针分析验证:Akyürek等人的探针实验表明,从Transformer的中间层激活中可以直接解码出权重向量和矩估计。这证实了Transformer确实在内部维护着算法状态。
算法发现的可能性:既然Transformer能从数据中发现经典算法,那么它是否可能发现全新的算法?这为”算法发现自动化”开辟了新的研究方向。
参考资料
Footnotes
-
Akyürek, E., Schuurmans, D., Andreas, J., Ma, T., & Zhou, D. (2022). What learning algorithm is in-context learning? Investigations with linear models. NeurIPS 2022. https://arxiv.org/abs/2211.15661 ↩ ↩2 ↩3 ↩4
-
Brown, T. B., et al. (2020). Language models are few-shot learners. NeurIPS 2020. ↩
-
Lutz, P., Gangrade, A., Daneshmand, H., & Saligrama, V. (2025). Linear Transformers Implicitly Discover Unified Numerical Algorithms. NeurIPS 2025. https://arxiv.org/abs/2509.19702 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7
-
von Oswald, J., et al. (2023). Transformers learn in-context by gradient descent. ICML 2023. ↩
-
Xie, S. M., Raghunathan, A., Liang, P., & Ma, T. (2022). An explanation of in-context learning as implicit Bayesian inference. ICLR 2022. ↩
-
Garg, D., Tsipras, D., Liang, P., & Valiant, G. (2022). What can transformers learn in-context? A case study of simple function classes. NeurIPS 2022. ↩