Transformer通用性综述

Transformer架构已成为深度学习的核心范式,从大型语言模型到计算机视觉均取得了突破性进展。这一成功部分源于其被广泛认可的通用性(Universality)和可扩展性(Scalability)。1 本综述系统梳理Transformer表达能力的理论基础,涵盖通用逼近定理、形式语言理论视角、架构最小化、近似速率以及提示调优等前沿进展,旨在厘清当前对Transformer表达能力理解的边界,区分稳健的理论保证与脆弱的假设,并指出未来研究的关键方向。

1. 表达能力定义

1.1 基本概念

表达能力(Expressivity)指模型类别能够表示的函数集合大小。在Transformer语境下,表达能力刻画了架构在给定约束条件下能够实现的序列到序列行为(sequence-to-sequence behaviors)范围,独立于训练过程或参数效率。12

形式化地,给定输入序列 ,其中 ,Transformer定义了一个从输入序列到输出序列的映射:

其中 表示模型参数。表达能力研究的核心问题是:这个映射族 能够以何种精度逼近任意目标函数类?

1.2 序列到序列映射的数学框架

Transformer处理的是序列到序列(Seq2Seq)的映射问题。设输入序列为 ,输出序列为 ,则Transformer建模的目标函数类为:

关键挑战在于:

  • 输入长度 可能变化
  • 需要捕获token之间的长程依赖关系
  • 参数共享机制(同一权重处理所有token)

1.3 排列等变性

Transformer的核心归纳偏置之一是排列等变性(Permutation Equivariance):输入序列中token的顺序不应影响其语义关系。

定义:函数 称为排列等变的,当且仅当对任意排列

其中

这一性质源于Self-Attention的无序性:注意力权重仅依赖于token内容的点积相似度,而非其位置。

1.4 注意力机制的数学表示

标准缩放点积注意力机制定义为:

其中:

  • 是Query、Key、Value的线性投影
  • 缩放因子 用于稳定梯度

多头注意力(Multi-Head Attention)扩展为:

其中


2. 通用函数逼近:早期结果

2.1 Yun等人的开创性工作

Yun等人(ICLR 2020)3首次建立了Transformer的通用逼近定理,证明了标准Transformer是连续排列等变序列到序列函数的通用逼近器。

定理(Yun et al., 2020)3

对于任意连续函数 和任意 ,若 是排列等变的(即 ),则存在一个Transformer网络 ,使得:

对所有 成立。

这一结果的核心洞察在于:

  1. Self-Attention层可以计算上下文映射(contextual mapping)
  2. Feed-Forward层提供非线性变换能力
  3. 两者的组合足以逼近任意连续等变函数

2.2 关键证明思想

证明的核心思想将Transformer视为分区机制(partitioning mechanism):

  1. Token区分性(Token Distinguishability):通过线性变换和注意力权重,模型可以将输入序列划分为语义相关的组

  2. 分区构造:Self-Attention通过加权求和实现类似分段线性插值的功能

  3. FFN的非线性增强:Feed-Forward网络在每个位置独立应用非线性变换

形式上,单层Self-Attention可以视为计算:

其中注意力权重 提供了一种软性选择机制。

2.3 位置编码与通用逼近

原始Transformer的排列等变性意味着模型不能区分输入序列中token的绝对位置。Yun等人的工作进一步证明,通过引入位置编码(Positional Encoding),Transformer可以逼近任意连续序列到序列函数,突破排列等变性的限制。3

定理3

设有位置编码函数 ,则对于任意连续函数 ,存在Transformer 使得:

其中 是位置编码序列。

2.4 FFN的关键作用

Yun等人的分析清晰揭示了Self-Attention与Feed-Forward层在逼近理论中的互补角色

组件作用
Self-Attention实现token间的上下文聚合,计算token间的依赖关系
Feed-Forward提供位置-wise非线性变换,增强局部表达能力
LayerNorm稳定数值计算,保证函数连续性
残差连接构造深层组合,增强整体表达能力

3. 形式语言理论视角

形式语言理论提供了另一种理解Transformer表达能力的框架,将Transformer视为形式语言识别器序列变换器,研究其在离散符号序列上的计算能力。45

3.1 复杂性类层次

Transformer的计算能力与电路复杂性类密切相关:

核心对应关系

注意力变体表达能力复杂性类
Leftmost-hard Attention常数深度多项式电路(无计数)
Average-hard Attention常数深度多项式电路(含计数)
Softmax Attention(上界)含计数项的常数深度电路
Decoder + 中间步骤图灵完备无限计算能力

3.2 固定精度Transformer的上界

Merrill和Sabharwal的研究6建立了固定精度Transformer与电路类的精确对应:

定理(Merrill & Sabharwal)6

固定精度Transformer编码器恰好与一阶逻辑加计数量化器)的表达能力相同。

形式化地,设Transformer编码器为 ,则:

恰好是一类可被 公式定义的语言。

3.3 计数能力的局限

计数能力(Counting Power)是Transformer表达能力的核心限制因素:

定理5

Softmax注意力的Transformer编码器位于 类,意味着它们可以:

  • 判断输入中字符”a”的出现次数是否为奇数(奇偶性)
  • 比较不同字符的出现次数

不能

  • 精确计数到任意大的数字
  • 处理需要嵌套递归的问题

C-RASP(Counting-Restricted Access Sequence Processing)7提供了一个Transformer表达能力的可组合上界

C-RASP的表达能力恰好涵盖半线性计数性质(semi-linear counting properties)。

3.4 电路复杂性的视角

定义(电路复杂性类)

  • :常数深度、恒定元数、无计数项的多项式大小电路族
  • :常数深度、多项式大小、包含MAJORITY门(即计数门)的电路族

定理4

Leftmost-hard Attention Transformer编码器恰好在 类;
Average-hard Attention Transformer编码器恰好在 类。

3.5 图灵完备性

当允许Transformer解码器多步推理(multi-step reasoning)时,其计算能力可达到图灵完备:

定理8

允许中间步骤输出的Transformer解码器可以模拟任意图灵机。

这意味着在无限精度无限深度/步数假设下,Transformer具有通用计算能力。

3.6 半代数计数性质

最近的工作9进一步拓展了Transformer计数能力的边界:

定理9

Transformer可以表达半代数计数性质(semi-algebraic counting properties),即可以用布尔组合的多元多项式(任意次数)表达的计数性质。

形式化地,给定输入序列 ,设 为各字符的计数,则Transformer可以判断:

其中 是任意多元多项式。

这通过与Hilbert第十问题的联系,还导出了一个重要的不可判定性结果:分析某些极简Transformer模型的行为是停机问题不可判定的。


4. 近似速率:架构效率改进

4.1 最小化问题

实际应用中,模型的计算效率和参数效率至关重要。最小化(Minimality)研究关注如何使用最少的架构资源(深度、宽度、注意力头数)实现目标表达能力。1

定义:模型的最小化程度定义为在保持目标表达能力(如通用逼近)的前提下,各项资源指标的最小值:

  • 深度最小化:达到通用逼近所需的最少层数
  • 宽度最小化:每层所需最小隐藏维度
  • 头数最小化:所需最少的注意力头数

4.2 单层单头Transformer

一个重要发现是:通用逼近不需要多层堆叠或多个注意力头10

定理(Universal Approximation - Single Layer, Single Head)10

单层、单头Self-Attention配合线性变换和前置的求和线性变换层,即可在 范数下逼近任意紧支撑域上的连续函数。

核心洞察:将单头注意力理解为输入域分区机制(input domain-partitioning mechanism),该机制为子区域分配不同的值。通过工程化注意力权重,可以使这种分配模仿目标函数的行为。

4.3 无FFN的Transformer

一个更强的最小化结果是无需Feed-Forward网络的Transformer也能实现通用逼近11

定理11

两层Self-Attention(无FFN)即可作为通用逼近器。在此构造中,插值依赖于注意力权重,因此FFN并非严格必需。

这一发现凸显了注意力在Transformer中的核心作用——它可以:

  • 逼近分段线性函数
  • 模拟插值方法
  • 实现上下文感知的token变换

4.4 低秩权重矩阵

另一项关键发现是低秩权重矩阵同样可以实现通用逼近12

定理12

使用低秩权重矩阵(而非满秩 矩阵)的单层Self-Attention仍能保持通用逼近性质。

这意味着可以将高维token表示投影到更小的子空间,在减少参数量的同时保持足够的表达能力

4.5 Softmax的特殊作用

添加softmax操作可以进一步简化通用逼近构造:

定理1

在特定构造下,softmax可以通过模拟插值实现单层注意力下的通用逼近。Softmax注意力可以逼近分段线性函数。

这揭示了softmax的数学本质:它是一种软性最大值操作,本质上是在进行加权插值

4.6 近似速率分析

给定目标精度 ,逼近所需资源(层数、宽度)与 的关系是重要的理论问题。

速率定义:设 属于某函数类 (如Hölder连续函数类),Transformer 使用 层,定义:

已知结果:对于光滑函数类,Transformer的近似速率与深度 的关系为:

这与神经网络深度-表达能力的关系类似,但Transformer的并行计算特性提供了额外的实践优势。

4.7 高维输入域

最近的工作1将分析扩展到高维输入域

定理1

在高维输入域下,Transformer的通用逼近能力取决于:

  1. 全局信息路由是否保留
  2. 位置编码策略
  3. 注意力头的组织方式

关键是保持全局信息传递——即使采用稀疏注意力,只要信息可以间接路由到所有token,表达能力就不会丧失。


5. 表达能力的局限性

5.1 近似理论极限

尽管Transformer具有强大的表达能力,但仍存在fundamental limitations14

5.1.1 长序列上的层级结构

定理4

Self-Attention不能建模周期性的有限状态语言,也不能处理层级结构(hierarchical structure),除非层数或头数随输入长度增加。

这对于形式语言中典型的上下文无关文法(CFG)尤其相关——CFG需要递归嵌套结构,而Transformer的固定深度限制了这种递归深度。

5.1.2 周期性语言

定理4

Self-Attention无法识别正则语言中的周期性(periodicity)性质,例如语言 ,除非模型深度随输入长度增长。

5.2 计数精度的限制

定理57

虽然Softmax注意力赋予了Transformer计数能力,但这种能力被限制在 类的范围内:

  • 可以判断奇偶性
  • 可以比较不同字符的出现次数
  • 不能精确计数到非常大的数字
  • 不能处理需要 精度的计数

形式化地,设输入长度为 ,则可表达的计数性质复杂度为 而非

5.3 布尔公式封闭性

定理5

Transformer(固定精度、softmax注意力)不能判断封闭布尔公式(closed Boolean formulas)的真值。

这一限制源于布尔公式的递归性质,与上下文无关文法相关联。

5.4 与实际能力的差距

理论极限与实际能力之间存在有趣的张力:

理论极限                          实践表现
     │                              │
     │  ✗ 无法精确处理嵌套递归       │
     │  ✗ 无法精确计数到O(n)         │  ✓ 在许多递归任务上表现良好
     │  ✗ TC^0上界                   │  ✓ 捕获长程依赖
     │                              │  ✓ 上下文学习能力
     ▼                              ▼

可能的解释

  1. 自然语言的实际递归深度通常是有界的
  2. 近似计数对于大多数任务已足够
  3. 大规模训练可能隐式地”压缩”了这些限制

6. 提示与PEFT的表达能力

6.1 提示调优的通用逼近

提示调优(Prompt Tuning)是一种高效的微调范式,通过学习一小段”软提示”向量来调整预训练模型的行为。

核心问题1

能否通过提示调优,使较小的模型作为通用函数逼近器?

定理1

即使较小的、经过适当提示调优的模型也可以作为通用函数逼近器。

具体而言,Prefix Transformer只需要一个注意力头就能逼近任意连续函数,且所需网络深度与序列长度呈线性关系

6.2 Prefix Transformer的数学框架

Prefix Transformer引入可学习的前缀向量 作为提示:

其中 表示序列拼接。

定理1

存在仅使用单个注意力头的Prefix Transformer ,使得对任意连续函数

6.3 参数高效微调的表达能力

参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)通过更新少量参数实现大模型的高效适配。

定理1

Prefix Tuning、LoRA等PEFT方法在理论上可以保持Transformer的完整表达能力上界:

这为”少参数更新等于全参数更新”提供了理论依据,尽管实际优化景观可能存在差异。

6.4 提示作为隐式计算

从计算理论角度,提示可以视为隐式计算(implicit computation)的一种形式:

定理1

提示向量 可以编码:

  1. 条件信息(如任务描述)
  2. 隐式的计算状态
  3. 函数参数的编码

这使得Prefix Tuning成为一种元学习(meta-learning)机制,其中提示编码了”如何学习”的信息。

6.5 开放问题

尽管提示调优展现了强大的表达能力,仍有重要问题未解决:

问题现状
提示长度与表达能力理论上线性关系,具体界未知
离散/自然语言提示表达能力尚未在理论上刻画
多任务提示组合泛化能力缺乏理论保证

7. 统一视图:理论与实践的综合

7.1 表达能力层次结构

综合以上分析,Transformer表达能力呈现清晰的层次结构:

┌─────────────────────────────────────────────────────────────────┐
│                        通用连续函数                               │
│                    (需要位置编码 + 足够深度)                       │
├─────────────────────────────────────────────────────────────────┤
│                      排列等变连续函数                             │
│                  (标准Transformer + FFN)                          │
├─────────────────────────────────────────────────────────────────┤
│                     半代数计数性质                                │
│                   (Softmax Attention)                            │
├─────────────────────────────────────────────────────────────────┤
│                       TC^0 类语言                                │
│              (Average-hard Attention + Softmax)                   │
├─────────────────────────────────────────────────────────────────┤
│                       AC^0 类语言                                │
│                  (Leftmost-hard Attention)                       │
└─────────────────────────────────────────────────────────────────┘

7.2 架构约束与表达能力的关系

不同架构选择对表达能力的影响如下表所示:

架构选择表达能力效率备注
完整注意力理论最强
稀疏注意力保持全局路由
低秩投影 完整降低参数可达通用逼近
单头注意力通用逼近高效需要前置线性层
无FFN两层通用逼近高效注意力主导
无位置编码排列等变-失去序列顺序感知

7.3 稳健保证 vs 脆弱假设

稳健的理论保证(Robust Guarantees):1

  1. 通用逼近定理在广泛条件下成立
  2. 上界在固定精度假设下稳固
  3. 单层单头通用逼近在足够资源下可证

脆弱的假设(Fragile Assumptions):

  1. 无限精度 vs 固定精度——两者表达能力差异巨大
  2. 理论构造 vs 可训练性——存在性证明不等于可学习
  3. 连续域 vs 离散域——离散设置的理论尚不完善

7.4 实践指南

基于理论分析,架构设计建议如下:

场景推荐架构理论依据
通用逼近需求单层单头 + 前置线性层Yun et al., Abbott et al.
高效部署低秩投影 + 稀疏注意力Merrill et al., Ji et al.
长序列建模稀疏注意力 + 全局路由保持TC^0上界
上下文学习多层堆叠 + 提示调优深度-表达能力权衡

7.5 开放问题与未来方向

7.5.1 未解决的理论问题

  1. 定量近似速率:除光滑函数类外,其他函数类的近似速率尚不完整
  2. 离散设置的表达能力:严格资源约束下的表达力尚未充分理解
  3. 替代位置编码:不同位置编码方案对表达力的影响缺乏系统分析
  4. 优化与表达力的交互:表达能力边界与梯度下降优化景观的关系

7.5.2 实践导向的研究

  1. 效率-表达力权衡:在给定计算预算下最大化表达能力
  2. 专用Transformer设计:针对特定函数类的专用架构
  3. 理论启发的架构搜索:基于表达能力分析的Neural Architecture Search

7.6 与相关工作的联系

本综述与以下工作形成理论上的补充:

相关主题联系参考
neural-network-expressivity共享通用逼近定理传统;Transformer是NN的特殊形式Hornik et al., Cybenko
transformer-expressivity-tropical-geometry热带几何提供精确的空间划分分析Su et al.

参考文献


相关词条:neural-network-expressivitytransformer-expressivity-tropical-geometrytransformer-and-attentionneural-network-theory

Footnotes

  1. Abbasi & Hooshmand, “On the Universality of Transformer Architectures; How Much Attention Is Enough?”, arXiv:2512.18445, 2025 2 3 4 5 6 7 8 9 10 11 12 13

  2. Merrill et al., “What Formal Languages Can Transformers Express? A Survey”, Transactions of the Association for Computational Linguistics, 2024

  3. Yun et al., “Are Transformers Universal Approximators of Sequence-to-Sequence Functions?”, ICLR 2020 2 3 4

  4. Hahn, “Theoretical Limitations of Self-Attention”, TACL 2020 2 3 4 5

  5. Merrill & Sabharwal, “Tighter Bounds on the Expressivity of Transformer Encoders”, arXiv:2301.10743, 2023 2 3 4

  6. Merrill & Sabharwal, “The Expressive Power of Transformers with Chain of Thought”, ICLR 2024 2

  7. Merrill et al., “C-RASP: Circuits for Accessible Sequence Processing”, NeurIPS 2022 2

  8. Merrill & Sabharwal, “Transformers are Universal Predictors”, arXiv:2307.07843, 2023

  9. Strobl et al., “The Counting Power of Transformers”, ICLR 2026 2

  10. Abbott et al., “Universal Approximation with Neural Attention”, OpenReview, 2024 2

  11. Ji et al., “Two-Layer Attention-Only Transformers are Universal Approximators”, NeurIPS 2024 2

  12. Sanford et al., “Low-Rank Transformers are Universal Approximators”, ICML 2024 2