Transformer作为连续微分方程

概述

Transformer架构彻底改变了序列建模领域,是GPT、LLaMA等大语言模型(LLM)的核心基石。然而,迄今为止仍缺乏一套完整的数学理论来解释其结构和操作。

本文介绍一种新颖的连续框架,将Transformer严格解释为结构化**积分-微分方程(integro-differential equation)**的离散化1。在这一形式化下:

  • 自注意力机制自然地作为非局部积分算子出现
  • 层归一化被刻画为到时变约束集的投影

这种算子理论变分视角为理解Transformer的核心组件(注意力、前馈网络、归一化)提供了统一且可解释的理论基础。

1. 预备知识:离散Transformer编码器

1.1 基本定义

设输入为矩阵 ,其中:

  • 是token数量
  • 是嵌入维度
  • 每个 是对应token的嵌入表示

1.2 自注意力机制

通过学习到的权重矩阵 计算Query、Key、Value:

缩放点积注意力为:

其中softmax沿行方向应用。

1.3 层归一化

对输入向量 ,层归一化定义为:

其中 的均值和标准差, 是可学习参数。

1.4 前馈网络

1.5 完整编码器块

标准Transformer编码器层结合残差连接:

2. 连续Transformer模型

2.1 连续化动机

深度神经网络的连续时间视角近年来获得了广泛关注23。这些连续视角不仅深化了理论理解,还为架构设计和分析提供了原则性框架。

2.2 连续域设置

设:

  • :token索引的连续域
  • :token向量各分量的连续域
  • :定义在 上的函数

在LLM应用中:

  • 对应token的索引
  • 对应token向量的各分量

2.3 积分变换

定义三个核函数 上。对于给定函数 ,定义积分变换:

这三个积分变换将用于生成注意力分数和提取特征。

2.4 注意力分数

其中 沿第二维应用:

2.5 层归一化的数学刻画

定义约束集:

对应的指示函数:

2.6 连续Transformer方程

核心方程:设 为前馈网络层数,则连续Transformer为:

对于

2.7 控制变量

将所有可学习参数记为

连续Transformer是映射:

3. 算子分裂离散化

3.1 时间离散化

采用Lie分裂格式对时间变量进行离散化。设时间网格 ,时间步长

单个时间层的分裂步骤(取 个子步,):

子步1(注意力层)

子步2(层归一化)

子步3至(前馈网络 + ReLU激活)

子步(跳跃连接松弛)

子步(最终层归一化)

3.2 各子问题的显式解

注意力层(子步1)

层归一化(子步2和最后子步)

投影问题:

定理(闭式解)

其中:

这正是层归一化的连续形式!

ReLU激活(子步

4. 空间离散化与Transformer恢复

4.1 空间网格

,分别用 个网格点均匀离散化。

,则网格步长

4.2 离散积分变换

其中 是矩阵,离散积分变换对应标准矩阵乘法。

4.3 离散注意力

定理:经过算子分裂离散化后,方程(1)精确恢复Transformer编码器架构。

4.4 对应关系

连续TransformerTransformer组件
积分变换
行方向softmax
注意力加权求和
层归一化(均值-方差标准化)
线性层
ReLU激活
跳跃连接松弛步骤(平均操作)

4.5 一个时间步 = 一个Transformer块

关键发现:Lie分裂的一个完整循环(个子步)恰好对应一个Transformer编码器层!

(标准Transformer配置),则 ,得到标准Transformer块。

整个网络是 个Transformer块的组合。

5. 多头注意力

5.1 连续头维度

扩展核函数到包含头维度:

定义域为 ,其中 是头维度变量。

5.2 多头注意力方程

5.3 离散化恢复多头注意力

离散化后得到:

这正是具有 个头的多头注意力!

6. 变分视角与学习问题

6.1 连续学习问题

给定数据集 ,其中 是输入, 是目标状态。设 是衡量差异的损失函数。

学习问题可表述为最优控制问题:

受约束于 满足连续Transformer方程。

6.2 离散学习问题

是所有时间层的可学习参数。离散学习问题为:

其中

6.3 训练即求解控制问题

核心洞察:训练Transformer等价于求解上述约束优化问题。这建立了深度学习与最优控制之间的深层联系。

7. 与其他工作的联系

7.1 与Neural ODE/ResNet的联系

架构连续形式离散形式
ResNetODE 欧拉法
Neural ODEODE 自适应求解器
Transformer积分-微分方程Lie分裂

Transformer的核心区别在于引入了非局部积分算子(注意力机制)。

7.2 与UNet的联系

文献4证明了UNet可解释为以下简单微分方程的分裂离散化:

Transformer与UNet的统一框架在于:两者都是连续动力系统的离散化。

8. 理论优势与应用

8.1 统一框架

这一视角为理解不同架构(CNN、UNet、Transformer)提供了共同语言——微分方程和积分方程

8.2 架构设计新方向

基于连续理论,可以系统地探索新架构:

  • 稳定性分析:利用数值分析工具研究网络稳定性
  • 收敛性保证:证明训练收敛性
  • 混合架构:结合不同算子(卷积 + 注意力)

8.3 领域知识嵌入

变分框架允许将领域知识(物理定律、几何结构、守恒原理)原则性地嵌入到网络设计中。

9. ViT扩展

9.1 Vision Transformer

ViT将图像切分为patch,每个patch作为token。在连续框架下:

  • 预处理:将图像patch嵌入为初始条件
  • 后处理:最终线性层作为数据后处理

9.2 卷积Transformer

对于结构化数据(图像、视频),可以将积分变换特化为卷积核

这统一了卷积的局部性与注意力的全局性。

10. 总结

组件连续解释离散恢复
自注意力非局部积分算子Softmax加权求和
层归一化均值-方差约束投影标准化层
前馈网络线性算子 + 非负约束全连接层 + ReLU
跳跃连接松弛步骤残差连接
多头注意力头维度积分多头并行

这一框架的核心贡献在于:

  1. 统一理论基础:将Transformer纳入微分方程/控制理论的大家族
  2. 可解释性增强:每个操作都有清晰的数学含义
  3. 设计灵活性:基于连续理论可以构造新的架构变体
  4. 跨架构联系:建立CNN、UNet、Transformer的统一视角

参考文献

Footnotes

  1. Tai, X. C., Liu, H., Li, L., & Chan, R. H. (2026). A Mathematical Explanation of Transformers. arXiv:2510.03989. https://arxiv.org/abs/2510.03989

  2. Chen, R. T. Q., Rubanova, Y., Bettencourt, J., & Duvenaud, D. (2018). Neural Ordinary Differential Equations. NeurIPS.

  3. Haber, E., & Ruthotto, L. (2017). Stable architectures for deep neural networks. Inverse Problems, 34(1).

  4. Liu, H., Tai, X. C., Kolev, B., & Chen, J. (2024). A mathematical guide to UNets: operator splitting and continuous models. arXiv.