Transformer作为连续微分方程
概述
Transformer架构彻底改变了序列建模领域,是GPT、LLaMA等大语言模型(LLM)的核心基石。然而,迄今为止仍缺乏一套完整的数学理论来解释其结构和操作。
本文介绍一种新颖的连续框架,将Transformer严格解释为结构化**积分-微分方程(integro-differential equation)**的离散化1。在这一形式化下:
- 自注意力机制自然地作为非局部积分算子出现
- 层归一化被刻画为到时变约束集的投影
这种算子理论和变分视角为理解Transformer的核心组件(注意力、前馈网络、归一化)提供了统一且可解释的理论基础。
1. 预备知识:离散Transformer编码器
1.1 基本定义
设输入为矩阵 ,其中:
- 是token数量
- 是嵌入维度
- 每个 是对应token的嵌入表示
1.2 自注意力机制
通过学习到的权重矩阵 计算Query、Key、Value:
缩放点积注意力为:
其中softmax沿行方向应用。
1.3 层归一化
对输入向量 ,层归一化定义为:
其中 是 的均值和标准差, 是可学习参数。
1.4 前馈网络
1.5 完整编码器块
标准Transformer编码器层结合残差连接:
2. 连续Transformer模型
2.1 连续化动机
深度神经网络的连续时间视角近年来获得了广泛关注23。这些连续视角不仅深化了理论理解,还为架构设计和分析提供了原则性框架。
2.2 连续域设置
设:
- :token索引的连续域
- :token向量各分量的连续域
- :定义在 上的函数
在LLM应用中:
- 对应token的索引
- 对应token向量的各分量
2.3 积分变换
定义三个核函数 在 上。对于给定函数 ,定义积分变换:
这三个积分变换将用于生成注意力分数和提取特征。
2.4 注意力分数
其中 沿第二维应用:
2.5 层归一化的数学刻画
定义约束集:
和
对应的指示函数:
2.6 连续Transformer方程
核心方程:设 为前馈网络层数,则连续Transformer为:
对于 ,。
2.7 控制变量
将所有可学习参数记为 :
连续Transformer是映射:
3. 算子分裂离散化
3.1 时间离散化
采用Lie分裂格式对时间变量进行离散化。设时间网格 ,时间步长 。
单个时间层的分裂步骤(取 个子步,):
子步1(注意力层):
子步2(层归一化):
子步3至(前馈网络 + ReLU激活):
子步(跳跃连接松弛):
子步(最终层归一化):
3.2 各子问题的显式解
注意力层(子步1)
层归一化(子步2和最后子步)
投影问题:
定理(闭式解):
其中:
这正是层归一化的连续形式!
ReLU激活(子步)
4. 空间离散化与Transformer恢复
4.1 空间网格
设 ,,分别用 和 个网格点均匀离散化。
取 ,,则网格步长 。
4.2 离散积分变换
其中 , 是矩阵,离散积分变换对应标准矩阵乘法。
4.3 离散注意力
定理:经过算子分裂离散化后,方程(1)精确恢复Transformer编码器架构。
4.4 对应关系
| 连续Transformer | Transformer组件 |
|---|---|
| 积分变换 | |
| 行方向softmax | |
| 注意力加权求和 | |
| 层归一化(均值-方差标准化) | |
| 线性层 | |
| ReLU激活 | |
| 跳跃连接 | 松弛步骤(平均操作) |
4.5 一个时间步 = 一个Transformer块
关键发现:Lie分裂的一个完整循环(个子步)恰好对应一个Transformer编码器层!
取 (标准Transformer配置),则 ,得到标准Transformer块。
整个网络是 个Transformer块的组合。
5. 多头注意力
5.1 连续头维度
扩展核函数到包含头维度:
定义域为 ,其中 是头维度变量。
5.2 多头注意力方程
5.3 离散化恢复多头注意力
离散化后得到:
这正是具有 个头的多头注意力!
6. 变分视角与学习问题
6.1 连续学习问题
给定数据集 ,其中 是输入, 是目标状态。设 是衡量差异的损失函数。
学习问题可表述为最优控制问题:
受约束于 满足连续Transformer方程。
6.2 离散学习问题
设 是所有时间层的可学习参数。离散学习问题为:
其中 。
6.3 训练即求解控制问题
核心洞察:训练Transformer等价于求解上述约束优化问题。这建立了深度学习与最优控制之间的深层联系。
7. 与其他工作的联系
7.1 与Neural ODE/ResNet的联系
| 架构 | 连续形式 | 离散形式 |
|---|---|---|
| ResNet | ODE | 欧拉法 |
| Neural ODE | ODE | 自适应求解器 |
| Transformer | 积分-微分方程 | Lie分裂 |
Transformer的核心区别在于引入了非局部积分算子(注意力机制)。
7.2 与UNet的联系
文献4证明了UNet可解释为以下简单微分方程的分裂离散化:
Transformer与UNet的统一框架在于:两者都是连续动力系统的离散化。
8. 理论优势与应用
8.1 统一框架
这一视角为理解不同架构(CNN、UNet、Transformer)提供了共同语言——微分方程和积分方程。
8.2 架构设计新方向
基于连续理论,可以系统地探索新架构:
- 稳定性分析:利用数值分析工具研究网络稳定性
- 收敛性保证:证明训练收敛性
- 混合架构:结合不同算子(卷积 + 注意力)
8.3 领域知识嵌入
变分框架允许将领域知识(物理定律、几何结构、守恒原理)原则性地嵌入到网络设计中。
9. ViT扩展
9.1 Vision Transformer
ViT将图像切分为patch,每个patch作为token。在连续框架下:
- 预处理:将图像patch嵌入为初始条件
- 后处理:最终线性层作为数据后处理
9.2 卷积Transformer
对于结构化数据(图像、视频),可以将积分变换特化为卷积核:
这统一了卷积的局部性与注意力的全局性。
10. 总结
| 组件 | 连续解释 | 离散恢复 |
|---|---|---|
| 自注意力 | 非局部积分算子 | Softmax加权求和 |
| 层归一化 | 均值-方差约束投影 | 标准化层 |
| 前馈网络 | 线性算子 + 非负约束 | 全连接层 + ReLU |
| 跳跃连接 | 松弛步骤 | 残差连接 |
| 多头注意力 | 头维度积分 | 多头并行 |
这一框架的核心贡献在于:
- 统一理论基础:将Transformer纳入微分方程/控制理论的大家族
- 可解释性增强:每个操作都有清晰的数学含义
- 设计灵活性:基于连续理论可以构造新的架构变体
- 跨架构联系:建立CNN、UNet、Transformer的统一视角
参考文献
Footnotes
-
Tai, X. C., Liu, H., Li, L., & Chan, R. H. (2026). A Mathematical Explanation of Transformers. arXiv:2510.03989. https://arxiv.org/abs/2510.03989 ↩
-
Chen, R. T. Q., Rubanova, Y., Bettencourt, J., & Duvenaud, D. (2018). Neural Ordinary Differential Equations. NeurIPS. ↩
-
Haber, E., & Ruthotto, L. (2017). Stable architectures for deep neural networks. Inverse Problems, 34(1). ↩
-
Liu, H., Tai, X. C., Kolev, B., & Chen, J. (2024). A mathematical guide to UNets: operator splitting and continuous models. arXiv. ↩