Transformer作为连续微分方程

概述

Transformer架构彻底改变了序列建模领域，是GPT、LLaMA等大语言模型（LLM）的核心基石。然而，迄今为止仍缺乏一套完整的数学理论来解释其结构和操作。

本文介绍一种新颖的连续框架，将Transformer严格解释为结构化**积分-微分方程（integro-differential equation）**的离散化¹。在这一形式化下：

自注意力机制自然地作为非局部积分算子出现
层归一化被刻画为到时变约束集的投影

这种算子理论和变分视角为理解Transformer的核心组件（注意力、前馈网络、归一化）提供了统一且可解释的理论基础。

1. 预备知识：离散Transformer编码器

1.1 基本定义

设输入为矩阵 $u = [u_{1}^{⊤}, u_{2}^{⊤}, \dots, u_{N_{x}}^{⊤}]^{⊤} \in R^{N_{x} \times N_{y}}$ ，其中：

$N_{x}$ 是token数量
$N_{y}$ 是嵌入维度
每个 $u_{i} \in R^{N_{y}}$ 是对应token的嵌入表示

1.2 自注意力机制

通过学习到的权重矩阵 $W_{Q}, W_{K}, W_{V} \in R^{N_{y} \times N_{y}}$ 计算Query、Key、Value：

Q = u W_{Q}, K = u W_{K}, V = u W_{V}

缩放点积注意力为：

Attention (Q, K, V) = Softmax (\frac{Q K ^{⊤}}{N _{y}}) V

其中softmax沿行方向应用。

1.3 层归一化

对输入向量 $z \in R^{N_{y}}$ ，层归一化定义为：

LayerNorm (z) = \frac{z - μ}{σ} ⊙ γ + β

其中 $μ, σ$ 是 $z$ 的均值和标准差， $γ, β \in R^{N_{y}}$ 是可学习参数。

1.4 前馈网络

FFN (z) = ReLU (z W_{1} + b_{1}) W_{2} + b_{2}

1.5 完整编码器块

标准Transformer编码器层结合残差连接：

u^{'} u^{''} u^{'''} u_{out} = u + Attention (Q, K, V) = LayerNorm (u^{'}) = u^{''} + FFN (u^{''}) = LayerNorm (u^{'''})

2. 连续Transformer模型

2.1 连续化动机

深度神经网络的连续时间视角近年来获得了广泛关注²³。这些连续视角不仅深化了理论理解，还为架构设计和分析提供了原则性框架。

2.2 连续域设置

设：

$Ω_{x} = [0, L_{x}]^{d_{x}}$ ：token索引的连续域
$Ω_{y} = [0, L_{y}]^{d_{y}}$ ：token向量各分量的连续域
$u (x, y, t)$ ：定义在 $Ω_{x} \times Ω_{y} \times [0, T]$ 上的函数

在LLM应用中：

$x \in Ω_{x}$ 对应token的索引
$y \in Ω_{y}$ 对应token向量的各分量

2.3 积分变换

定义三个核函数 $W_{Q}, W_{K}, W_{V}$ 在 $Ω_{y} \times Ω_{y} \times [0, T]$ 上。对于给定函数 $u (x, y, t)$ ，定义积分变换：

Q (x, y, t; u) K (x, y, t; u) V (x, y, t; u) = ⟨ W_{Q} (\cdot, y, t), u (x, \cdot, t) ⟩_{Ω_{y}} = \int_{Ω_{y}} W_{Q} (ξ, y, t) u (x, ξ, t) d ξ = ⟨ W_{K} (\cdot, y, t), u (x, \cdot, t) ⟩_{Ω_{y}} = \int_{Ω_{y}} W_{K} (ξ, y, t) u (x, ξ, t) d ξ = ⟨ W_{V} (\cdot, y, t), u (x, \cdot, t) ⟩_{Ω_{y}} = \int_{Ω_{y}} W_{V} (ξ, y, t) u (x, ξ, t) d ξ

这三个积分变换将用于生成注意力分数和提取特征。

2.4 注意力分数

γ (x, \overset{x}{ˉ}, t; u) = Softmax_{2} (\frac{1}{∣ Ω _{y} ∣} ⟨ Q (x, \cdot, t; u), K (\overset{x}{ˉ}, \cdot, t; u) ⟩_{Ω_{y}})

其中 $Softmax_{2}$ 沿第二维应用：

Softmax_{2} (a (x, \overset{x}{ˉ}, t)) = \frac{exp ( a ( x , x ˉ , t ))}{\int _{Ω_{x}} exp ( a ( x , η , t )) d η}

2.5 层归一化的数学刻画

定义约束集：

S_{1} (σ_{1}, σ_{2}) = {u : \frac{1}{∣ Ω _{y} ∣} \int_{Ω_{y}} u (x, ξ, t) d ξ = σ_{1}, \frac{1}{∣ Ω _{y} ∣} \int_{Ω_{y}} (u (x, ξ, t) - σ_{1})^{2} d ξ = σ_{2}^{2}}

和

S_{2} = {u : u \geq 0}

对应的指示函数：

I_{S_{1} (σ_{1}, σ_{2})} (u) = {0 + \infty if u \in S_{1} otherwise

2.6 连续Transformer方程

核心方程：设 $J$ 为前馈网络层数，则连续Transformer为：

⎩ ⎨ ⎧ u_{t} = I: Attention ⟨ γ (x, \cdot, t; u), V (\cdot, y, t; u) ⟩_{Ω_{x}} + II: Layer Norm \partial I_{S_{1} (σ_{1} (t), σ_{2} (t))} (u) + III: Fully Connected j = 1 \sum J (⟨ W_{j} (\cdot, y, t), u (x, \cdot, t) ⟩_{Ω_{y}} + b_{j} (x, t)) + IV: Activation \partial I_{S_{2}} (u) u (x, y, 0) = f (x, y) (1)

对于 $t \in (0, T]$ ， $(x, y) \in Ω_{x} \times Ω_{y}$ 。

2.7 控制变量

将所有可学习参数记为 $θ$ ：

θ = {W_{Q}, W_{K}, W_{V}, {W_{j}, b_{j}}_{j = 1}^{J}, σ_{1} (t), σ_{2} (t)}

连续Transformer是映射：

N_{θ} : f \mapsto u (\cdot, \cdot, T)

3. 算子分裂离散化

3.1 时间离散化

采用Lie分裂格式对时间变量进行离散化。设时间网格 ${t^{n}}_{n = 0}^{N_{t}}$ ，时间步长 $Δ t = T / N_{t}$ 。

单个时间层的分裂步骤（取 $M = 4 + J$ 个子步， $Δ t = 1$ ）：

子步1（注意力层）：

u^{1/ M} - u^{0} = ⟨ γ^{0} (x, \cdot; u^{0}), V^{0} (\cdot, y; u^{0}) ⟩_{Ω_{x}}

子步2（层归一化）：

u^{2/ M} - u^{1/ M} = \partial I_{S_{1} (σ_{1}^{0}, σ_{2}^{0})} (u^{2/ M})

子步3至 $2 + J$ （前馈网络 + ReLU激活）：

u^{(2 + j) / M} - u^{(1 + j) / M} = ⟨ W_{j}^{0} (\cdot, y), u^{(1 + j) / M} (x, \cdot) ⟩_{Ω_{y}} + b_{j}^{0} (x) + \partial I_{S_{2}} (u^{(2 + j) / M})

子步 $3 + J$ （跳跃连接松弛）：

u^{(3 + J) / M} = \frac{1}{2} (u^{(2 + J) / M} + u^{2/ M})

子步 $4 + J$ （最终层归一化）：

u^{1} - u^{(3 + J) / M} = \partial I_{S_{1} (σ_{1}^{0}, σ_{2}^{0})} (u^{1})

3.2 各子问题的显式解

注意力层（子步1）

u^{1/ M} = u^{0} + \int_{Ω_{x}} Softmax_{2} (\frac{1}{∣ Ω _{y} ∣} ⟨ Q^{0} (x, \cdot; u^{0}), K^{0} (η, \cdot; u^{0}) ⟩_{Ω_{y}}) V^{0} (η, y; u^{0}) d η

层归一化（子步2和最后子步）

投影问题：

u = ar g \overset{u}{ˉ} \in S_{1} (σ_{1}, σ_{2}) min \frac{1}{2} ∥ \overset{u}{ˉ} - v ∥_{Ω_{y}}^{2}

定理（闭式解）：

u (x, y) = v (x, y) - \frac{α ( x ; v )}{β ( x ; v )} \cdot \frac{σ _{2}}{β ( x ; v )} + σ_{1}

其中：

α (x; v) = \frac{1}{∣ Ω _{y} ∣} \int_{Ω_{y}} v (x, ξ) d ξ, β (x; v) = \frac{1}{∣ Ω _{y} ∣} \int_{Ω_{y}} (v (x, ξ) - α (x; v))^{2} d ξ

这正是层归一化的连续形式！

ReLU激活（子步 $2 + j$ ）

u^{(2 + j) / M} = max {\overset{u}{ˉ}^{(2 + j) / M}, 0} = ReLU (\overset{u}{ˉ}^{(2 + j) / M})

4. 空间离散化与Transformer恢复

4.1 空间网格

设 $Ω_{x} = [0, L_{x}]$ ， $Ω_{y} = [0, L_{y}]$ ，分别用 $N_{x}$ 和 $N_{y}$ 个网格点均匀离散化。

取 $L_{x} = N_{x}$ ， $L_{y} = N_{y}$ ，则网格步长 $Δ x = Δ y = 1$ 。

4.2 离散积分变换

Q^{0} (u^{0}) = u^{0} W_{Q}^{0}, K^{0} (u^{0}) = u^{0} W_{K}^{0}, V^{0} (u^{0}) = u^{0} W_{V}^{0}

其中 $u^{0} \in R^{N_{x} \times N_{y}}$ ， $W_{Q}^{0}, W_{K}^{0}, W_{V}^{0} \in R^{N_{y} \times N_{y}}$ 是矩阵，离散积分变换对应标准矩阵乘法。

4.3 离散注意力

定理：经过算子分裂离散化后，方程(1)精确恢复Transformer编码器架构。

4.4 对应关系

连续Transformer	Transformer组件
积分变换 $Q, K, V$	$Q = u W_{Q}, K = u W_{K}, V = u W_{V}$
$Softmax_{2}$	行方向softmax
$⟨ γ, V ⟩_{Ω_{x}}$	注意力加权求和
$\partial I_{S_{1}}$	层归一化（均值-方差标准化）
$⟨ W_{j}, u ⟩ + b_{j}$	线性层 $u W_{j} + b_{j}$
$\partial I_{S_{2}}$	ReLU激活
跳跃连接	松弛步骤（平均操作）

4.5 一个时间步 = 一个Transformer块

关键发现：Lie分裂的一个完整循环（ $M = 4 + J$ 个子步）恰好对应一个Transformer编码器层！

取 $J = 2$ （标准Transformer配置），则 $M = 6$ ，得到标准Transformer块。

整个网络是 $N_{t}$ 个Transformer块的组合。

5. 多头注意力

5.1 连续头维度

扩展核函数到包含头维度：

W_{Q} (y, \overset{y}{ˉ}, h, t), W_{K} (y, \overset{y}{ˉ}, h, t), W_{V} (y, \overset{y}{ˉ}, h, t)

定义域为 $Ω_{y} \times Ω_{y} \times Ω_{h} \times [0, + \infty)$ ，其中 $h$ 是头维度变量。

5.2 多头注意力方程

u_{t} = \int_{Ω_{h}} ⟨ γ (x, \cdot, h, t; u), V (\cdot, y, h, t; u) ⟩_{Ω_{x}} d h + \dots

5.3 离散化恢复多头注意力

离散化后得到：

u^{1/ M} = u^{0} + m = 1 \sum N_{h} Softmax_{2} (\frac{1}{L _{x}} Q_{m}^{0} (u^{0}) (K_{m}^{0} (u^{0}))^{⊤}) V_{m}^{0} (u^{0})

这正是具有 $N_{h}$ 个头的多头注意力！

6. 变分视角与学习问题

6.1 连续学习问题

给定数据集 ${(u^{i}, v^{i})}_{i = 1}^{B}$ ，其中 $u^{i}$ 是输入， $v^{i}$ 是目标状态。设 $ℓ (\cdot, \cdot)$ 是衡量差异的损失函数。

学习问题可表述为最优控制问题：

θ min \frac{1}{B} i = 1 \sum B ℓ (N_{θ} (u^{i}), v^{i})

受约束于 $N_{θ} (u^{i})$ 满足连续Transformer方程。

6.2 离散学习问题

设 $\overset{ˉ}{θ} = {θ^{n}}_{n = 1}^{N_{t}}$ 是所有时间层的可学习参数。离散学习问题为：

\overset{ˉ}{θ} min \frac{1}{B} i = 1 \sum B ℓ (\overset{ˉ}{N}_{\overset{ˉ}{θ}} (u^{i}), v^{i})

其中 $\overset{ˉ}{N}_{\overset{ˉ}{θ}} = N_{θ^{N_{t}}} \circ \dots \circ N_{θ^{1}}$ 。

6.3 训练即求解控制问题

核心洞察：训练Transformer等价于求解上述约束优化问题。这建立了深度学习与最优控制之间的深层联系。

7. 与其他工作的联系

7.1 与Neural ODE/ResNet的联系

架构	连续形式	离散形式
ResNet	ODE $\overset{u}{˙} = F (u)$	欧拉法
Neural ODE	ODE $\overset{u}{˙} = F (u, θ)$	自适应求解器
Transformer	积分-微分方程	Lie分裂

Transformer的核心区别在于引入了非局部积分算子（注意力机制）。

7.2 与UNet的联系

文献⁴证明了UNet可解释为以下简单微分方程的分裂离散化：

\partial_{t} u = W * u + d - ln \frac{u}{1 - u} + \partial I_{Σ} (u)

Transformer与UNet的统一框架在于：两者都是连续动力系统的离散化。

8. 理论优势与应用

8.1 统一框架

这一视角为理解不同架构（CNN、UNet、Transformer）提供了共同语言——微分方程和积分方程。

8.2 架构设计新方向

基于连续理论，可以系统地探索新架构：

稳定性分析：利用数值分析工具研究网络稳定性
收敛性保证：证明训练收敛性
混合架构：结合不同算子（卷积 + 注意力）

8.3 领域知识嵌入

变分框架允许将领域知识（物理定律、几何结构、守恒原理）原则性地嵌入到网络设计中。

9. ViT扩展

9.1 Vision Transformer

ViT将图像切分为patch，每个patch作为token。在连续框架下：

预处理：将图像patch嵌入为初始条件 $f$
后处理：最终线性层作为数据后处理

9.2 卷积Transformer

对于结构化数据（图像、视频），可以将积分变换特化为卷积核：

W_{Q} (y, t), W_{K} (y, t), W_{V} (y, t) \in Ω_{y} \times [0, + \infty)

这统一了卷积的局部性与注意力的全局性。

10. 总结

组件	连续解释	离散恢复
自注意力	非局部积分算子	Softmax加权求和
层归一化	均值-方差约束投影	标准化层
前馈网络	线性算子 + 非负约束	全连接层 + ReLU
跳跃连接	松弛步骤	残差连接
多头注意力	头维度积分	多头并行

这一框架的核心贡献在于：

统一理论基础：将Transformer纳入微分方程/控制理论的大家族
可解释性增强：每个操作都有清晰的数学含义
设计灵活性：基于连续理论可以构造新的架构变体
跨架构联系：建立CNN、UNet、Transformer的统一视角

参考文献

Tai, X. C., Liu, H., Li, L., & Chan, R. H. (2026). A Mathematical Explanation of Transformers. arXiv:2510.03989. https://arxiv.org/abs/2510.03989 ↩
Chen, R. T. Q., Rubanova, Y., Bettencourt, J., & Duvenaud, D. (2018). Neural Ordinary Differential Equations. NeurIPS. ↩
Haber, E., & Ruthotto, L. (2017). Stable architectures for deep neural networks. Inverse Problems, 34(1). ↩
Liu, H., Tai, X. C., Kolev, B., & Chen, J. (2024). A mathematical guide to UNets: operator splitting and continuous models. arXiv. ↩

Metaphor

探索

Transformer作为连续微分方程

Transformer作为连续微分方程

概述

1. 预备知识：离散Transformer编码器

1.1 基本定义

1.2 自注意力机制

1.3 层归一化

1.4 前馈网络

1.5 完整编码器块

2. 连续Transformer模型

2.1 连续化动机

2.2 连续域设置

2.3 积分变换

2.4 注意力分数

2.5 层归一化的数学刻画

2.6 连续Transformer方程

2.7 控制变量

3. 算子分裂离散化

3.1 时间离散化

3.2 各子问题的显式解

注意力层（子步1）

层归一化（子步2和最后子步）

ReLU激活（子步2+j）

4. 空间离散化与Transformer恢复

4.1 空间网格

4.2 离散积分变换

4.3 离散注意力

4.4 对应关系

4.5 一个时间步 = 一个Transformer块

5. 多头注意力

5.1 连续头维度

5.2 多头注意力方程

5.3 离散化恢复多头注意力

6. 变分视角与学习问题

6.1 连续学习问题

6.2 离散学习问题

6.3 训练即求解控制问题

7. 与其他工作的联系

7.1 与Neural ODE/ResNet的联系

7.2 与UNet的联系

8. 理论优势与应用

8.1 统一框架

8.2 架构设计新方向

8.3 领域知识嵌入

9. ViT扩展

9.1 Vision Transformer

9.2 卷积Transformer

10. 总结

参考文献

Footnotes

关系图谱

目录

反向链接

ReLU激活（子步 $2 + j$ ）