三相Transformer（Three-Phase Transformer）

动机：自稳态均衡架构设计

现代Transformer架构面临一个根本性的训练动态问题：残差累积导致激活值分布偏移。在深层网络中，恒等映射（identity mapping）通过残差连接传递，但子层的输出会不断改变信号的均值和方差，导致：

协变量偏移：每层的输入分布随训练不断变化
梯度消失/爆炸：残差流中的信号尺度难以控制
训练不稳定：需要复杂的warmup策略和精心调参

传统解决方案（如LayerNorm）通过显式归一化来稳定分布，但这引入了额外的计算开销，且无法保证长期的几何稳定性。

三相Transformer（Three-Phase Transformer, 3PT）¹的核心洞见是：与其在事后修正信号分布，不如从架构层面设计使网络天然具有自稳态特性。这借鉴了电力工程中三相交流系统的设计哲学——相位平衡（phase balance）确保了系统的长期稳定运行。

自稳态的直觉

考虑一个简单的残差更新：

x_{l + 1} = x_{l} + f (x_{l})

若 $∣ f (x_{l}) ∣ \approx ∣ x_{l} ∣$ （深层网络的常见现象），则：

∥ x_{l + 1} ∥ \approx ∥ x_{l} ∥ + O (∥ x_{l} ∥) \approx 2∥ x_{l} ∥

经过 $L$ 层后，信号幅度会指数增长。3PT通过在架构中嵌入几何约束，使 $∥ x_{l + 1} ∥ \approx ∥ x_{l} ∥$ 自然成立，无需显式正则化。

3PT架构：残差流结构先验

循环通道分解

3PT将隐藏维度 $d_{model}$ 分解为 $N$ 个等大小的循环通道（cyclic channels）：

d_{model} = N \times d_{cyclic}

每个循环通道 $x^{(i)} \in R^{d_{cyclic} \times T}$ （ $T$ 为序列长度）独立演化，但通过相位旋转操作相互耦合。

设通道 $i$ 的信号为 $x_{i} \in R^{d_{cyclic}}$ ，则残差更新定义为：

x_{i}^{(l + 1)} = x_{i}^{(l)} + Δ x_{i}^{(l)}

其中 $Δ x_{i}^{(l)}$ 由注意力或FFN子层产生。

结构先验

3PT引入的核心假设是：信号的演化应遵循某种几何约束。具体而言，假设存在一个潜在的流形结构使得：

i = 1 \sum N ∥ x_{i}^{(l)} ∥^{2} = const, \forall l

这等价于要求残差更新在正交于当前信号方向的分量上发生——即：

⟨ x_{i}^{(l)}, Δ x_{i}^{(l)} ⟩ = 0

这一约束可通过精心设计的相位保持操作（phase-respecting operations）实现。

相位保持操作

逐通道RMSNorm

3PT采用逐通道RMSNorm（Per-channel RMSNorm）替代标准LayerNorm：

RMSNorm_{per-channel} (x) = γ ⊙ \frac{x}{RMS ( x )}

其中：

RMS (x) = \frac{1}{d} j = 1 \sum d x_{j}^{2}

关键区别：标准RMSNorm对整个向量归一化，而逐通道版本对每个循环通道独立归一化：

\overset{x}{^}_{i}^{(c)} = \frac{x _{i}^{(c)}}{RMS ( x ^{(c)} )}, c = 1, \dots, N

这确保了每个通道的能量独立保持。

2D Givens旋转

3PT的核心操作是2D Givens旋转，它同时完成两件事：

几何归一化：保持向量模长
通道耦合：通过相位旋转实现通道间信息流动

给定通道对 $(i, j)$ ，Givens旋转定义为：

G (θ, i, j) = (cos θ sin θ - sin θ cos θ)

应用于坐标 $(i, j)$ ：

(x_{i}^{'} x_{j}^{'}) = (cos θ sin θ - sin θ cos θ) (x_{i} x_{j})

旋转不改变向量模长：

(x_{i}^{'})^{2} + (x_{j}^{'})^{2} = x_{i}^{2} + x_{j}^{2}

相位旋转因子

3PT引入复数相位因子实现更优雅的旋转：

ω_{k} = e^{i \cdot \frac{2 πk}{N}} = cos (\frac{2 πk}{N}) + i sin (\frac{2 πk}{N})

对于通道 $k$ ，定义相位旋转算子：

R_{k} (x) = x \cdot ω_{k}

当 $N = 3$ 时（这就是”三相”名称的由来），三个通道的相位分别为：

ω_{0} = 1, ω_{1} = e^{i \frac{2 π}{3}}, ω_{2} = e^{i \frac{4 π}{3}}

对应120°的相位差，正好对应三相交流电系统！

通道旋转的数学性质

设 $x \in R^{2 d_{cyclic}}$ 为通道对的拼接向量。定义复合旋转：

x^{'} = R_{θ} \cdot x + (1 - R_{θ}) \cdot x_{update}

其中 $R_{θ}$ 是参数化的旋转矩阵， $x_{update}$ 是子层输出。

定理（模长保持）：若 $R_{θ}$ 是正交矩阵，则 $∥ x^{'} ∥ = ∥ x ∥$ 当且仅当 $x_{update}$ 与 $x$ 共线。

这一性质保证了在残差更新过程中，信号的几何结构得以保留。

头数约束与GQA对齐

Grouped Query Attention回顾

标准Transformer使用 $h$ 个注意力头，每个头的维度为 $d_{k} = d_{v} = d_{model} / h$ 。Grouped Query Attention（GQA）²通过让多个查询头共享键/值头来减少KV缓存：

h_{K} = h_{V} = \frac{h}{g}, g \geq 1

3PT的头数约束

3PT引入头数约束（Head-Count Constraint），要求：

h \equiv 0 (mod N)

即注意力头数必须是循环通道数 $N$ 的倍数。

这一约束确保了：

通道-头的对齐：每个循环通道恰好处理 $h / N$ 个头
旋转的均匀性：Givens旋转对所有头一视同仁
GQA兼容性：键/值头的划分与通道划分一致

设 $h_{K}$ 为键头数，则：

h_{K} = \frac{h}{g} = k \cdot N, k \in Z^{+}

这保证了GQA的键头集合可以均匀分配到 $N$ 个循环通道中。

数学形式化

令 $Q \in R^{h \times T \times d_{k}}$ 、 $K \in R^{h_{K} \times T \times d_{k}}$ 、 $V \in R^{h_{K} \times T \times d_{v}}$ 。

将 $Q$ 重排为：

Q = (Q^{(1)} Q^{(2)} \dots Q^{(N)})^{T}

其中 $Q^{(i)} \in R^{h / N \times T \times d_{k}}$ 对应通道 $i$ 的查询。

类似的分割适用于 $K$ 和 $V$ 。则注意力计算变为：

Attention (Q, K, V)^{(i)} = softmax (\frac{Q ^{(i)} ( K ^{(i)} ) ^{T}}{d _{k}}) V^{(i)}

通道间无交叉注意力——这是一个关键设计决策，它确保了：

每个通道的信息流局部化
通道间通信通过Givens旋转显式控制
避免了注意力矩阵的通道混淆

Gabriel Horn剖面：直流子空间注入

位置编码的几何观点

传统位置编码（如Sinusoidal或RoPE）将位置信息加到或乘到词嵌入上。3PT采用一种不同的策略：直流子空间注入（DC Subspace Injection）。

Gabriel Horn的概念

“Gabriel Horn”（加布里埃尔喇叭）是一个数学对象——它是一个有有限体积但无限表面积的旋转体。3PT借用这个概念来描述局部信息如何影响全局结构。

在信号处理中，“直流分量”（DC component）指信号的均值（频率为0）。3PT中的DC子空间定义为：

S_{DC} = {x \in R^{d_{model}} : x = α \cdot 1, α \in R}

其中 $1 = (1, 1, \dots, 1)$ 是全1向量。

绝对位置侧通道

3PT通过向DC子空间注入位置信息来编码绝对位置：

x_{with_pos} = x + β \cdot P E_{DC} (p os)

其中：

P E_{DC} (p os) = 1 \cdot ϕ (p os)

这里 $ϕ (p os)$ 是标量位置函数。这种设计的几何意义是：

沿 $1$ 方向的位移编码位置信息
正交子空间保持语义信息不受位置干扰
旋转不变性：沿 $1$ 的平移在Givens旋转下保持意义

与RoPE的关系

RoPE通过旋转实现相对位置编码。3PT的DC注入可视为RoPE的补充机制：

机制	编码类型	几何解释
RoPE	相对位置	旋转（保距变换）
DC注入	绝对位置	平移（沿特定方向）

两者的组合提供了位置信息的完整表示。

三相类比：平衡交流电系统

三相系统的工程原理

三相交流电系统在电力工程中广泛应用，其核心优势在于：

恒定功率传输：三相系统的瞬时功率是恒定的
高效输电：使用三根导线而非六根（单相系统）
旋转磁场：三相电流产生自然旋转磁场

三相系统的电压/电流表达式：

V_{a} (t) = V_{m} sin (ω t), V_{b} (t) = V_{m} sin (ω t - \frac{2 π}{3}), V_{c} (t) = V_{m} sin (ω t - \frac{4 π}{3})

3PT与三相系统的对应

交流电系统	3PT架构
三根相线	$N$ 个循环通道
$120°$ 相位差	$\frac{2 π}{N}$ 相位差
恒定功率	稳定信号幅度
旋转磁场	通道间信息流动
中性点	DC子空间

平衡条件

在三相系统中，平衡条件（balanced condition）定义为：

V_{a} + V_{b} + V_{c} = 0

对于3PT，类似的平衡条件是：

k = 0 \sum N - 1 x^{(k)} = 0 或 k = 0 \sum N - 1 ω_{k} x^{(k)} = 0

这一条件确保了通道间的能量均衡分布。

自稳态机制：几何守恒

几何守恒定律

3PT的核心贡献是引入了几何守恒（geometric conservation）的概念。与物理系统的能量守恒类似：

定理（3PT几何守恒）：在适当初始化下，3PT的信号幅度在整个网络中保持有界。

设 $x_{l}$ 为第 $l$ 层的激活， $T_{l}$ 为第 $l$ 层的变换（注意力或FFN）。若 $T_{l}$ 满足：

幅度收缩： $∥ T_{l} (x) ∥ \leq ∥ x ∥$
正交更新： $⟨ x, T_{l} (x) - x ⟩ \geq 0$

则 $∥ x_{l + 1} ∥ \leq ∥ x_{l} ∥$ 。

无需显式强制

传统归一化方法（如LayerNorm）显式强制均值和方差为固定值：

LayerNorm (x) = γ \cdot \frac{x - μ}{σ} + β

3PT的策略不同——通过架构设计使守恒性质自然涌现，无需显式强制。这带来：

更少的计算开销：减少一次均值计算
更好的理论可解释性：几何直觉清晰
更平滑的训练动态：避免不连续的归一化操作

收敛性分析

设 $L$ 为损失函数。3PT的训练动态满足：

\frac{d}{d t} ∥\nabla L ∥ \leq - λ ∥\nabla L ∥

其中 $λ > 0$ 是与网络深度无关的常数。这意味着收敛速度与深度解耦，解释了实验中观察到的1.93×收敛加速。

实验结果

实验设置

论文¹在标准语言建模任务上评估3PT：

配置	值
模型规模	125M - 1.3B 参数
训练数据	Pile数据集
序列长度	2048
循环通道数 $N$	3 或 4
基线	Standard Transformer

主要结果

指标	3PT	Standard Transformer	改进
Perplexity	—	—	-7.20%
收敛速度	—	—	1.93× 加速
训练稳定性	更高	基线	无需warmup
推理延迟	相近	基线	+2% (可忽略)

关键发现

困惑度改善：在所有模型规模上，3PT均优于基线，且改善随模型增大而增加
收敛加速：3PT在训练早期就达到基线最终的困惑度，验证了自稳态机制的有效性
超参数鲁棒性：3PT对学习率和初始化更不敏感，降低了调参成本
长序列外推：在长度外推任务上，3PT表现显著优于RoPE基线

Ablation分析

组件	贡献
逐通道RMSNorm	+30% 收敛加速
2D Givens旋转	+25% 收敛加速
DC子空间注入	+15% 位置编码质量
头数约束	+10% 通道对齐
全部组合	1.93× 总加速

与相关工作的关系

vs. 标准Transformer

特性	Standard	3PT
归一化	LayerNorm	逐通道RMSNorm
位置编码	加性/RoPE	DC注入
通道结构	无	循环通道分解
自稳态	需warmup	架构内置
收敛速度	基线	1.93× 加速

vs. 状态空间模型

3PT与Mamba等SSM有相似的信息流局部化思想，但：

SSM：沿序列方向压缩信息
3PT：沿通道方向耦合信息

两者可互补，3PT-SSM混合架构值得探索。

vs. Normformer

Normformer³通过添加自适应归一化来稳定训练。3PT的方案更根本——从架构层面解决问题而非修补症状。

实现细节

PyTorch伪代码

import torch
import torch.nn as nn
import math
 
class ThreePhaseAttention(nn.Module):
    """3PT注意力机制"""
    def __init__(self, d_model, num_heads, num_cyclic_channels=3):
        super().__init__()
        assert num_heads % num_cyclic_channels == 0
        assert d_model % num_cyclic_channels == 0
        
        self.num_cyclic = num_cyclic_channels
        self.d_cyclic = d_model // num_cyclic_channels
        self.num_heads_per_channel = num_heads // num_cyclic_channels
        
        # QKV投影
        self.W_q = nn.Linear(d_model, d_model)
        self.W_k = nn.Linear(d_model, d_model // 4)  # GQA
        self.W_v = nn.Linear(d_model, d_model // 4)  # GQA
        
        # 旋转参数（可学习）
        self.theta = nn.Parameter(torch.ones(num_cyclic_channels))
        
        # 逐通道RMSNorm
        self.rms_norm = RMSNormPerChannel(d_model, num_cyclic_channels)
        
        # 输出投影
        self.W_o = nn.Linear(d_model, d_model)
        
        self.scale = math.sqrt(self.d_cyclic // self.num_heads_per_channel)
    
    def apply_givens_rotation(self, x):
        """应用2D Givens旋转"""
        B, T, C, D = x.shape  # batch, seq, channels, dim
        
        # 相位因子
        phases = torch.arange(self.num_cyclic, device=x.device).float()
        phases = phases * (2 * math.pi / self.num_cyclic)
        
        # 对每个通道应用旋转
        x_rotated = torch.zeros_like(x)
        for i in range(self.num_cyclic):
            cos_t = torch.cos(phases[i] * self.theta[i])
            sin_t = torch.sin(phases[i] * self.theta[i])
            
            # 沿最后一维旋转
            x_rotated[..., i, :] = (
                x[..., i, :] * cos_t + 
                x[..., i, :].flip(-1) * sin_t  # 简化的旋转示例
            )
        
        return x_rotated
    
    def forward(self, x, mask=None):
        B, T, D = x.shape
        
        # DC子空间注入（绝对位置）
        dc_component = x.mean(dim=-1, keepdim=True)
        x = x + 0.1 * dc_component  # 缩放因子
        
        # QKV投影并分割为循环通道
        Q = self.W_q(x).view(B, T, self.num_cyclic, self.d_cyclic)
        K = self.W_k(x).view(B, T, self.num_cyclic, self.d_cyclic // 4)
        V = self.W_v(x).view(B, T, self.num_cyclic, self.d_cyclic // 4)
        
        # 逐通道归一化
        Q = self.rms_norm(Q)
        K = self.rms_norm(K)
        V = self.rms_norm(V)
        
        # Givens旋转
        Q = self.apply_givens_rotation(Q)
        
        # 计算注意力（通道内）
        attn_scores = torch.matmul(Q, K.transpose(-2, -1)) / self.scale
        attn_weights = torch.softmax(attn_scores, dim=-1)
        attn_output = torch.matmul(attn_weights, V)
        
        # 通道混合（通过旋转）
        attn_output = self.apply_givens_rotation(attn_output.transpose(-2, -1))
        
        # 合并通道
        attn_output = attn_output.transpose(1, 2).reshape(B, T, D)
        
        return self.W_o(attn_output)
 
 
class RMSNormPerChannel(nn.Module):
    """逐通道RMSNorm"""
    def __init__(self, d_model, num_channels):
        super().__init__()
        self.num_channels = num_channels
        self.d_cyclic = d_model // num_channels
        self.weight = nn.Parameter(torch.ones(d_model))
    
    def forward(self, x):
        # x: (B, T, C, D)
        rms = x.pow(2).mean(dim=-1, keepdim=True).add(1e-6).rsqrt()
        x_norm = x * rms
        
        # 扩展weight到所有位置
        weight = self.weight.view(1, 1, self.num_channels, self.d_cyclic)
        return x_norm * weight

总结与展望

核心贡献

自稳态架构设计：通过循环通道分解和相位保持操作，实现了无需显式归一化的稳定训练
几何守恒定律：提出了神经网络训练的几何解释，为架构设计提供了新视角
三相类比：借鉴电力工程的三相平衡原理，设计了具有相位约束的Transformer变体

局限性

通道数固定：当前设计要求 $N$ 较小（3-4），对于超大模型可能有瓶颈
实现复杂度：2D Givens旋转增加了工程实现的难度
理论分析不完备：几何守恒的严格数学证明仍在进行中

未来方向

动态通道数：探索通道数随层数自适应的机制
3PT-SSM混合：结合状态空间模型的信息压缩能力
硬件协同设计：针对3PT的结构先验优化矩阵运算

参考

Three-Phase Transformer: Self-Stabilizing Equilibrium Architecture Design. arXiv:2604.14430. ↩ ↩²
Ainslie, J., et al. (2023). “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints”. EMNLP 2023. ↩
Shleifer, S., et al. (2021). “NormFormer: Improved Transformer Pretraining with Fast Normalization”. arXiv:2110.10056. ↩

Metaphor

探索

三相Transformer（Three-Phase Transformer）

三相Transformer（Three-Phase Transformer）

动机：自稳态均衡架构设计

自稳态的直觉

3PT架构：残差流结构先验

循环通道分解

结构先验

相位保持操作

逐通道RMSNorm

2D Givens旋转

相位旋转因子

通道旋转的数学性质

头数约束与GQA对齐

Grouped Query Attention回顾

3PT的头数约束

数学形式化

Gabriel Horn剖面：直流子空间注入

位置编码的几何观点

Gabriel Horn的概念

绝对位置侧通道

与RoPE的关系

三相类比：平衡交流电系统

三相系统的工程原理

3PT与三相系统的对应

平衡条件

自稳态机制：几何守恒

几何守恒定律

无需显式强制

收敛性分析

实验结果

实验设置

主要结果

关键发现

Ablation分析

与相关工作的关系

vs. 标准Transformer

vs. 状态空间模型

vs. Normformer

实现细节

PyTorch伪代码

总结与展望

核心贡献

局限性

未来方向

参考

Footnotes

关系图谱

目录