Transformer Gauge Symmetry Theory

1. 引言

Transformer Gauge Symmetry Theory（Transformer规范对称性理论）是理解现代Transformer架构参数冗余与学习动力学的统一数学框架。¹² 该理论将物理中的**规范对称性（gauge symmetry）**概念引入深度学习，揭示了Transformer参数空间中隐藏的连续对称结构。

核心洞察

与传统的离散置换对称性不同，Transformer的连续规范对称性源于其矩阵乘法结构：

Query-Key矩阵可逆变换：对任意可逆矩阵 $M \in G L_{d}$ ，同时变换 $W_{Q}$ 和 $W_{K}$ 保持注意力分数不变
Value投影的自由度： $W_{V}$ 的列空间冗余
输出投影的正交性约束： $W_{O}$ 与 $W_{Q}$ 的耦合

这种对称性结构在物理中对应规范变换，在深度学习中解释了为什么参数量远大于”功能自由度”。

与参数空间对称性的关系

Transformer Gauge Symmetry是参数空间对称性理论在自注意力架构中的具体化，同时也是参数对称性统一理论的核心案例。

2. 规范对称性定义

2.1 数学定义

定义1（Transformer函数映射）：

设Transformer的参数为 $θ = (W_{Q}, W_{K}, W_{V}, W_{O})$ ，对于输入序列 $X \in R^{n \times d}$ ，单层注意力输出为：

Attention (X; θ) = softmax (\frac{( X W _{Q} ) ( X W _{K} ) ^{T}}{d _{k}}) \cdot X W_{V} \cdot W_{O}^{T}

定义2（ $G$ -规范对称性）：

如果存在参数变换 $τ_{G} : Θ \to Θ$ 使得对于所有输入 $X$ ：

Attention (X; θ) = Attention (X; τ_{G} (θ)), \forall X \in R^{n \times d},

则称参数对称性群 $G$ 为Transformer的规范对称性。

2.2 物理类比

物理概念	Transformer对应
规范场	Query/Key投影矩阵
规范变换	可逆矩阵 $M \in G L_{d}$
物理可观测量	网络输出 $f (X; θ)$
规范固定	特定的参数化选择

这一类比源于两者的共同结构：局部自由度（规范参数）的冗余变换不改变可观测量。

2.3 注意力不变性条件

定理1（注意力分数不变性）：

给定Query矩阵 $Q = X W_{Q}$ 和Key矩阵 $K = X W_{K}$ ，对于任意可逆矩阵 $M \in G L_{d_{k}}$ ：

(QM) (K M)^{T} = Q K^{T} ⟹ softmax (\frac{Q K ^{T}}{d _{k}}) = softmax (\frac{QM M ^{T} K ^{T}}{d _{k}})

由于 $M$ 和 $M^{T}$ 的乘积不是恒等变换，完整的对称性需要更精细的分析。

3. 完整规范群结构

3.1 Canonical Transformer的规范群

定理2（最大规范对称性）¹：

对于标准Transformer层（GPT-2、BERT、LLaMA、Qwen等），其最大规范对称性群为：

G_{m a x} = ((G L (d_{k}))^{h} \times (G L (d_{v}))^{h}) ⋊ S_{h}

其中：

$h$ 为注意力头数
$G L (d_{k})$ 作用在每个头的Query-Key空间
$G L (d_{v})$ 作用在每个头的Value空间
$S_{h}$ 为头置换群
$⋊$ 表示半直积

3.2 子群分解

G_{m a x} = Query-Key 变换 (G L (d_{k}))^{h} \times Value 变换 (G L (d_{v}))^{h} ⋊ 头置换 S_{h}

Query-Key空间变换 $(G L (d_{k}))^{h}$

对于第 $i$ 个头，Query和Key投影可以同时被任意可逆矩阵变换：

W_{Q}^{(i)} \to W_{Q}^{(i)} M_{i}, W_{K}^{(i)} \to W_{K}^{(i)} M_{i}, M_{i} \in G L (d_{k})

作用机制：

Q_{i} = X W_{Q}^{(i)} \to X W_{Q}^{(i)} M_{i}, K_{i} = X W_{K}^{(i)} \to X W_{K}^{(i)} M_{i}

注意力分数变为：

\frac{Q _{i} K _{i}^{T}}{d _{k}} \to \frac{X W _{Q}^{(i)} M _{i} M _{i}^{T} ( W _{K}^{(i)} ) ^{T} X ^{T}}{d _{k}}

为保持不变性，需要 $M_{i} M_{i}^{T} = I$ ，即 $M_{i} \in O (d_{k})$ （正交群）。

Value空间变换 $(G L (d_{v}))^{h}$

Value投影和输出投影的耦合更为复杂。设：

W_{V}^{(i)} \to W_{V}^{(i)} N_{i}, W_{O}^{(i)} \to (N_{i})^{- 1} W_{O}^{(i)}, N_{i} \in G L (d_{v})

则输出保持不变：

X V_{i} W_{O}^{(i)} \to X W_{V}^{(i)} N_{i} (N_{i})^{- 1} W_{O}^{(i)} = X W_{V}^{(i)} W_{O}^{(i)}

头置换 $S_{h}$

不同注意力头之间存在置换对称性：

A^{(i)} (Q^{(i)}, K^{(i)}, V^{(i)}) = A^{(j)} (Q^{(j)}, K^{(j)}, V^{(j)}), \forall i, j

3.3 完整的规范变换

定理3（完整规范变换）¹：

完整的规范变换 $τ \in G_{m a x}$ 作用于参数：

τ W_{Q}^{(i)} W_{K}^{(i)} W_{V}^{(i)} W_{O}^{(i)} = R_{i} W_{Q}^{(i)} R_{i} W_{K}^{(i)} S_{i} W_{V}^{(i)} (S_{i})^{- 1} W_{O}^{(i)}, \forall i \in [h]

其中 $R_{i} \in G L (d_{k})$ ， $S_{i} \in G L (d_{v})$ ，且头置换 $π \in S_{h}$ 可交换头索引。

3.4 各架构的规范群对比

架构	Query-Key对称	Value对称	头置换	备注
GPT-2	$O (d_{k})^{h}$	$G L (d_{v})^{h}$	$S_{h}$	标准MHA
BERT	$O (d_{k})^{h}$	$G L (d_{v})^{h}$	$S_{h}$	与GPT-2相同
LLaMA	$O (d_{k})^{h}$	$G L (d_{v})^{h}$	$S_{h}$	RoPE打破部分
Qwen	$O (d_{k})^{h}$	$G L (d_{v})^{h}$	$S_{h}$	RoPE打破部分

4. 最大规范对称性证明

4.1 主要定理

定理4（最大性证明）¹：

设 $G$ 为使标准Transformer层输出不变的所有参数变换群。则：

G = G_{m a x} = ((G L (d_{k}))^{h} \times (G L (d_{v}))^{h}) ⋊ S_{h}

证明概要：

下界：验证 $G_{m a x} \subseteq G$ （平凡）
上界：证明任何保持输出的变换必属于 $G_{m a x}$

4.2 关键引理

引理1（Query-Key空间刚性）：

假设存在变换 $T$ 使得对所有 $Q, K$ ：

softmax (\frac{Q K ^{T}}{d _{k}}) = softmax (\frac{( QT ) ( K T ) ^{T}}{d _{k}})

则 $T \in G L (d_{k})$ 必为正交矩阵： $T \in O (d_{k})$ 。

证明思路：

取 $Q = e_{i}^{T}$ ， $K = e_{j}^{T}$ （单位向量），softmax约束意味着：

(QT) (K T)^{T} = Q K^{T} + c \cdot 1 1^{T}

其中 $c$ 为常数。对所有 $i, j$ 成立意味着 $T \in O (d_{k})$ 。

引理2（Value空间灵活性）：

Value空间的变换更为宽松：只需保证 $W_{V}$ 和 $W_{O}$ 的乘积不变。

W_{V} \to W_{V} N, W_{O} \to N^{- 1} W_{O} ⟹ W_{V} W_{O} = (W_{V} N) (N^{- 1} W_{O})

因此 $N \in G L (d_{v})$ 任意可逆。

4.3 数值稳定性保证

定理5（机器精度不变性）¹：

对于任意 $τ \in G_{m a x}$ 和任意输入 $X$ ：

∥ Attention (X; θ) - Attention (X; τ (θ)) ∥_{\infty} \leq 24 ϵ_{mach}

其中 $ϵ_{mach} \approx 2^{- 52} \approx 2.2 \times 1 0^{- 16}$ 。

这意味着规范变换在浮点运算中数值稳定，是真正的对称性而非近似。

5. RoPE与相对位置编码

5.1 标准RoPE的规范对称性

**旋转位置编码（RoPE）**通过旋转矩阵编码绝对位置，同时隐式捕获相对位置：

q_{i}^{'} = R_{i} q_{i}, k_{j}^{'} = R_{j} k_{j}

其中旋转矩阵：

R_{i} = (cos (i θ) sin (i θ) - sin (i θ) cos (i θ)), θ = \frac{1}{1000 0 ^{2 j / d}}

定理6（RoPE对称性分解）：

G_{RoPE} = 旋转不变 G_{m a x} \cap 位置编码约束 G_{pos}

5.2 GRoPE：对称性破缺的变体

**Gated RoPE（GRoPE）**通过引入门控机制改变了规范对称性结构：

q_{i}^{'} = G_{i} R_{i} q_{i}

其中 $G_{i}$ 为位置依赖的门控矩阵。

关键发现：GRoPE打破了部分规范对称性，因为：

旋转依赖性： $G_{i}$ 与 $R_{i}$ 不交换
位置耦合：不同位置的变换相互依赖
对称性降级：

G_{GRoPE} \subset G_{m a x}

5.3 对称性对比表

编码方案	Query-Key对称	Value对称	头置换	位置依赖性
无位置编码	$O (d_{k})^{h}$	$G L (d_{v})^{h}$	$S_{h}$	无
标准RoPE	$O (d_{k})^{h}$	$G L (d_{v})^{h}$	$S_{h}$	全局
GRoPE	$O (d_{k})^{h}$ (部分)	$G L (d_{v})^{h}$ (部分)	打破	局部

更多关于位置编码的几何理论，见位置编码几何理论。

6. 冗余维度发现

6.1 理论框架

定理7（冗余维度界）¹：

对于参数量为 $P$ 的Transformer，其功能自由度（functional degrees of freedom）满足：

fdof \leq \frac{P}{lo g P}

这意味着存在大量冗余维度。

6.2 110M参数模型的冗余分析

以GPT-2 Small（110M参数）为例：

组件	参数量	冗余维度估计
$W_{Q}$	$12 \times 768 \times 64$	$\sim 300$ K
$W_{K}$	$12 \times 768 \times 64$	$\sim 300$ K
$W_{V}$	$12 \times 768 \times 64$	$\sim 250$ K
$W_{O}$	$12 \times 64 \times 768$	$\sim 250$ K
总计	$\sim 44$ M（仅注意力）	~1.1M

关键发现：在110M参数模型中发现了约1.1M冗余维度。

6.3 冗余来源

来源1：规范对称性冗余

∣ G_{m a x} ∣ = ∣ G L (d_{k}) ∣^{h} \times ∣ G L (d_{v}) ∣^{h} \times ∣ S_{h} ∣ = \infty

连续群的测度无穷大，对应无限多等价的参数配置。

来源2：低秩结构

每个头的Rank约束：

Rank (W_{Q}^{(i)}) \leq min (d_{model}, d_{query})

实际学习中，权重矩阵往往呈低秩结构。

来源3：归一化层不变性

LayerNorm的参数 $γ, β$ 仅改变输出尺度和平移：

LN (x; γ, β) = γ ⊙ \frac{x - μ}{σ} + β

6.4 冗余的实践意义

参数高效微调：冗余维度允许在不改变功能的情况下修改参数
模型压缩：剪枝可以瞄准冗余方向而不损害功能
知识蒸馏：学生模型可以继承教师的功能自由度

7. GQA/MQA规范对称性

7.1 分组查询注意力（GQA）

**GQA（Grouped Query Attention）**通过共享Key和Value头减少计算量：

$n_{query}$ 个Query头
$n_{kv}$ 个Key/Value头，其中 $n_{kv} < n_{query}$
每个KV头对应 $g = n_{query} / n_{kv}$ 个Query头

7.2 GQA的规范群

定理8（GQA规范对称性）¹：

G_{GQA} = ((G L (d_{k}))^{n_{query}} \times (G L (d_{v}))^{n_{kv}}) ⋊ (S_{n_{kv}} ≀ S_{g})

其中 $S_{n_{kv}} ≀ S_{g}$ 为** wreath product**（卷积积）。

解释：

Query头可以在组内置换： $S_{g}^{n_{kv}}$
KV头可以整体置换： $S_{n_{\text{kv}}}}$
组合： $(S_{g})^{n_{kv}} ⋊ S_{n_{kv}}$

7.3 共享Value的约束

当多个Query头共享同一个Value头时，规范对称性降低：

W_{V}^{(i)} = W_{V}^{(j)} 对于共享同一 KV 头的 Query i, j

这打破了独立的Value空间变换自由度。

7.4 对称性降级链

G_{MHA} \supset G_{GQA} \supset G_{MQA}

架构	$n_{query} : n_{kv}$	对称性维度	冗余度
MHA	$12 : 12$	$12 \times d_{k}^{2} + 12 \times d_{v}^{2}$	高
GQA	$12 : 4$	$12 \times d_{k}^{2} + 4 \times d_{v}^{2}$	中
MQA	$12 : 1$	$12 \times d_{k}^{2} + 1 \times d_{v}^{2}$	低

7.5 实践启示

GQA/MQA的对称性降低意味着：

更少的等价参数配置：剪枝和微调空间受限
更快的收敛：功能自由度更少
潜在的表达能力损失：但通常被计算效率补偿

8. MoE路由不变性

8.1 MoE架构概述

**Mixture of Experts（MoE）**通过稀疏激活的专家网络扩展模型容量：

MoE (x) = i = 1 \sum E G (x)_{i} E_{i} (x)

其中 $E_{i}$ 是第 $i$ 个专家， $G (x)$ 是路由函数。

8.2 Top-K路由的规范不变性

定理9（路由不变性）¹：

标准Top-K路由函数对规范变换不变：

G (x) = TopK (Softmax (W x)), G (τ (x)) = G (x) \forall τ \in G_{m a x}

证明：

规范变换 $τ$ 保持注意力输出不变
路由器通常只看隐藏激活，不涉及投影矩阵
因此路由决策在规范变换下保持不变

8.3 软路由vs硬路由

路由类型	规范不变性	对称性依赖
Softmax路由	✓	不变
Top-K硬路由	✓	不变
随机路由	✓	不变
可学习硬门控	✗	可能打破

8.4 专家对称性

引理3（专家置换对称性）：

专家网络之间存在置换对称性：

E_{i} \leftrightarrow E_{j} ⟹ MoE (x; \dots, E_{i}, \dots, E_{j}, \dots) = MoE (x; \dots, E_{j}, \dots, E_{i}, \dots)

这导致额外的冗余：

∣ G_{experts} ∣ = E!

8.5 路由与规范的交互

关键观察：

规范变换不改变路由：因为路由基于功能等价的隐藏状态
路由不引入新的对称性：但依赖现有规范对称性
负载均衡损失：可能打破规范对称性

9. 实际应用与启示

9.1 锐度度量与规范无关性

问题：传统的锐度度量（如Hessian范数）对规范变换敏感：

∥ \nabla^{2} L (θ) ∥ \neq = ∥ \nabla^{2} L (τ (θ)) ∥

解决方案：使用规范不变的锐度度量

定义（规范不变锐度）：

Sharpness_{invariant} (θ) = τ \in G min \nabla^{2} L (τ (θ))

9.2 优化景观理解

定理10（景观平坦性）：

规范对称性解释了为什么：

flat minima存在：同一功能对应无限多参数配置
mode connectivity：极小值通过规范变换连接
scaling laws：对称性破缺与模型规模相关

9.3 参数高效微调

规范对称性为PEFT方法提供理论基础：

方法	对称性利用	效果
LoRA	低秩约束 $\subset G L (d)$	利用冗余
Adapter	瓶颈结构	减少对称性
Prefix	额外位置	引入新对称性

详见 LoRA 和 Adapter Methods。

9.4 模型合并与对齐

应用：利用规范对称性进行模型合并

def align_models(theta1, theta2, G_max):
    """将两个模型对齐到同一规范等价类"""
    min_dist = float('inf')
    best_tau = None
    
    for tau in sample_gauge_group(G_max, n_samples=1000):
        dist = norm(theta1 - tau(theta2))
        if dist < min_dist:
            min_dist = dist
            best_tau = tau
    
    return theta2_aligned = best_tau(theta2)

详见模式连接理论。

10. 数学形式化总结

10.1 完整规范群作用

设 $θ = (W_{Q}^{(i)}, W_{K}^{(i)}, W_{V}^{(i)}, W_{O}^{(i)})_{i = 1}^{h}$ ，规范变换 $τ (M, N, π) \in G_{m a x}$ 作用为：

τ (M, N, π) \cdot θ = (M_{π (i)} W_{Q}^{(i)}, M_{π (i)} W_{K}^{(i)}, N_{π (i)} W_{V}^{(i)}, N_{π (i)}^{- 1} W_{O}^{(i)})

其中：

$M = (M_{1}, \dots, M_{h}) \in (G L (d_{k}))^{h}$
$N = (N_{1}, \dots, N_{h}) \in (G L (d_{v}))^{h}$
$π \in S_{h}$ 为置换

10.2 商空间与功能流形

参数空间在规范群作用下的商空间：

Θ/ G_{m a x} ≅ F

其中 $F$ 为所有可能的注意力函数空间。

维数分析：

dim (Θ) = 4 h (d_{k} + d_{v}) d_{model}

dim (G_{m a x}) = h (d_{k}^{2} + d_{v}^{2}) + lo g (h!)

dim (F) = dim (Θ) - dim (G_{m a x}) + 非线性自由度

10.3 稳定性分析

定理11（轨道稳定性）：

规范群轨道 $O (θ) = {τ (θ) : τ \in G_{m a x}}$ 在以下条件下稳定：

$W_{Q}^{(i)}, W_{K}^{(i)}$ 列满秩
$W_{V}^{(i)}, W_{O}^{(i)}$ 乘积非奇异
头之间线性无关

11. 与其他理论的关系

11.1 与神经正切核的联系

规范对称性影响NTK的谱结构：

κ_{NTK} (x, x^{'}) = τ \in G \sum κ_{0} (τ (x), x^{'})

对称性导致NTK特征函数的聚集效应。

11.2 与谱范数的关系

定理12（谱约束）：

为保持数值稳定性，规范变换需满足：

∥ M_{i} ∥ \leq κ_{m a x}, ∥ N_{i} ∥ \leq κ_{m a x}

这解释了为什么实际训练中权重矩阵的谱范数趋于有界。

11.3 与信息瓶颈的联系

规范对称性与信息瓶颈存在深层联系：

I (X; T) - β I (Y; T) \approx lo g ∣ G ∣ - β \cdot fdof (T)

对称性降低有效信息复杂度。

12. 实验验证

12.1 对称性验证实验

实验设计：

对训练好的模型应用随机规范变换 $τ \in G_{m a x}$
测量输出差异
验证差异在 $ϵ_{mach}$ 范围内

结果（GPT-2 Small on WikiText-103）：

\frac{∥ Attention ( X ; θ ) - Attention ( X ; τ ( θ )) ∥ _{\infty}}{∥ Attention ( X ; θ ) ∥ _{\infty}} \leq 1 0^{- 12}

12.2 冗余维度测量

方法：通过随机投影估计功能自由度

采样 $k$ 个随机方向 $v_{1}, \dots, v_{k}$
对每个方向应用规范变换
测量输出变化

结果：1.1M冗余维度估计与理论界吻合。

12.3 GQA对称性降级

架构	对称性维度	功能等价类大小	收敛速度
MHA	100%	$\infty$	慢
GQA-4	75%	$\infty$	中
GQA-8	50%	$\infty$	快

13. 总结与展望

13.1 核心贡献

完整规范群刻画： $G_{m a x} = ((G L (d_{k}))^{h} \times (G L (d_{v}))^{h}) ⋊ S_{h}$
最大性证明：严格证明Canonical Transformer无更大的对称性
冗余维度量化：110M模型中约1.1M冗余维度
架构变体分析：RoPE、GQA、MoE的对称性结构

13.2 开放问题

动态对称性：训练过程中对称性如何演化？
非标准架构：RWKV、Mamba等的状态空间模型对称性？
多模态扩展：跨模态Transformer的联合规范群？

13.3 实践建议

微调时考虑冗余：利用规范等价性选择更好初始点
模型合并前对齐：在统一规范类中合并模型
锐度度量规范化：使用规范不变度量评估泛化

参考文献

本页面系统整理Transformer规范对称性理论的核心内容，涵盖数学基础、架构变体分析和实践应用。

Anonymous. “Maximal Gauge Symmetry in Transformer” (ICLR 2026 under review) ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
Chuang et al. “Parameter Symmetry Potentially Unifies Deep Learning Theory” (arXiv:2502.05300, 2025) ↩

Metaphor

探索