拓扑不变性与学习率临界点

1. 引言：为什么拓扑视角对理解深度学习至关重要？

深度学习已发展成为极其强大的工具，然而由于其复杂性和固有的非线性，学术界对其内在机制的理解仍然有限。在众多理解机器学习的视角中，学习动力学尤为关键。研究学习动力学具有强烈的实践动机：统一的学习动力学理解可以为新型正则化技术、学习率调度算法和其他训练策略的设计提供指导，从而减少对大量超参数调优的依赖，促进更高效模型的开发。¹

现代神经网络的参数量可达数十亿甚至万亿级别，这导致了极其复杂的动力学，使得传统动力系统工具和理论难以直接应用。来自自然科学和数学领域的经验表明，存在两种主要方法：研究高维对象的不变性，以及将其分解为更简单的部分。第一种方法直接降低问题维度，第二种方法允许将其视为低维对象的组合。

本文介绍的拓扑不变性理论为这两条路径之间提供了关键链接，揭示了由于模型（或学习算法）的置换不变性（或等变性），几乎任何神经网络都可以自然地分解为相互作用的”神经元”系统，其维度远小于原始参数空间。

2. 核心定理：置换等变学习规则的拓扑约束

2.1 问题的数学形式化

考虑一个（可能是无限的） $D$ 维向量集合（对应于神经元）及其动力学（对应于学习算法）。设 $I$ 为任意（可能不可数的）索引集合，我们关注由 $I$ 索引的 $D$ 维向量集合：

X (t) = {x (t)_{i}}_{i \in I} \in (R^{D})^{I} (2.1)

其中 $t \in N$ 是时间轴。 $X (t)$ 通过步长 $η > 0$ 的通用更新规则 $U (t) : (R^{D})^{I} \to (R^{D})^{I}$ 更新：

x (t + 1)_{i} = x (t)_{i} + η U (t)_{i} (X) (2.2)

其中 $U (t)_{i} (X) = (U (t) (X))_{i}$ 。这里， $X (t)$ 中的每个元素对应神经网络在训练步 $t$ 时一个神经元的权重， $U (t)$ 对应 $t$ 时刻的学习算法。

2.2 置换对称性与等变性

置换对称性是指函数输出在输入置换下保持不变的性质。这种性质在神经网络中普遍存在，并被广泛用于分析损失景观。

例如，任何具有以下结构的神经网络组件（如一层）：

f (x; W_{1}, W_{2}) = W_{2} σ (W_{1} x) (2.3)

其中 $W_{1}, W_{2}$ 是可学习参数矩阵， $x$ 是输入向量， $σ$ 是逐元素应用的标量激活函数，都具有置换对称性，因为对于任意排列矩阵 $P$ ：

f (x; W_{1}, W_{2}) = (P W_{2}^{T})^{T} σ ((P W_{1}) x) = f (x; P W_{1}, W_{2} P^{T}) (2.4)

如果我们把 $W_{2}$ 的第 $i$ 行与 $W_{1}$ 的第 $i$ 列配对作为一个单元（这在我们的理论中构成一个”神经元”），那么对称性可以理解为：模型在交换两个神经元 $(w_{1, i}, w_{2, i}) \leftrightarrow (w_{1, j}, w_{2, j})$ 时保持不变。

等变性属性（性质P1）：称更新规则 $U (t)$ 具有等变性，如果对于任意 $t \in N$ 、任意 $X \in (R^{D})^{I}$ 和 $P \in FSym (I)$ ：

P U (t) (X) = U (t) (PX) (2.5)

在深度学习中，这一性质是运行基于梯度的算法于置换对称损失函数的结果。

2.3 连续性属性

$K$ -连续性属性（性质P2- $K$ ）：对于 $K > 0$ ，如果对于任意 $t \in N$ 和任意 $X, Y \in (R^{D})^{I}$ ：

∥ U (t) (X) - U (t) (Y) ∥ \leq K ∥ X - Y ∥ (2.6)

则称 $U (t)$ 具有 $K$ -连续性属性。

当 $I$ 有限且 $U (t)$ 是梯度下降时， $K$ 是损失函数Hessian矩阵的最大特征值， $K$ -连续性属性成为梯度Lipschitz连续性的上界。

2.4 核心引理

引理1（良定义性）：当 $U (t)$ 满足性质P1时，以下命题成立。对于任意 $i, j \in I$ 且 $i \neq = j$ ，如果时刻 $t$ 有 $x (t)_{i} = x (t)_{j}$ ，则：

x (t + 1)_{i} = x (t + 1)_{j} (2.7)

引理2（无合并或分裂）：如果 $U (t)$ 满足性质P1和P2- $K$ ，则对于任意 $i, j \in I$ 且 $i \neq = j$ ：

(1 - ηK) ∥ x (t)_{i} - x (t)_{j} ∥ \leq ∥ x (t + 1)_{i} - x (t + 1)_{j} ∥ \leq (1 + ηK) ∥ x (t)_{i} - x (t)_{j} ∥ (2.8)

这个引理蕴含了更新规则在连续时间步之间神经元流形之间的双Lipschitz性。这一发现是非平凡的，因为这类映射已知保持拓扑不变量（如下一节所示）并控制几何畸变。

更重要的是，引理2识别了一个拓扑临界点：

η^{*} = \frac{1}{K} (2.9)

当 $ηK < 1$ 时，下界有效；否则下界变为空。如我们将在下一节看到的，这标志着从双射、同胚动力学到仅仅是满射连续动力学之间的相变。

3. bi-Lipschitz映射与神经元拓扑约束

3.1 从神经元集合到拓扑空间

关键视角是：神经元的整体可以被视为 $R^{D}$ 中的一个集合（或流形） $S$ ，神经元的演化可以视为 $S$ 的演化。

形式上，设：

S (t) = {x (t)_{i} ∣ i \in I} \subseteq R^{D} (3.1)

表示 $X (t)$ 中所有神经元形成的集合，装备从 $R^{D}$ 继承的相对拓扑。定义函数 $\hat{U} (t) : S (t) \to S (t + 1)$ 为：

\hat{U} (t) (x (t)_{i}) = x (t + 1)_{i} (3.2)

直观上， $\hat{U} (t)$ 描述了 $U (t)$ 对 $S (t)$ 每个点的影响。

3.2 主定理：拓扑不变性

定理1（主定理）：如果 $U (t)$ 满足性质P1和P2- $K$ ，则：

$\hat{U} (t)$ 是从 $S (t)$ 到 $S (t + 1)$ 的连续满射；
如果 $S (t)$ 是紧致的，则 $S (t + 1)$ 也是紧致的，且 $\hat{U} (t)$ 是商映射；
如果 $ηK < 1$ ，则 $\hat{U} (t)$ 是同胚**；**
如果 $ηK < 1$ ，且 $U (t)$ 还满足光滑性性质P3，且 $S (t)$ 是 $R^{D}$ 的开子集，则 $S (t + 1)$ 也是开集，且 $\hat{U} (t)$ 是 $C^{1}$ -微分同胚。

3.3 定理的物理意义

这一结果揭示了学习率临界点的深刻意义：

当学习率低于临界阈值 $η^{*} = 1/ K$ 时，神经元集合 $S (t)$ 通过同胚（或如果光滑性成立则通过微分同胚）演化。这意味着：

拓扑不变量被保持：如果神经元初始时形成一个与圆环面或任何其他流形同胚的空间，它们将在整个训练过程中保持该拓扑类型；
神经元不能合并：除非它们在初始化时相同，否则即使经过无限步训练也不会合并；
一旦合并，无法分离：这与对称性理论中的”对称性恢复”机制直接对应。

当学习率超过临界点时，同胚演化被打破。合并和更一般的拓扑变化成为可能，学习过程不能再被描述为局部相互作用。这意味着平均场理论不再适用。

3.4 与NTK理论的关系

同胚（微分同胚）演化确保神经元分布 $P_{t} (w)$ 服从标准变量变换公式，导致无限宽度极限下的Vlasov型方程。由于我们的理论独立于神经网络的具体架构，它可能为深度学习推导最一般类型的平均场理论。

这一发现既支持了将平均场理论（包括NTK理论）用于理解小学习率下神经网络训练的主流做法，也解释了大学习率时它们的失效原因。

4. 拓扑临界学习率 $η^{*}$ 的定义与意义

4.1 形式定义

拓扑临界学习率定义为：

η^{*} = \frac{1}{K} (4.1)

其中 $K$ 是更新规则 $U (t)$ 的 $K$ -连续性常数。当使用SGD时， $K$ 可以近似为局部Hessian矩阵的最大特征值 $λ_{m a x} (H (θ))$ 。

4.2 优化视角的解释

从二阶泰勒展开的角度，拓扑临界点 $η^{*} = 1/ K$ 对应于最优损失减少的步长。具体而言：

L (x - η \nabla L (x)) \leq L (x) - η ∥\nabla L (x) ∥^{2} + \frac{K η ^{2}}{2} ∥\nabla L (x) ∥^{2} = L (x) + (\frac{K}{2} η^{2} - η) ∥\nabla L (x) ∥^{2}

最优减少发生在 $η^{*} = 1/ K$ ，这与Edge of Stability理论中发现的临界步长 $η_{c} = 2/ λ_{m a x}$ 仅相差常数因子。

这表明在梯度下降和置换对称性存在的背景下，损失只能在神经元拓扑被保持时才能被稳定优化。

4.3 与Edge of Stability现象的联系

临界点类型	定义	物理意义
拓扑临界点 $η^{*}$	$1/ K$	保持神经元拓扑的学习率上界
Edge of Stability $η_{EOS}$	$2/ λ_{m a x}$	Hessian最大特征值的稳定边界

两个临界点都编码了优化稳定性的信息，但侧重点不同：

$η^{*}$ 关注神经元流形的拓扑演化
$η_{EOS}$ 关注损失函数的几何稳定性

结合两者，我们得到深度网络训练动力学的完整图景。

5. 两阶段学习动态

5.1 阶段1： $η < η^{*}$ 下的拓扑约束平滑优化

当学习率低于拓扑临界点时，训练过程展现出以下特征：

拓扑保持特性：

神经元流形通过微分同胚演化
神经元分布的拓扑类型在整个训练过程中不变
可以应用NTK/平均场理论精确描述动力学

几何演化特征：

神经元可以局部平移、扩展或收缩
神经元密度分布保持不变（测度同构）
神经元之间的相对拓扑关系被锁定

学习特征：

损失函数平滑下降
特征学习发生在固定的拓扑框架内
对应于”lazy training”或”feature-learning”机制的早期阶段

5.2 阶段2： $η > η^{*}$ 下的拓扑简化

当学习率超过临界点时，训练过程进入新的阶段：

拓扑变化特性：

同胚约束被打破
神经元可以合并
流形变得”更粗糙”

简化过程：

神经元流形的拓扑复杂度降低
模型的表达能力（expressivity）逐渐减弱
这是从对称性破缺态向对称性态转变的过程

与Edge of Stability的联系：
实际训练中，深度网络通常被观察到趋向Edge of Stability状态，此时离散时间更新在任何一阶平稳点都不再稳定。从拓扑角度看，区分这两种机制的是：

拓扑不变阶段：学习过程被强烈约束保持任何拓扑性质
拓扑崩溃阶段：学习停止保持拓扑，作为简化器合并神经元，使模型表达能力越来越受约束

5.3 两阶段的统一图像

综合拓扑临界点理论与Edge of Stability现象，深度网络的学习动力学可以统一理解为两个阶段的演化过程：

阶段1（早期）：拓扑约束下的特征学习
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━→ η* ←━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
   • 损失快速下降                                       • 神经元合并开始
   • 拓扑结构被锁定                                    • 模型简化
   • 微分同胚演化                                       • 表达能力下降
   
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
                          时间 →

这一图景解释了为什么在实际训练中观察到的动力学与NTK/平均场理论预测存在差异——因为后者只适用于第一阶段。

6. 神经元流形逐步粗粒化

6.1 粗粒化的数学描述

神经元流形的粗粒化是指在高学习率下，神经元分布的拓扑复杂度降低的过程。这一过程可以通过Betti数的演化来量化。

Betti数是拓扑数据分析中的基本不变量：

$b_{0}$ ：连通分量的数量
$b_{1}$ ：环路（一维空洞）的数量
$b_{2}$ ：高维空腔的数量

在实验中观察到，使用小学习率训练时，Betti数保持不变；使用大学习率训练时，Betti数会发生显著变化，表明拓扑结构发生了简化。

6.2 合并过程的几何机制

从几何角度看，神经元合并发生在两个神经元在参数空间中趋向相同位置时。根据引理2，当 $ηK > 1$ 时，下界失效：

∥ x (t + 1)_{i} - x (t + 1)_{j} ∥ \geq (1 - ηK) ∥ x (t)_{i} - x (t)_{j} ∥

这不再保证 $∥ x (t + 1)_{i} - x (t + 1)_{j} ∥ > 0$ ，因此两个不同的神经元可以在一步更新后变为相同位置——即发生合并。

6.3 与对称性恢复的联系

神经元合并与对称性恢复直接相关。在参数空间对称性理论中，合并两个神经元等价于过渡到置换对称性的对称态，这直接减少了模型的有效参数数量。

具体而言，两个神经元的合并导致：

有效神经元数量减少
参数冗余增加
模型从对称性破缺态回归到更高对称性态

这一过程与深度网络中观察到的”grokking”现象可能存在关联，其中训练后期模型突然从记忆态转变为泛化态。

6.4 粗粒化对表达能力的影响

拓扑简化对模型表达能力有深远影响。神经网络的表达能力部分来源于其神经元的多样性。当拓扑简化发生时：

独特神经元的数量减少
功能上等效的神经元增多
模型处理输入空间不同区域的能力受限

这解释了为什么在某些情况下，过高的学习率会导致泛化性能下降。

7. 跨架构/损失函数的通用性证明

7.1 理论框架的普适性

本文理论的一个关键特征是不依赖特定架构或损失函数。这使得拓扑方法能够普遍应用于深度学习研究。

架构无关性：理论适用于任何具有置换对称性的神经网络组件，包括：

全连接层
卷积层
Transformer中的自注意力点积操作

所有这些组件都满足性质P1（置换等变性），因此都在理论适用范围内。

损失函数无关性：理论只需要损失函数具有置换对称性 $G$ ，即：

L (θ) = L (Pθ), \forall P \in G

标准分类和回归任务的损失函数（交叉熵、均方误差等）都满足这一条件。

7.2 梯度下降的特殊情况

对于梯度下降：

U (t) (X) = - \nabla L (X)

我们有：

命题1：如果 $L$ 具有 $FSym (I)$ -对称性，则由式定义的 $U (t)$ 满足性质P1。

命题2：如果存在常数 $K > 0$ ，使得对任意 $X, Y \in (R^{D})^{I}$ 和任意 $i \in I$ ：

∥\nabla L (X) - \nabla L (Y) ∥ \leq K ∥ X - Y ∥

则 $U (t)$ 满足性质P2- $K$ 。

这恰好是优化理论中广泛使用的标准光滑性假设。

7.3 Adam优化器的适配

对于Adam等有状态优化器，可以通过将优化器状态视为神经元的一部分，将更新规则重写为无状态形式。

定义扩展粒子集合：

X (t) = {(θ (t)_{i}, m (t)_{i}, v (t)_{i})}_{i \in I}

其中 $m (t)_{i}$ 和 $v (t)_{i}$ 分别是Adam中的一阶和二阶矩估计。更新规则可以写成一个单一的映射，仍满足置换等变性。

命题3：如果 $L$ 具有 $FSym (I)$ -对称性，则扩展更新规则满足性质P1。

这证明了几乎所有现代优化器都遵循拓扑临界点理论。

8. 与机制可解释性的联系

8.1 拓扑视角下的特征学习

从拓扑不变性的角度重新审视特征学习，可以得到新的理解。

特征学习的拓扑约束：在小学习率下，特征学习发生在固定的拓扑框架内。这意味着：

初始时分离的特征表示在训练过程中保持分离
神经元对输入模式的特异性在拓扑层面被锁定
特征之间的关系结构被拓扑保持

特征合并的拓扑简化：在大学习率下，特征合并对应于拓扑简化过程。这提供了理解以下现象的新视角：

为什么某些神经元会变得冗余
为什么模型可以压缩到更小的子网络
为什么存在”彩票假设”中描述的稀疏子网络

8.2 电路层面的可解释性

拓扑临界点理论为电路层面的可解释性研究提供了理论基础：

稳定电路组件：在 $η < η^{*}$ 区域训练的模型中，神经元之间的拓扑关系保持稳定，这为识别和理解计算电路提供了便利。

简化电路组件：在 $η > η^{*}$ 区域，神经元合并可能导致电路简化，这可能解释了为什么某些功能模块可以被移除而不影响模型行为。

8.3 遗忘与记忆的拓扑解释

从拓扑角度看，遗忘可以被解释为拓扑简化过程，而记忆可以对应于保持复杂拓扑结构的能力。

这与深度网络中观察到的以下现象一致：

持续学习中的灾难性遗忘：拓扑结构被破坏
grokking现象：从简单拓扑（记忆）到复杂拓扑（泛化）的转变
模型压缩：通过人工拓扑简化实现参数减少

8.4 与其他理论框架的联系

理论框架	拓扑视角下的对应物
损失景观拓扑分析	低损失空间的连通性与拓扑障碍
参数空间对称性	拓扑简化等价于对称性恢复
Edge of Stability	拓扑临界点与Hessian临界点的统一

9. 实践启示与应用

9.1 学习率调度的新视角

拓扑临界点理论为学习率调度提供了新思路：

两阶段调度策略：

探索阶段（ $η > η^{*}$ ）：使用较大的学习率促进拓扑探索，允许模型在不同的拓扑配置之间转换
稳定阶段（ $η < η^{*}$ ）：降低学习率以稳定训练动力学在固定拓扑内

预热与退火的拓扑解释：

学习率预热：避免过早进入拓扑不变区域，保留探索能力
学习率衰减：将系统稳定在已发现的良好拓扑配置中

9.2 架构设计的启示

跳跃连接的拓扑效应：
跳跃连接（Skip Connections）打破了层间的置换对称性，相当于引入了”拓扑障碍”。这解释了为什么ResNet等架构能够训练更深的网络——它们允许更灵活的拓扑演化。

宽度与深度的权衡：

更宽的网络提供更多的拓扑空间
更深的网络允许更复杂的拓扑组合

9.3 正则化与泛化

隐式正则化效应：拓扑简化可能是一种隐式正则化形式。通过限制表达能力，它可能有助于防止过拟合。

泛化与拓扑复杂度：泛化能力可能与模型保持的拓扑复杂度相关。过度简化可能导致欠拟合。

9.4 超参数选择的指导

任务类型	建议学习率范围	拓扑状态
探索/小数据集	$η > η^{*}$	允许拓扑变化
标准训练	$η \approx 0.9 η^{*}$	接近临界点
微调/迁移学习	$η < 0.5 η^{*}$	保持拓扑稳定

10. 总结与展望

10.1 核心贡献总结

本文系统介绍了拓扑不变性理论的最新进展，主要贡献包括：

建立了置换等变学习规则的拓扑不变性定理：证明了对于包括SGD、Adam等在内的一大类置换等变学习规则，训练过程在神经元之间诱导出bi-Lipschitz映射。
发现了拓扑临界学习率 $η^{*} = 1/ K$ ：当 $η < η^{*}$ 时，训练过程保持神经元分布的拓扑结构；当 $η > η^{*}$ 时，允许拓扑简化。
揭示了两阶段学习动态：结合Edge of Stability现象，将神经网络的学习动力学统一理解为拓扑约束下的特征学习阶段和拓扑简化阶段。
证明了跨架构通用性：理论不依赖特定架构或损失函数，为深度学习的普遍理解提供了新框架。

10.2 开放问题与未来方向

问题	研究状态	重要性
非线性激活函数的精确处理	进行中	高
实际临界点的有效估计方法	开放	高
拓扑简化与泛化的精确关系	开放	高
跨模型拓扑比较的理论基础	开放	中

10.3 更广泛的影响

拓扑不变性理论为深度学习提供了一个新的数学基础，具有以下潜力：

统一现有理论：将NTK、平均场、Edge of Stability等理论统一在拓扑框架下
启发新算法：基于拓扑意识的调度、正则化、架构设计
连接其他领域：与理论物理中的拓扑相变、拓扑量子场论建立联系

参考文献

本文档为深度wiki文档，涵盖拓扑不变性理论的完整内容。相关主题参见：训练动力学：Edge of Stability理论，损失景观拓扑分析，参数空间对称性。

Yang Y, Poggio T, Chuang I, Ziyin L. Topological Invariance and Breakdown in Learning[J]. arXiv:2510.02670, 2025. (ICLR 2026投稿) ↩

Metaphor

探索