FACT定理：收敛时的特征学习

引言

理解神经网络如何学习表示（representations）是深度学习理论的核心挑战之一。近年来，一个基于经验观察的猜想——神经特征假设（Neural Feature Ansatz, NFA）——在多种架构和任务上得到了验证，包括全连接网络、卷积网络和Transformer。然而，NFA 本质上是一个”经验猜测”，缺乏第一性原理（first-principles）的理论支撑。

FACT定理（Features at Convergence Theorem） 通过一阶最优性条件（first-order optimality conditions）推导出神经网络在收敛时必须满足的约束，提供了一个有理论保障的替代方案。¹

背景：神经特征假设（NFA）

NFA的核心假设

给定一个参数化为 $f (x; θ)$ 的神经网络，考虑其第 $l$ 层的权重矩阵 $W^{(l)} \in R^{d^{'} \times d}$ 。NFA 假设网络的特征矩阵 $W^{⊤} W$ 与**平均梯度外积（Average Gradient Outer Product, AGOP）**的某个幂次成正比：

W^{⊤} W \propto (AGOP)^{s}, 其中 AGOP := \frac{1}{n} i = 1 \sum n (\nabla_{h} f_{i}) (\nabla_{h} f_{i})^{⊤}

其中 $f_{i}$ 是网络对第 $i$ 个样本的输出， $\nabla_{h} f_{i}$ 是相对于层输入的梯度。¹

NFA的成功应用

NFA 在多个现象中展现了强大的解释力：

现象	描述	参考文献
Grokking	模运算中的延迟泛化现象	Mallinar et al., 2024
层级阶梯函数	迭代特征学习层次结构	Zhu et al., 2025
弹射尖峰（Catapult）	训练损失中的异常峰值	Zhu et al., 2023

NFA的局限性

尽管 NFA 具有广泛的实证支持，但它存在以下理论缺陷：

缺乏推导基础：NFA 是经验观察的总结，没有从优化理论中推导出来
超参数依赖：幂次 $s$ 需要针对不同架构进行调优（如深度线性网络中 $s \propto 1/ L$ ）
不明确失败条件：在何种情况下 NFA 可能失效尚不清楚

一阶最优性条件

梯度消失条件

考虑标准训练设置：模型 $f (\cdot; θ) : X \to R^{c}$ 在样本级损失函数 $ℓ : R^{c} \times Y \to R$ 上训练，并带有 $L^{2}$ 正则化（权重衰减）参数 $λ > 0$ 。

训练损失为：

L_{λ} (θ) = L (θ) + \frac{λ}{2} ∥ θ ∥_{F}^{2}, L (θ) = \frac{1}{n} i = 1 \sum n ℓ (f (x_{i}; θ), y_{i})

当参数收敛到临界点时：

\nabla_{W} L_{λ} (θ) = 0

关键引理

对权重矩阵 $W$ 的梯度进行分析，设 $h (x)$ 为层输入， $Wh$ 为层输出。链式法则给出：

\nabla_{W} L (θ) = \frac{1}{n} i = 1 \sum n (\nabla_{h} ℓ_{i}) h (x_{i})^{⊤}

其中 $\nabla_{h} ℓ_{i} := \frac{\partial ℓ ( g ( Wh , x ) ; y _{i} )}{\partial h}_{h = h (x_{i})}$ 是损失相对于层输入的梯度。

FACT定理

定理陈述

定理 3.1（Features at Convergence Theorem）：如果模型的参数相对于 $W$ 是损失的临界点，则

W^{⊤} W = FACT := - \frac{1}{nλ} i = 1 \sum n (\nabla_{h} ℓ_{i}) (h (x_{i}))^{⊤}

证明：由于 $\nabla_{W} L_{λ} (θ) = 0$ ，左乘 $W^{⊤}$ 并应用链式法则：

0 = W^{⊤} (\nabla_{W} L_{λ} (θ)) = W^{⊤} (λW + \nabla_{W} L (θ)) = λ W^{⊤} W + \frac{1}{n} i = 1 \sum n (\nabla_{h} ℓ_{i}) h (x_{i})^{⊤}

整理即得证。 $□$

定理的直观解释

FACT 的物理意义是：在收敛点，特征 $h (x)$ 被其对最终损失的影响加权。这建立了特征学习与一阶最优性条件之间的直接联系。

关键假设

非零权重衰减： $λ > 0$ — 这确保了临界点是良好定义的
可微性：损失函数和网络输出相对于 $W$ 可微
层结构：网络仅通过矩阵乘法依赖于权重

反向FACT

类似于前向形式，存在一个”反向”形式描述 $W W^{⊤}$ ：

W W^{⊤} = bFACT := - \frac{1}{nλ} i = 1 \sum n (Wh (x_{i})) (\nabla_{Wh} ℓ_{i})^{⊤}

这提供了关于权重矩阵左奇异向量的信息。

FACT与NFA的对比

结构比较

特性	FACT	NFA
推导来源	一阶最优性条件	经验观察
理论基础	有（优化理论）	无（经验猜想）
可调参数	无	有（幂次 $s$ ）
架构依赖	无	有（深度 $L$ ）
理论保证	收敛时必然成立	可能失效

何时NFA与FACT一致

对于内积核（inner-product kernels），论文证明了 FACT 和 NFA 具有相似的结构：

NFA-RFM更新： $M_{t + 1} \leftarrow (AGOP)^{1/2}$
FACT-RFM更新： $M_{t + 1} \leftarrow (FACT \cdot M)^{1/2}$

关键观察：两者都包含数据点之间相似性度量的因子。实证表明，在模运算等挑战性设置中，这两个量近似成正比，这解释了为什么 NFA 在大多数情况下成立。

深度线性网络案例

对于 $L$ 层线性网络：

W_{1}^{⊤} W_{1} \approx (AGOP)^{1/ L}

这意味着 NFA 的幂次必须随深度调整，而 FACT 不需要这种架构相关的超参数。实验验证了对于任意深度 $L$ ，FACT 与真实特征矩阵的余弦相似度 $\geq 0.999$ 。

最坏情况下的分歧

论文还构造了一个反例，其中 NFA 可以完全失效：

构造：两层二次激活网络 $f (x; a, W) = a^{⊤} σ (W x)$ ，其中 $σ (t) = t^{2}$

结果：

$FACT$ 与 $W^{⊤} W$ 的余弦相似度：0.994
$AGOP$ 与 $W^{⊤} W$ 的余弦相似度：< 0.068

这证明了 FACT 在理论上比 NFA 更可靠。

应用：Grokking现象

什么是Grokking？

Grokking 是指神经网络在训练准确率达到 100% 后，很长时间才开始泛化的现象。这一概念由 Nanda 等人于 2023 年正式提出。

FACT对Grokking的解释

使用基于 FACT 的**递归特征机（FACT-RFM）**算法，论文复现了 grokking 行为：

特征矩阵演化： $FACT \cdot M^{⊤}$ 学习到**块循环（block circulant）**结构
延迟泛化：训练和测试准确率在长时间分离后突然对齐
与NFA-RFM一致：两种方法学到的特征变换惊人地相似

模运算实验

对于 $(x + y) mod 61$ 任务：

数据划分：50% 训练 / 50% 测试
观察：两种方法都在约 75 次迭代后达到 100% 测试准确率
特征结构：都学习到块循环特征变换

这表明 FACT 和 NFA 都能捕捉 grokking 的本质特征，即算法化表示的涌现。

应用：稀疏奇偶性学习

问题定义

稀疏奇偶性（sparse parity）问题：

输入： $x \in {- 1/ d, 1/ d}^{d}$
标签： $y = \prod_{j \in S} x_{j}$ （ $S$ 是随机选择的 $k$ 个坐标）

相变现象

神经网络在学习稀疏奇偶性时表现出相变：

稀疏度 $k$	所需样本数 $n$	现象
1	~500	快速学习
2	~500	中等难度
3	~5000	困难
4	~50000	存在相变

FACT理论分析

FACT-RFM 算法能够复现这些相变：

低数据 regime：存在从”无法学习”到”可以学习”的突变
特征支持：学到的特征矩阵位于奇偶性支撑集上
与AGOP相似： $AGOP$ 和 $FACT \cdot M^{⊤}$ 学到的特征高度相似

实践启示

特征学习的可预测性

FACT 揭示了特征学习的可预测性：

收敛时的确定性：一旦网络收敛，特征矩阵必须满足 FACT
与损失景观的联系：特征学习与损失函数的临界点结构密切相关
不依赖训练动态：无需追踪整个训练过程，只需分析收敛状态

对训练动态的启示

尽管 FACT 描述的是收敛状态，但它对训练动态也有启示：

训练后期最重要：FACT 在训练早期相关性较低，在收敛前突然变得高度相关
核对齐是关键：训练过程中核与目标函数的对齐程度决定了学习效率
权重衰减的作用：正则化确保了特征矩阵的有界性和良好条件

与Mean Field理论的联系

FACT 与 Mean Field 理论存在有趣的联系：

方面	Mean Field	FACT
分析对象	权重分布	特征矩阵
时间尺度	连续时间 PDE	收敛状态
正则化	隐式	显式（权重衰减）

两者都试图将高维非线性动力学简化为可分析的低维描述。

与其他理论的关系

神经切核（NTK）理论

特性	NTK	FACT
分析尺度	无限宽度	有限宽度
动态行为	线性（核）	非线性（特征学习）
收敛保证	有	有（通过一阶条件）
特征学习	无（lazy training）	有

联系：FACT 可以通过经验 NTK 来近似计算，这使得在不假设无限宽度的情况下应用 FACT 成为可能。

层状训练理论

FACT 与层状训练（layer-wise training）理论共享以下观点：

隐式正则化：权重衰减和梯度下降共同导致特定的解结构
低秩偏好：FACT 和层状训练都指向低秩解
特征分离：学到的特征在功能上是有意义的

信息论框架

从信息论角度，FACT 可以解释为率-失真权衡的产物：

失真项： $- \frac{1}{n} \sum_{i = 1}^{n} (\nabla_{h} ℓ_{i}) (h (x_{i}))^{⊤}$ 捕捉特征对损失的贡献
正则化项： $λ W^{⊤} W$ 控制特征复杂度
FACT：两者的平衡点

算法实现：FACT-RFM

递归特征机算法

基于 FACT 的递归特征机（FACT-RFM）算法：

# FACT-RFM 更新规则
def fact_update(W, FACT, geometric_averaging=True):
    if geometric_averaging:
        # 带几何平均的稳定更新
        M = W.T @ W
        update = FACT @ M @ M @ FACT.T
        W_new = mat_pow(update, 1/8)
    else:
        # 基本更新
        update = FACT @ FACT.T
        W_new = mat_pow(update, 1/4)
    return W_new

收敛性分析

FACT-RFM 的固定点恰好满足：

W^{⊤} W = FACT

这与神经网络收敛时的条件完全一致。

总结与开放问题

主要贡献

理论贡献：首次从第一性原理推导出神经网络特征学习的解析条件
统一框架：将经验驱动的 NFA 文献与理论驱动的一阶最优性分析统一起来
实践验证：FACT 在多种任务上与 NFA 表现相当，且具有理论保证

局限性与开放问题

问题	当前状态	未来方向
零权重衰减	需要非零 $λ$	通过 NTK 近似扩展
训练动态	仅描述收敛状态	发展训练过程中的理论
稳定性	某些任务需要早停	推导出更稳定的变体
深网络	尚未完全分析	扩展到深层架构

理论意义

FACT 定理的核心洞察是：局部最优性条件可以产生全局有意义的学习表示。这一发现为理解深度学习中的特征涌现提供了新的视角，并将继续影响该领域的理论研究。

参考文献

相关主题：

Boix-Adsera, E., Mallinar, N., Simon, J. B., & Belkin, M. (2025). The Features at Convergence Theorem: a first-principles alternative to the Neural Feature Ansatz for how networks learn representations. NeurIPS 2025. ↩ ↩²

Metaphor

探索