引言

理解神经网络如何学习表示(representations)是深度学习理论的核心挑战之一。近年来,一个基于经验观察的猜想——神经特征假设(Neural Feature Ansatz, NFA)——在多种架构和任务上得到了验证,包括全连接网络、卷积网络和Transformer。然而,NFA 本质上是一个”经验猜测”,缺乏第一性原理(first-principles)的理论支撑。

FACT定理(Features at Convergence Theorem) 通过一阶最优性条件(first-order optimality conditions)推导出神经网络在收敛时必须满足的约束,提供了一个有理论保障的替代方案。1

背景:神经特征假设(NFA)

NFA的核心假设

给定一个参数化为 的神经网络,考虑其第 层的权重矩阵 。NFA 假设网络的特征矩阵 与**平均梯度外积(Average Gradient Outer Product, AGOP)**的某个幂次成正比:

其中 是网络对第 个样本的输出, 是相对于层输入的梯度。1

NFA的成功应用

NFA 在多个现象中展现了强大的解释力:

现象描述参考文献
Grokking模运算中的延迟泛化现象Mallinar et al., 2024
层级阶梯函数迭代特征学习层次结构Zhu et al., 2025
弹射尖峰(Catapult)训练损失中的异常峰值Zhu et al., 2023

NFA的局限性

尽管 NFA 具有广泛的实证支持,但它存在以下理论缺陷:

  1. 缺乏推导基础:NFA 是经验观察的总结,没有从优化理论中推导出来
  2. 超参数依赖:幂次 需要针对不同架构进行调优(如深度线性网络中
  3. 不明确失败条件:在何种情况下 NFA 可能失效尚不清楚

一阶最优性条件

梯度消失条件

考虑标准训练设置:模型 在样本级损失函数 上训练,并带有 正则化(权重衰减)参数

训练损失为:

当参数收敛到临界点时:

关键引理

对权重矩阵 的梯度进行分析,设 为层输入, 为层输出。链式法则给出:

其中 是损失相对于层输入的梯度。

FACT定理

定理陈述

定理 3.1(Features at Convergence Theorem):如果模型的参数相对于 是损失的临界点,则

证明:由于 ,左乘 并应用链式法则:

整理即得证。

定理的直观解释

FACT 的物理意义是:在收敛点,特征 被其对最终损失的影响加权。这建立了特征学习与一阶最优性条件之间的直接联系。

关键假设

  1. 非零权重衰减 — 这确保了临界点是良好定义的
  2. 可微性:损失函数和网络输出相对于 可微
  3. 层结构:网络仅通过矩阵乘法依赖于权重

反向FACT

类似于前向形式,存在一个”反向”形式描述

这提供了关于权重矩阵左奇异向量的信息。

FACT与NFA的对比

结构比较

特性FACTNFA
推导来源一阶最优性条件经验观察
理论基础有(优化理论)无(经验猜想)
可调参数有(幂次
架构依赖有(深度
理论保证收敛时必然成立可能失效

何时NFA与FACT一致

对于内积核(inner-product kernels),论文证明了 FACT 和 NFA 具有相似的结构:

  • NFA-RFM更新
  • FACT-RFM更新

关键观察:两者都包含数据点之间相似性度量的因子。实证表明,在模运算等挑战性设置中,这两个量近似成正比,这解释了为什么 NFA 在大多数情况下成立

深度线性网络案例

对于 层线性网络:

这意味着 NFA 的幂次必须随深度调整,而 FACT 不需要这种架构相关的超参数。实验验证了对于任意深度 ,FACT 与真实特征矩阵的余弦相似度

最坏情况下的分歧

论文还构造了一个反例,其中 NFA 可以完全失效:

构造:两层二次激活网络 ,其中

结果

  • 的余弦相似度:0.994
  • 的余弦相似度:< 0.068

这证明了 FACT 在理论上比 NFA 更可靠

应用:Grokking现象

什么是Grokking?

Grokking 是指神经网络在训练准确率达到 100% 后,很长时间才开始泛化的现象。这一概念由 Nanda 等人于 2023 年正式提出。

FACT对Grokking的解释

使用基于 FACT 的**递归特征机(FACT-RFM)**算法,论文复现了 grokking 行为:

  1. 特征矩阵演化 学习到**块循环(block circulant)**结构
  2. 延迟泛化:训练和测试准确率在长时间分离后突然对齐
  3. 与NFA-RFM一致:两种方法学到的特征变换惊人地相似

模运算实验

对于 任务:

  • 数据划分:50% 训练 / 50% 测试
  • 观察:两种方法都在约 75 次迭代后达到 100% 测试准确率
  • 特征结构:都学习到块循环特征变换

这表明 FACT 和 NFA 都能捕捉 grokking 的本质特征,即算法化表示的涌现。

应用:稀疏奇偶性学习

问题定义

稀疏奇偶性(sparse parity)问题:

  • 输入:
  • 标签: 是随机选择的 个坐标)

相变现象

神经网络在学习稀疏奇偶性时表现出相变

稀疏度 所需样本数 现象
1~500快速学习
2~500中等难度
3~5000困难
4~50000存在相变

FACT理论分析

FACT-RFM 算法能够复现这些相变:

  1. 低数据 regime:存在从”无法学习”到”可以学习”的突变
  2. 特征支持:学到的特征矩阵位于奇偶性支撑集上
  3. 与AGOP相似 学到的特征高度相似

实践启示

特征学习的可预测性

FACT 揭示了特征学习的可预测性

  1. 收敛时的确定性:一旦网络收敛,特征矩阵必须满足 FACT
  2. 与损失景观的联系:特征学习与损失函数的临界点结构密切相关
  3. 不依赖训练动态:无需追踪整个训练过程,只需分析收敛状态

对训练动态的启示

尽管 FACT 描述的是收敛状态,但它对训练动态也有启示:

  1. 训练后期最重要:FACT 在训练早期相关性较低,在收敛前突然变得高度相关
  2. 核对齐是关键:训练过程中核与目标函数的对齐程度决定了学习效率
  3. 权重衰减的作用:正则化确保了特征矩阵的有界性和良好条件

与Mean Field理论的联系

FACT 与 Mean Field 理论存在有趣的联系:

方面Mean FieldFACT
分析对象权重分布特征矩阵
时间尺度连续时间 PDE收敛状态
正则化隐式显式(权重衰减)

两者都试图将高维非线性动力学简化为可分析的低维描述。

与其他理论的关系

神经切核(NTK)理论

特性NTKFACT
分析尺度无限宽度有限宽度
动态行为线性(核)非线性(特征学习)
收敛保证有(通过一阶条件)
特征学习无(lazy training)

联系:FACT 可以通过经验 NTK 来近似计算,这使得在不假设无限宽度的情况下应用 FACT 成为可能。

层状训练理论

FACT 与层状训练(layer-wise training)理论共享以下观点:

  1. 隐式正则化:权重衰减和梯度下降共同导致特定的解结构
  2. 低秩偏好:FACT 和层状训练都指向低秩解
  3. 特征分离:学到的特征在功能上是有意义的

信息论框架

从信息论角度,FACT 可以解释为率-失真权衡的产物:

  • 失真项 捕捉特征对损失的贡献
  • 正则化项 控制特征复杂度
  • FACT:两者的平衡点

算法实现:FACT-RFM

递归特征机算法

基于 FACT 的递归特征机(FACT-RFM)算法:

# FACT-RFM 更新规则
def fact_update(W, FACT, geometric_averaging=True):
    if geometric_averaging:
        # 带几何平均的稳定更新
        M = W.T @ W
        update = FACT @ M @ M @ FACT.T
        W_new = mat_pow(update, 1/8)
    else:
        # 基本更新
        update = FACT @ FACT.T
        W_new = mat_pow(update, 1/4)
    return W_new

收敛性分析

FACT-RFM 的固定点恰好满足:

这与神经网络收敛时的条件完全一致。

总结与开放问题

主要贡献

  1. 理论贡献:首次从第一性原理推导出神经网络特征学习的解析条件
  2. 统一框架:将经验驱动的 NFA 文献与理论驱动的一阶最优性分析统一起来
  3. 实践验证:FACT 在多种任务上与 NFA 表现相当,且具有理论保证

局限性与开放问题

问题当前状态未来方向
零权重衰减需要非零 通过 NTK 近似扩展
训练动态仅描述收敛状态发展训练过程中的理论
稳定性某些任务需要早停推导出更稳定的变体
深网络尚未完全分析扩展到深层架构

理论意义

FACT 定理的核心洞察是:局部最优性条件可以产生全局有意义的学习表示。这一发现为理解深度学习中的特征涌现提供了新的视角,并将继续影响该领域的理论研究。

参考文献


相关主题

Footnotes

  1. Boix-Adsera, E., Mallinar, N., Simon, J. B., & Belkin, M. (2025). The Features at Convergence Theorem: a first-principles alternative to the Neural Feature Ansatz for how networks learn representations. NeurIPS 2025. 2