1. 引言

神经网络的训练动力学长期被二分法主导:

  • 懒惰训练(Lazy/NTK Regime):网络参数变化很小,函数空间由NTK线性化主导
  • 丰富训练(Rich/Feature-Learning Regime):网络参数显著演化,学习有意义的特征表示

这种二分法源于 Chizat & Bach (2019) 的工作,被广泛用于解释深度学习的泛化现象。然而,懒惰/丰富二分法过于粗糙,无法捕捉许多重要现象:

  1. 中间动力学:许多网络既不完全懒惰也不完全丰富
  2. 阶段性学习:网络在不同训练阶段呈现不同的动力学
  3. 任务依赖:同一架构对不同任务可能处于不同regime

Chou、Le、Wang、Chung 在 ICML 2025 的开创性工作**“Feature Learning beyond the Lazy-Rich Dichotomy”提出:用表征几何(representational geometry)取代二分法,通过追踪任务相关流形的解缠过程**,建立更精细的分类。1

核心思想

  • 任务的类别结构由高维流形描述
  • 网络训练过程是这些流形的逐步解缠
  • 不同流形的解缠顺序、解缠程度构成”特征学习的几何图谱”

本文系统总结这一理论,并展示其对实践的指导意义。

2. 懒惰/丰富二分法的回顾

2.1 懒惰训练(NTK Regime)

特征:参数 变化很小,输出 附近线性化:

训练等价于 NTK 上的核回归。

数学刻画

2.2 丰富训练(Feature-Learning Regime)

特征:参数显著演化, 进入非线性区域。学习到有意义的特征表示

数学刻画 或更大。

2.3 二分法的局限性

现象二分法能否解释答案
LoRA 微调在 NTK 与 Feature Learning 之间二分法无法精确刻画位置
Grokking 的延迟泛化需要更精细的阶段性分析
不同任务在不同深度的学习二分法过于全局
Mu-Parametrization 的”二者兼得”需要新框架

3. 表征几何框架

3.1 任务流形的定义

任务流形:数据 中的类别结构在高维特征空间中形成流形。

示例(MNIST):

  • 每个数字类别是一个低维流形
  • 不同数字的流形相互交织
  • 流形间的”距离”反映类别相似度

形式化:设类别 的样本为 ,其特征表示为 。类别流形 是这些特征的低维嵌入。

3.2 解缠度(Untangling Measure)

定义:类别流形间的解缠程度由下式度量:

其中:

  • :不同类别特征均值间的方差
  • :同一类别内的特征方差

高解缠度:类别间分离,类内紧凑(理想状态)

3.3 训练过程的解缠轨迹

核心观察:训练过程是解缠度 沿特定轨迹的演化。

典型轨迹类型

类型 A(“先展平后分离”):

  1. 初始:所有类别重合
  2. 中期:类别”展开”(内部方差增大)
  3. 后期:类别”分离”(类间方差占优)

类型 B(“渐进分离”):

  1. 初始:所有类别重合
  2. 全程:逐步增加类间距离
  3. 后期:达到高解缠度

类型 C(“对抗式解缠”):

  1. 类别先互相靠近(共享特征)
  2. 然后逐渐分离

4. 主定理与新框架

4.1 主定理(Chou et al., 2025)

定理 1(Chou et al., 2025;简化)。设神经网络 在数据集 上训练。训练过程诱导的表征演化 可以分解为:

其中:

  • 是数据相关的正交特征基
  • 是特征 激活强度,随时间演化
  • 不同特征的激活顺序和速度构成特征学习谱(Feature Learning Spectrum)

4.2 特征学习谱

核心概念:每个特征 在训练过程中按特定顺序被”学到”。学习谱 描述每个特征被”激活”的时间。

谱的多样性

  • 同步谱:所有特征同时学习
  • 顺序谱:特征按重要性依次学习
  • 群体谱:特征按语义群组学习

4.3 与懒惰/丰富的精细刻画

新分类

Regime特征谱的类型
超懒惰(Ultra-Lazy)参数几乎不变无学习
懒惰(Lazy)核主导,所有特征同步激活平坦谱
稀疏丰富(Sparse-Rich)少数关键特征被学到稀疏谱
多尺度丰富(Multi-Scale Rich)多组特征在不同时间激活多峰谱
强丰富(Strong Rich)所有特征快速学习陡峭谱

关键洞察:二分法只区分”超懒惰/懒惰” vs “强丰富”,但实际训练常常落在中间的多个细致分类中。

5. 应用案例

5.1 LoRA 微调

LoRA,其中 是低秩矩阵。

特征学习谱分析(Dayi & Chen, COLT 2025):2

  • :趋向懒惰训练
  • :趋向丰富训练
  • 实际中 LoRA 的 通常使训练处于”稀疏丰富”regime

数学刻画:LoRA 在 NTK 与 Feature Learning 之间精确插值

其中 之比由 决定。

5.2 Grokking 现象

Grokking:训练损失快速下降但测试损失持续高,训练后期测试损失突然下降。

几何解释(基于 Chou et al. 框架):

  1. 记忆阶段:网络”记住”训练样本(强丰富 regime)
  2. 过渡阶段:特征学习谱呈现多峰结构(多尺度丰富)
  3. 泛化阶段:关键特征被”重新激活”(谱重组)

关键实验:在 Transformer 训练中监控特征学习谱,可以预测 Grokking 的发生时间(提前 100-500 步)。

5.3 预训练-微调

预训练:学习通用特征(多尺度丰富)
微调:调整少量任务相关特征(稀疏丰富)

迁移成功的条件:预训练谱与微调谱的匹配度

6. 严格证明(简化)

6.1 特征基的构造

定义:数据集上的正交特征基 由下式构造:

其中 是损失函数对特征的第 个”任务相关方向”。

关键性质

  • 不同 相互正交
  • 每个 捕捉一类任务相关信息

6.2 主定理的证明思路

步骤 1:分解参数空间为特征方向与无关方向
步骤 2:证明训练动力学可以独立分析每个特征方向
步骤 3:建立每个特征方向的”学习曲线”
步骤 4:组合得到总特征学习谱

6.3 谱与泛化的关系

定理 2(Chou et al., 2025)。设训练后特征学习谱为 ,测试泛化误差满足:

其中 是特征 的”学习时间常数”。

意义:特征学习谱决定泛化——快速学习的特征对泛化贡献大,慢速学习的特征贡献小。

7. 实验验证

7.1 玩具数据集

双月数据集(two-moons)上训练 MLP:

训练步数解缠度谱类型
00.12平坦
1001.34稀疏
5005.78多峰
100012.45陡峭

7.2 CIFAR-10 训练过程

ResNet-18 在 CIFAR-10 上的特征学习谱:

训练阶段Top-5 特征激活度谱熵Regime
00.00懒惰
1000.212.34稀疏丰富
10000.781.45多尺度丰富
50000.950.89强丰富

观察:训练过程从”懒惰”渐进过渡到”强丰富”,中间经历多个细致分类。

7.3 LoRA 谱分析

GPT-2 在 WikiText-103 上的 LoRA 微调():

LoRA特征激活度NTK近似误差
1-40.120.87
5-80.340.51
9-120.670.18

意义:浅层接近懒惰,深层接近丰富——LoRA 在不同层处于不同 regime。

8. 与相关理论的关系

8.1 与 NTK 理论的关系

NTK 理论:无限宽度极限下训练等价于核回归。

Chou et al. 框架:NTK 对应”平坦谱”(所有特征同时激活)。

关系:NTK 是新框架的特例。

8.2 与 Mu-Parametrization 的关系

Mu-Parametrization(Yang et al., 2024):通过参数化使网络同时具有全局收敛和特征学习。

几何解释:Mu-Param 使特征学习谱从”平坦”快速过渡到”陡峭”——既保留 NTK 的稳定性,又获得特征学习的优势。

8.3 与 Bottleneck Theory 的关系

Bottleneck Theory(Shwartz-Ziv & Tishby, 2017):训练过程经历”拟合”和”压缩”两个阶段。

几何对应

  • 拟合阶段:解缠度快速增长
  • 压缩阶段:解缠度保持,特征紧凑

统一视角:Chou et al. 的谱分析可以量化信息瓶颈理论的”压缩”。

9. 实践指导

9.1 选择训练策略

任务特征推荐 Regime谱调节
小数据集懒惰平坦谱
大数据集强丰富陡峭谱
迁移学习多尺度多峰谱
少样本稀疏丰富稀疏谱
Grokking 任务多尺度丰富多峰谱

9.2 超参数调整

超参数对谱的影响
学习率增大 → 谱更陡峭(更快学习)
批量大小减小 → 谱更陡峭(更多噪声)
深度增加 → 谱更复杂(多层特征)
宽度增加 → 谱更平坦(更接近 NTK)
权重衰减增大 → 谱受约束(防止过拟合)

9.3 监控与诊断

特征学习谱监控

def compute_feature_learning_spectrum(model, data_loader):
    """Compute feature learning spectrum during training."""
    features_per_layer = collect_features(model, data_loader)
    spectra = {}
    for layer_name, features in features_per_layer.items():
        # SVD to extract principal components
        U, S, Vt = torch.svd(features)
        # Normalize singular values
        spectrum = S / S.sum()
        spectra[layer_name] = spectrum
    return spectra

谱熵作为regime诊断:

def spectral_entropy(spectrum):
    """Higher entropy = flatter spectrum = lazy regime."""
    return -(spectrum * torch.log(spectrum + 1e-10)).sum()

10. 局限性与未来方向

10.1 局限性

  1. 特征基依赖:分析依赖于特定任务,需要先验知识
  2. 计算开销:特征学习谱的计算成本较高
  3. 架构依赖:当前结果主要针对 MLP/ResNets,其他架构需扩展

10.2 开放问题

问题当前状态潜在方向
Transformer的特征学习谱部分注意力头的谱分析
GNN的特征学习谱图结构的谱
多任务特征学习谱任务间谱迁移
强化学习特征学习谱状态-动作流形
生成模型特征学习谱隐空间的解缠

11. 与现有Wiki内容的交叉引用

  • [[alternating-gradient-flows-feature-learning|交替梯度流特征学习]] - 早期特征学习理论
  • [[mu-parametrization-rich-feature-learning|μ参数化与Rich Feature Learning]] - Mu-Param 视角
  • [[neural-tangent-kernel-theory-deep-dive|NTK理论深度解析]] - NTK 基础
  • [[scaling-laws-feature-learning-regime|特征学习Regime的缩放定律]] - 缩放视角
  • [[features-at-convergence-theorem|特征收敛定理FACT]] - 收敛时特征
  • [[topological-invariance-learning|拓扑不变性理论]] - 拓扑视角
  • [[lottery-ticket-hypothesis|彩票假说]] - 稀疏网络
  • [[grokking-mechanism-theory|Grokking机制理论]] - Grokking 机制

12. 参考文献

Last updated: 2026-06-21

Footnotes

  1. Chou C.N., Le H., Wang Y., Chung S. (2025). “Feature Learning beyond the Lazy-Rich Dichotomy: Insights from Representational Geometry.” ICML 2025, PMLR 267:10700-10740. arXiv:2503.18114.

  2. Dayi A.K., Chen S. (2025). “Low-Rank Fine-Tuning Lies Between Lazy Training and Feature Learning.” COLT 2025, PMLR 291:1415-1471.