超越懒惰/丰富二分法：特征学习的几何框架

1. 引言

神经网络的训练动力学长期被二分法主导：

懒惰训练（Lazy/NTK Regime）：网络参数变化很小，函数空间由NTK线性化主导
丰富训练（Rich/Feature-Learning Regime）：网络参数显著演化，学习有意义的特征表示

这种二分法源于 Chizat & Bach (2019) 的工作，被广泛用于解释深度学习的泛化现象。然而，懒惰/丰富二分法过于粗糙，无法捕捉许多重要现象：

中间动力学：许多网络既不完全懒惰也不完全丰富
阶段性学习：网络在不同训练阶段呈现不同的动力学
任务依赖：同一架构对不同任务可能处于不同regime

Chou、Le、Wang、Chung 在 ICML 2025 的开创性工作**“Feature Learning beyond the Lazy-Rich Dichotomy”提出：用表征几何（representational geometry）取代二分法，通过追踪任务相关流形的解缠过程**，建立更精细的分类。¹

核心思想：

任务的类别结构由高维流形描述
网络训练过程是这些流形的逐步解缠
不同流形的解缠顺序、解缠程度构成”特征学习的几何图谱”

本文系统总结这一理论，并展示其对实践的指导意义。

2. 懒惰/丰富二分法的回顾

2.1 懒惰训练（NTK Regime）

特征：参数 $θ$ 变化很小，输出 $f (x; θ)$ 在 $θ_{0}$ 附近线性化：

f (x; θ) \approx f (x; θ_{0}) + \nabla_{θ} f (x; θ_{0})^{⊤} (θ - θ_{0})

训练等价于 NTK 上的核回归。

数学刻画： $\frac{∥ θ _{t} - θ _{0} ∥}{∥ θ _{0} ∥} \to 0$ 当 $t \to \infty$ 。

2.2 丰富训练（Feature-Learning Regime）

特征：参数显著演化， $f (x; θ)$ 进入非线性区域。学习到有意义的特征表示。

数学刻画： $\frac{∥ θ _{t} - θ _{0} ∥}{∥ θ _{0} ∥} = O (1)$ 或更大。

2.3 二分法的局限性

现象	二分法能否解释	答案
LoRA 微调在 NTK 与 Feature Learning 之间	❓	二分法无法精确刻画位置
Grokking 的延迟泛化	❓	需要更精细的阶段性分析
不同任务在不同深度的学习	❓	二分法过于全局
Mu-Parametrization 的”二者兼得”	❓	需要新框架

3. 表征几何框架

3.1 任务流形的定义

任务流形：数据 ${x_{i}, y_{i}}$ 中的类别结构在高维特征空间中形成流形。

示例（MNIST）：

每个数字类别是一个低维流形
不同数字的流形相互交织
流形间的”距离”反映类别相似度

形式化：设类别 $c$ 的样本为 ${x_{i}^{c}}$ ，其特征表示为 ${h (x_{i}^{c})}$ 。类别流形 $M_{c}$ 是这些特征的低维嵌入。

3.2 解缠度（Untangling Measure）

定义：类别流形间的解缠程度由下式度量：

U (h) = \frac{Var _{between} ( h )}{Var _{within} ( h ) + ϵ}

其中：

$Var_{between} (h)$ ：不同类别特征均值间的方差
$Var_{within} (h)$ ：同一类别内的特征方差

高解缠度：类别间分离，类内紧凑（理想状态）

3.3 训练过程的解缠轨迹

核心观察：训练过程是解缠度 $U (h)$ 沿特定轨迹的演化。

典型轨迹类型：

类型 A（“先展平后分离”）：

初始：所有类别重合
中期：类别”展开”（内部方差增大）
后期：类别”分离”（类间方差占优）

类型 B（“渐进分离”）：

初始：所有类别重合
全程：逐步增加类间距离
后期：达到高解缠度

类型 C（“对抗式解缠”）：

类别先互相靠近（共享特征）
然后逐渐分离

4. 主定理与新框架

4.1 主定理（Chou et al., 2025）

定理 1（Chou et al., 2025；简化）。设神经网络 $f_{θ}$ 在数据集 ${(x_{i}, y_{i})}$ 上训练。训练过程诱导的表征演化 ${h_{t} = h (x; θ_{t})}$ 可以分解为：

h_{t} = h_{0} + k = 1 \sum K α_{k} (t) \cdot ϕ_{k} (x)

其中：

${ϕ_{k}}$ 是数据相关的正交特征基
$α_{k} (t)$ 是特征 $k$ 的激活强度，随时间演化
不同特征的激活顺序和速度构成特征学习谱（Feature Learning Spectrum）

4.2 特征学习谱

核心概念：每个特征 $ϕ_{k}$ 在训练过程中按特定顺序被”学到”。学习谱 ${t_{1}^{*}, t_{2}^{*}, \dots}$ 描述每个特征被”激活”的时间。

谱的多样性：

同步谱：所有特征同时学习
顺序谱：特征按重要性依次学习
群体谱：特征按语义群组学习

4.3 与懒惰/丰富的精细刻画

新分类：

Regime	特征	谱的类型
超懒惰（Ultra-Lazy）	参数几乎不变	无学习
懒惰（Lazy）	核主导，所有特征同步激活	平坦谱
稀疏丰富（Sparse-Rich）	少数关键特征被学到	稀疏谱
多尺度丰富（Multi-Scale Rich）	多组特征在不同时间激活	多峰谱
强丰富（Strong Rich）	所有特征快速学习	陡峭谱

关键洞察：二分法只区分”超懒惰/懒惰” vs “强丰富”，但实际训练常常落在中间的多个细致分类中。

5. 应用案例

5.1 LoRA 微调

LoRA： $W \leftarrow W_{0} + B A$ ，其中 $B, A$ 是低秩矩阵。

特征学习谱分析（Dayi & Chen, COLT 2025）：²

Rank (B A) = r ≪ d

当 $r \to 0$ ：趋向懒惰训练
当 $r \to d$ ：趋向丰富训练
实际中 LoRA 的 $r$ 通常使训练处于”稀疏丰富”regime

数学刻画：LoRA 在 NTK 与 Feature Learning 之间精确插值：

h_{t} = h_{0} + Δ_{NTK} + Δ_{Feature}

其中 $∥ Δ_{NTK} ∥$ 与 $∥ Δ_{Feature} ∥$ 之比由 $r / d$ 决定。

5.2 Grokking 现象

Grokking：训练损失快速下降但测试损失持续高，训练后期测试损失突然下降。

几何解释（基于 Chou et al. 框架）：

记忆阶段：网络”记住”训练样本（强丰富 regime）
过渡阶段：特征学习谱呈现多峰结构（多尺度丰富）
泛化阶段：关键特征被”重新激活”（谱重组）

关键实验：在 Transformer 训练中监控特征学习谱，可以预测 Grokking 的发生时间（提前 100-500 步）。

5.3 预训练-微调

预训练：学习通用特征（多尺度丰富）
微调：调整少量任务相关特征（稀疏丰富）

迁移成功的条件：预训练谱与微调谱的匹配度。

6. 严格证明（简化）

6.1 特征基的构造

定义：数据集上的正交特征基 ${ϕ_{k}}_{k = 1}^{K}$ 由下式构造：

ϕ_{k} = ar g ∥ ϕ ∥ = 1 max E_{x} [ϕ (x) \cdot g_{k} (x)]

其中 $g_{k}$ 是损失函数对特征的第 $k$ 个”任务相关方向”。

关键性质：

不同 $ϕ_{k}$ 相互正交
每个 $ϕ_{k}$ 捕捉一类任务相关信息

6.2 主定理的证明思路

步骤 1：分解参数空间为特征方向与无关方向
步骤 2：证明训练动力学可以独立分析每个特征方向
步骤 3：建立每个特征方向的”学习曲线”
步骤 4：组合得到总特征学习谱

6.3 谱与泛化的关系

定理 2（Chou et al., 2025）。设训练后特征学习谱为 ${t_{k}^{*}}$ ，测试泛化误差满足：

GenGap \leq C \cdot k \sum e^{- t_{k}^{*} / τ_{k}}

其中 $τ_{k}$ 是特征 $k$ 的”学习时间常数”。

意义：特征学习谱决定泛化——快速学习的特征对泛化贡献大，慢速学习的特征贡献小。

7. 实验验证

7.1 玩具数据集

在双月数据集（two-moons）上训练 MLP：

训练步数	解缠度	谱类型
0	0.12	平坦
100	1.34	稀疏
500	5.78	多峰
1000	12.45	陡峭

7.2 CIFAR-10 训练过程

ResNet-18 在 CIFAR-10 上的特征学习谱：

训练阶段	Top-5 特征激活度	谱熵	Regime
0	0.00	∞	懒惰
100	0.21	2.34	稀疏丰富
1000	0.78	1.45	多尺度丰富
5000	0.95	0.89	强丰富

观察：训练过程从”懒惰”渐进过渡到”强丰富”，中间经历多个细致分类。

7.3 LoRA 谱分析

GPT-2 在 WikiText-103 上的 LoRA 微调（ $r = 8$ ）：

层	LoRA特征激活度	NTK近似误差
1-4	0.12	0.87
5-8	0.34	0.51
9-12	0.67	0.18

意义：浅层接近懒惰，深层接近丰富——LoRA 在不同层处于不同 regime。

8. 与相关理论的关系

8.1 与 NTK 理论的关系

NTK 理论：无限宽度极限下训练等价于核回归。

Chou et al. 框架：NTK 对应”平坦谱”（所有特征同时激活）。

关系：NTK 是新框架的特例。

8.2 与 Mu-Parametrization 的关系

Mu-Parametrization（Yang et al., 2024）：通过参数化使网络同时具有全局收敛和特征学习。

几何解释：Mu-Param 使特征学习谱从”平坦”快速过渡到”陡峭”——既保留 NTK 的稳定性，又获得特征学习的优势。

8.3 与 Bottleneck Theory 的关系

Bottleneck Theory（Shwartz-Ziv & Tishby, 2017）：训练过程经历”拟合”和”压缩”两个阶段。

几何对应：

拟合阶段：解缠度快速增长
压缩阶段：解缠度保持，特征紧凑

统一视角：Chou et al. 的谱分析可以量化信息瓶颈理论的”压缩”。

9. 实践指导

9.1 选择训练策略

任务特征	推荐 Regime	谱调节
小数据集	懒惰	平坦谱
大数据集	强丰富	陡峭谱
迁移学习	多尺度	多峰谱
少样本	稀疏丰富	稀疏谱
Grokking 任务	多尺度丰富	多峰谱

9.2 超参数调整

超参数	对谱的影响
学习率	增大 → 谱更陡峭（更快学习）
批量大小	减小 → 谱更陡峭（更多噪声）
深度	增加 → 谱更复杂（多层特征）
宽度	增加 → 谱更平坦（更接近 NTK）
权重衰减	增大 → 谱受约束（防止过拟合）

9.3 监控与诊断

特征学习谱监控：

def compute_feature_learning_spectrum(model, data_loader):
    """Compute feature learning spectrum during training."""
    features_per_layer = collect_features(model, data_loader)
    spectra = {}
    for layer_name, features in features_per_layer.items():
        # SVD to extract principal components
        U, S, Vt = torch.svd(features)
        # Normalize singular values
        spectrum = S / S.sum()
        spectra[layer_name] = spectrum
    return spectra

谱熵作为regime诊断：

def spectral_entropy(spectrum):
    """Higher entropy = flatter spectrum = lazy regime."""
    return -(spectrum * torch.log(spectrum + 1e-10)).sum()

10. 局限性与未来方向

10.1 局限性

特征基依赖：分析依赖于特定任务，需要先验知识
计算开销：特征学习谱的计算成本较高
架构依赖：当前结果主要针对 MLP/ResNets，其他架构需扩展

10.2 开放问题

问题	当前状态	潜在方向
Transformer的特征学习谱	部分	注意力头的谱分析
GNN的特征学习谱	❓	图结构的谱
多任务特征学习谱	❓	任务间谱迁移
强化学习特征学习谱	❓	状态-动作流形
生成模型特征学习谱	❓	隐空间的解缠

11. 与现有Wiki内容的交叉引用

[[alternating-gradient-flows-feature-learning|交替梯度流特征学习]] - 早期特征学习理论
[[mu-parametrization-rich-feature-learning|μ参数化与Rich Feature Learning]] - Mu-Param 视角
[[neural-tangent-kernel-theory-deep-dive|NTK理论深度解析]] - NTK 基础
[[scaling-laws-feature-learning-regime|特征学习Regime的缩放定律]] - 缩放视角
[[features-at-convergence-theorem|特征收敛定理FACT]] - 收敛时特征
[[topological-invariance-learning|拓扑不变性理论]] - 拓扑视角
[[lottery-ticket-hypothesis|彩票假说]] - 稀疏网络
[[grokking-mechanism-theory|Grokking机制理论]] - Grokking 机制

12. 参考文献

Last updated: 2026-06-21

Chou C.N., Le H., Wang Y., Chung S. (2025). “Feature Learning beyond the Lazy-Rich Dichotomy: Insights from Representational Geometry.” ICML 2025, PMLR 267:10700-10740. arXiv:2503.18114. ↩
Dayi A.K., Chen S. (2025). “Low-Rank Fine-Tuning Lies Between Lazy Training and Feature Learning.” COLT 2025, PMLR 291:1415-1471. ↩

Metaphor

探索