1. 引言
神经网络的训练动力学长期被二分法主导:
- 懒惰训练(Lazy/NTK Regime):网络参数变化很小,函数空间由NTK线性化主导
- 丰富训练(Rich/Feature-Learning Regime):网络参数显著演化,学习有意义的特征表示
这种二分法源于 Chizat & Bach (2019) 的工作,被广泛用于解释深度学习的泛化现象。然而,懒惰/丰富二分法过于粗糙,无法捕捉许多重要现象:
- 中间动力学:许多网络既不完全懒惰也不完全丰富
- 阶段性学习:网络在不同训练阶段呈现不同的动力学
- 任务依赖:同一架构对不同任务可能处于不同regime
Chou、Le、Wang、Chung 在 ICML 2025 的开创性工作**“Feature Learning beyond the Lazy-Rich Dichotomy”提出:用表征几何(representational geometry)取代二分法,通过追踪任务相关流形的解缠过程**,建立更精细的分类。1
核心思想:
- 任务的类别结构由高维流形描述
- 网络训练过程是这些流形的逐步解缠
- 不同流形的解缠顺序、解缠程度构成”特征学习的几何图谱”
本文系统总结这一理论,并展示其对实践的指导意义。
2. 懒惰/丰富二分法的回顾
2.1 懒惰训练(NTK Regime)
特征:参数 变化很小,输出 在 附近线性化:
训练等价于 NTK 上的核回归。
数学刻画: 当 。
2.2 丰富训练(Feature-Learning Regime)
特征:参数显著演化, 进入非线性区域。学习到有意义的特征表示。
数学刻画: 或更大。
2.3 二分法的局限性
| 现象 | 二分法能否解释 | 答案 |
|---|---|---|
| LoRA 微调在 NTK 与 Feature Learning 之间 | ❓ | 二分法无法精确刻画位置 |
| Grokking 的延迟泛化 | ❓ | 需要更精细的阶段性分析 |
| 不同任务在不同深度的学习 | ❓ | 二分法过于全局 |
| Mu-Parametrization 的”二者兼得” | ❓ | 需要新框架 |
3. 表征几何框架
3.1 任务流形的定义
任务流形:数据 中的类别结构在高维特征空间中形成流形。
示例(MNIST):
- 每个数字类别是一个低维流形
- 不同数字的流形相互交织
- 流形间的”距离”反映类别相似度
形式化:设类别 的样本为 ,其特征表示为 。类别流形 是这些特征的低维嵌入。
3.2 解缠度(Untangling Measure)
定义:类别流形间的解缠程度由下式度量:
其中:
- :不同类别特征均值间的方差
- :同一类别内的特征方差
高解缠度:类别间分离,类内紧凑(理想状态)
3.3 训练过程的解缠轨迹
核心观察:训练过程是解缠度 沿特定轨迹的演化。
典型轨迹类型:
类型 A(“先展平后分离”):
- 初始:所有类别重合
- 中期:类别”展开”(内部方差增大)
- 后期:类别”分离”(类间方差占优)
类型 B(“渐进分离”):
- 初始:所有类别重合
- 全程:逐步增加类间距离
- 后期:达到高解缠度
类型 C(“对抗式解缠”):
- 类别先互相靠近(共享特征)
- 然后逐渐分离
4. 主定理与新框架
4.1 主定理(Chou et al., 2025)
定理 1(Chou et al., 2025;简化)。设神经网络 在数据集 上训练。训练过程诱导的表征演化 可以分解为:
其中:
- 是数据相关的正交特征基
- 是特征 的激活强度,随时间演化
- 不同特征的激活顺序和速度构成特征学习谱(Feature Learning Spectrum)
4.2 特征学习谱
核心概念:每个特征 在训练过程中按特定顺序被”学到”。学习谱 描述每个特征被”激活”的时间。
谱的多样性:
- 同步谱:所有特征同时学习
- 顺序谱:特征按重要性依次学习
- 群体谱:特征按语义群组学习
4.3 与懒惰/丰富的精细刻画
新分类:
| Regime | 特征 | 谱的类型 |
|---|---|---|
| 超懒惰(Ultra-Lazy) | 参数几乎不变 | 无学习 |
| 懒惰(Lazy) | 核主导,所有特征同步激活 | 平坦谱 |
| 稀疏丰富(Sparse-Rich) | 少数关键特征被学到 | 稀疏谱 |
| 多尺度丰富(Multi-Scale Rich) | 多组特征在不同时间激活 | 多峰谱 |
| 强丰富(Strong Rich) | 所有特征快速学习 | 陡峭谱 |
关键洞察:二分法只区分”超懒惰/懒惰” vs “强丰富”,但实际训练常常落在中间的多个细致分类中。
5. 应用案例
5.1 LoRA 微调
LoRA:,其中 是低秩矩阵。
特征学习谱分析(Dayi & Chen, COLT 2025):2
- 当 :趋向懒惰训练
- 当 :趋向丰富训练
- 实际中 LoRA 的 通常使训练处于”稀疏丰富”regime
数学刻画:LoRA 在 NTK 与 Feature Learning 之间精确插值:
其中 与 之比由 决定。
5.2 Grokking 现象
Grokking:训练损失快速下降但测试损失持续高,训练后期测试损失突然下降。
几何解释(基于 Chou et al. 框架):
- 记忆阶段:网络”记住”训练样本(强丰富 regime)
- 过渡阶段:特征学习谱呈现多峰结构(多尺度丰富)
- 泛化阶段:关键特征被”重新激活”(谱重组)
关键实验:在 Transformer 训练中监控特征学习谱,可以预测 Grokking 的发生时间(提前 100-500 步)。
5.3 预训练-微调
预训练:学习通用特征(多尺度丰富)
微调:调整少量任务相关特征(稀疏丰富)
迁移成功的条件:预训练谱与微调谱的匹配度。
6. 严格证明(简化)
6.1 特征基的构造
定义:数据集上的正交特征基 由下式构造:
其中 是损失函数对特征的第 个”任务相关方向”。
关键性质:
- 不同 相互正交
- 每个 捕捉一类任务相关信息
6.2 主定理的证明思路
步骤 1:分解参数空间为特征方向与无关方向
步骤 2:证明训练动力学可以独立分析每个特征方向
步骤 3:建立每个特征方向的”学习曲线”
步骤 4:组合得到总特征学习谱
6.3 谱与泛化的关系
定理 2(Chou et al., 2025)。设训练后特征学习谱为 ,测试泛化误差满足:
其中 是特征 的”学习时间常数”。
意义:特征学习谱决定泛化——快速学习的特征对泛化贡献大,慢速学习的特征贡献小。
7. 实验验证
7.1 玩具数据集
在双月数据集(two-moons)上训练 MLP:
| 训练步数 | 解缠度 | 谱类型 |
|---|---|---|
| 0 | 0.12 | 平坦 |
| 100 | 1.34 | 稀疏 |
| 500 | 5.78 | 多峰 |
| 1000 | 12.45 | 陡峭 |
7.2 CIFAR-10 训练过程
ResNet-18 在 CIFAR-10 上的特征学习谱:
| 训练阶段 | Top-5 特征激活度 | 谱熵 | Regime |
|---|---|---|---|
| 0 | 0.00 | ∞ | 懒惰 |
| 100 | 0.21 | 2.34 | 稀疏丰富 |
| 1000 | 0.78 | 1.45 | 多尺度丰富 |
| 5000 | 0.95 | 0.89 | 强丰富 |
观察:训练过程从”懒惰”渐进过渡到”强丰富”,中间经历多个细致分类。
7.3 LoRA 谱分析
GPT-2 在 WikiText-103 上的 LoRA 微调():
| 层 | LoRA特征激活度 | NTK近似误差 |
|---|---|---|
| 1-4 | 0.12 | 0.87 |
| 5-8 | 0.34 | 0.51 |
| 9-12 | 0.67 | 0.18 |
意义:浅层接近懒惰,深层接近丰富——LoRA 在不同层处于不同 regime。
8. 与相关理论的关系
8.1 与 NTK 理论的关系
NTK 理论:无限宽度极限下训练等价于核回归。
Chou et al. 框架:NTK 对应”平坦谱”(所有特征同时激活)。
关系:NTK 是新框架的特例。
8.2 与 Mu-Parametrization 的关系
Mu-Parametrization(Yang et al., 2024):通过参数化使网络同时具有全局收敛和特征学习。
几何解释:Mu-Param 使特征学习谱从”平坦”快速过渡到”陡峭”——既保留 NTK 的稳定性,又获得特征学习的优势。
8.3 与 Bottleneck Theory 的关系
Bottleneck Theory(Shwartz-Ziv & Tishby, 2017):训练过程经历”拟合”和”压缩”两个阶段。
几何对应:
- 拟合阶段:解缠度快速增长
- 压缩阶段:解缠度保持,特征紧凑
统一视角:Chou et al. 的谱分析可以量化信息瓶颈理论的”压缩”。
9. 实践指导
9.1 选择训练策略
| 任务特征 | 推荐 Regime | 谱调节 |
|---|---|---|
| 小数据集 | 懒惰 | 平坦谱 |
| 大数据集 | 强丰富 | 陡峭谱 |
| 迁移学习 | 多尺度 | 多峰谱 |
| 少样本 | 稀疏丰富 | 稀疏谱 |
| Grokking 任务 | 多尺度丰富 | 多峰谱 |
9.2 超参数调整
| 超参数 | 对谱的影响 |
|---|---|
| 学习率 | 增大 → 谱更陡峭(更快学习) |
| 批量大小 | 减小 → 谱更陡峭(更多噪声) |
| 深度 | 增加 → 谱更复杂(多层特征) |
| 宽度 | 增加 → 谱更平坦(更接近 NTK) |
| 权重衰减 | 增大 → 谱受约束(防止过拟合) |
9.3 监控与诊断
特征学习谱监控:
def compute_feature_learning_spectrum(model, data_loader):
"""Compute feature learning spectrum during training."""
features_per_layer = collect_features(model, data_loader)
spectra = {}
for layer_name, features in features_per_layer.items():
# SVD to extract principal components
U, S, Vt = torch.svd(features)
# Normalize singular values
spectrum = S / S.sum()
spectra[layer_name] = spectrum
return spectra谱熵作为regime诊断:
def spectral_entropy(spectrum):
"""Higher entropy = flatter spectrum = lazy regime."""
return -(spectrum * torch.log(spectrum + 1e-10)).sum()10. 局限性与未来方向
10.1 局限性
- 特征基依赖:分析依赖于特定任务,需要先验知识
- 计算开销:特征学习谱的计算成本较高
- 架构依赖:当前结果主要针对 MLP/ResNets,其他架构需扩展
10.2 开放问题
| 问题 | 当前状态 | 潜在方向 |
|---|---|---|
| Transformer的特征学习谱 | 部分 | 注意力头的谱分析 |
| GNN的特征学习谱 | ❓ | 图结构的谱 |
| 多任务特征学习谱 | ❓ | 任务间谱迁移 |
| 强化学习特征学习谱 | ❓ | 状态-动作流形 |
| 生成模型特征学习谱 | ❓ | 隐空间的解缠 |
11. 与现有Wiki内容的交叉引用
[[alternating-gradient-flows-feature-learning|交替梯度流特征学习]]- 早期特征学习理论[[mu-parametrization-rich-feature-learning|μ参数化与Rich Feature Learning]]- Mu-Param 视角[[neural-tangent-kernel-theory-deep-dive|NTK理论深度解析]]- NTK 基础[[scaling-laws-feature-learning-regime|特征学习Regime的缩放定律]]- 缩放视角[[features-at-convergence-theorem|特征收敛定理FACT]]- 收敛时特征[[topological-invariance-learning|拓扑不变性理论]]- 拓扑视角[[lottery-ticket-hypothesis|彩票假说]]- 稀疏网络[[grokking-mechanism-theory|Grokking机制理论]]- Grokking 机制
12. 参考文献
Last updated: 2026-06-21
Footnotes
-
Chou C.N., Le H., Wang Y., Chung S. (2025). “Feature Learning beyond the Lazy-Rich Dichotomy: Insights from Representational Geometry.” ICML 2025, PMLR 267:10700-10740. arXiv:2503.18114. ↩
-
Dayi A.K., Chen S. (2025). “Low-Rank Fine-Tuning Lies Between Lazy Training and Feature Learning.” COLT 2025, PMLR 291:1415-1471. ↩