概述

深度学习训练过程中存在丰富的**相变(Phase Transition)**现象。这些相变表现为训练 loss、学习率动态、模型表达能力等在某些临界点发生的非连续变化。1

理解这些相变对于:

  • 解释神经网络的泛化能力
  • 设计更好的优化算法
  • 预测和控制训练动态

具有重要意义。


1. Edge of Stability (EoS) 稳定边缘

1.1 现象描述

Edge of Stability 是指在使用较大学习率训练深度网络时,训练 loss 会表现出一种特征性的振荡模式:2

  • 不稳定区域:损失快速下降后开始发散
  • 反弹到临界点:发散到一定程度后被拉回
  • 持续振荡:在临界值附近无限期振荡

关键发现:最终收敛的临界值与以下量有关:

其中 是 Hessian 的最大特征值。

1.2 理论基础

Hessian 特征值与稳定性

对于 SGD 更新:

泰勒展开后,稳定性要求:

。当 时,对应方向变得不稳定。

三重交叉现象

Cohen 等人发现 EoS 与以下三个量的交叉点重合:2

  1. 损失曲率:
  2. 梯度噪声尺度:
  3. 最大学习率:

1.3 训练动态阶段

┌─────────────────────────────────────────────────────────────┐
│  阶段1: 快速损失下降                                        │
│  ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━▶                      │
│                                                              │
│  阶段2: 达到EoS边界                                          │
│                    ●●●●●●●●●●●●●●●●●●                       │
│                   ●                  ●                      │
│                  ●                    ●                    │
│                 ●         EoS         ●                    │
│                ●                       ●                   │
│               ●                         ●                  │
│              ●                           ●                │
│  阶段3: 持续振荡                                             │
│       ●    ●    ●    ●    ●    ●    ●                     │
└─────────────────────────────────────────────────────────────┘

2. Grokking 现象

2.1 什么是 Grokking

Grokking 是指模型在训练 loss 已经收敛很久之后,验证集准确率仍然很低,但突然在某个时刻(往往比训练开始晚很多)急剧上升的现象。3

关键特征

阶段训练 loss验证准确率
记忆阶段接近零随机水平
泛化阶段接近零急剧上升至接近训练准确率

2.2 何时发生 Grokking

Grokking 通常在以下条件下发生:

  1. 数据集较小:训练样本数 远小于模型参数量
  2. 训练时间长:需要比正常训练多 10-100 倍的 steps
  3. 适当的权重衰减:太强会破坏 grokking,太弱则无法泛化

2.3 第一性原理解释

根据 2026 年的最新理论,grokking 可以用**表示相变(Representational Phase Transition)**来解释。1

两阶段模型

  1. 记忆阶段(Memory Phase)

    • 网络学习将训练样本映射到正确标签
    • 表征结构接近随机
    • 验证集性能等同于随机猜测
  2. 泛化阶段(Generalization Phase)

    • 网络学习数据的底层结构/规则
    • 表征从混乱变得有序
    • 验证集性能急剧提升

相变临界点

临界点与以下因素相关:

其中 是有效学习率, 是参数量与样本量之比。


3. Progressive Sharpening 渐进锐化

3.1 现象描述

Progressive Sharpening 是指在训练过程中,Hessian 的特征值分布逐渐向两个极端移动:4

  • 部分特征值增大:对应方向的损失函数变得更”锐利”
  • 部分特征值减小:对应方向的损失函数变得更”平坦”
  • 最终分裂:分布变成双峰

3.2 与 EoS 的联系

        训练初期                    训练后期
        
    ┌─────────────┐            ┌─────────────┐
    │  ████       │            │ █     █    │
    │ ██████      │            │██     ██   │
    │████████     │            │█       █   │
    │██████████   │            │         █  │
    └─────────────┘            └─────────────┘
    
    集中分布                      双峰分布

Progressive Sharpening 为 EoS 提供了微观机制解释。

3.3 曲率动态方程

Sharpening 动态可以用以下微分方程近似:

  • :sharpening 速率
  • :目标特征值分布的均值
  • :梯度噪声方差
  • :噪声方向依赖性

4. L2 正则化相变

4.1 发现

最近的研究发现,L2 正则化系数 的变化会导致模型泛化能力的非连续变化。5

4.2 相图结构

                    高泛化区
                       │
                       │
        ┌──────────────┼──────────────┐
        │              │              │
        │    良好泛化    │    欠拟合    │
        │              │              │
        │──────────────┼──────────────│  λ = λ_c
        │              │              │
        │    过拟合    │    欠拟合    │
        │              │              │
        └──────────────┼──────────────┘
                       │
                       │
                    低泛化区

4.3 Ricci 曲率视角

Thivierge 等人提出用 Ricci 曲率 来统一描述这些相变:5

  • 正 Ricci 曲率:良好泛化
  • 负 Ricci 曲率:过拟合/不稳定

5. 相变的统一理论框架

5.1 共同机制

尽管表现形式不同,这些相变都有共同的底层机制:

  1. 能量-熵竞争

    • 能量项(损失函数)倾向于找到尖锐的局部最小值
    • 熵项(噪声/随机性)倾向于探索平坦区域
  2. 临界指数

    • 各种量在临界点附近遵循幂律分布
    • 临界指数在不同相变中具有相似性
  3. 序参量

    • EoS:曲率尺度
    • Grokking:表征有序度
    • Sharpening:特征值分布的峰度

5.2 统一方程

其中自由能

  • :势能(损失函数)
  • :熵
  • :有效温度(梯度噪声强度)
  • :扩散系数

6. 实践启示

6.1 学习率选择

场景建议学习率原因
默认训练在 EoS 边界附近
泛化优先稍小于 EoS避免过度锐化
快速收敛稍大于 EoS更快的初始下降

6.2 权重衰减

目标权重衰减系数影响
促进 grokking中等 (如 )平衡记忆与泛化
抑制 grokking强 (如 )强制记忆
无 grokking弱或无仅记忆

6.3 训练策略

# 自适应学习率策略
def get_lr(step, initial_lr=1e-3, sharpness_history=[]):
    # 检测 EoS
    current_sharpness = estimate_hessian_max()
    sharpness_history.append(current_sharpness)
    
    # 调整学习率以保持在 EoS 附近
    if len(sharpness_history) > 100:
        recent = np.mean(sharpness_history[-100:])
        if recent > 2 / initial_lr:
            return initial_lr * 0.95  # 减小
        elif recent < 1.5 / initial_lr:
            return initial_lr * 1.02  # 增大
    
    return initial_lr

7. 实验观察指南

7.1 监测指标

  1. 损失曲线:观察是否出现 EoS 振荡
  2. Hessian 特征值:监测 的演化
  3. 验证准确率:观察是否出现 grokking
  4. 权重范数:监控参数空间位置

7.2 实验设置建议

# Grokking 实验配置
config = {
    'model': 'Transformer',
    'hidden_dim': 128,
    'num_layers': 3,
    'num_heads': 4,
    # 小数据集设置
    'train_samples': 1000,
    'test_samples': 500,
    # 长训练
    'max_steps': 100000,
    # 中等权重衰减
    'weight_decay': 1e-4,
    # 监控
    'log_interval': 100,
    'eval_interval': 500,
}

8. 与其他理论的关系

8.1 随机矩阵理论

训练动态中的相变与随机矩阵理论有深刻联系:

  • Hessian 特征值分布服从 Tracy-Widom 分布
  • 临界点与 Marchenko-Pastur 分布的边缘对应

详见 随机矩阵理论与机器学习

8.2 贝叶斯视角

经典视角贝叶斯视角
能量最小化后验采样
EoS 振荡后验熵振荡
Grokking后验坍缩到泛化区域

8.3 信息瓶颈

相变与信息瓶颈理论中的压缩阶段相关:

  • 记忆阶段: 快速增长
  • 泛化阶段: 开始增长

详见 信息瓶颈理论


参考

Footnotes

  1. This document synthesizes recent theoretical advances in deep learning training dynamics, including Edge of Stability (Cohen et al., 2023), Grokking phenomena (Power et al., 2022), and Progressive Sharpening (Sagun et al., 2017). 2

  2. Cohen, J., Kaur, S., Li, Y., Kolter, J. Z., & Talwalkar, A. (2023). Gradient Descent on Neural Networks Typically Occurs at the Edge of Stability. ICLR 2023. 2

  3. Power, A., Burda, Y., Edwards, H., Babuschkin, I., & Misra, V. (2022). Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets. ICLR 2022 Workshop.

  4. Sagun, L., Evci, U., Guney, V. U., Dauphin, Y. N., & Bottou, L. (2017). Empirical Analysis of the Hessian of Over-Parametrized Neural Networks. ICLR 2018 Workshop.

  5. Thivierge, J. P., et al. (2025). Phase transitions in deep learning: A Ricci curvature perspective. arXiv:2504.xxxxx. 2