注意力训练的两阶段相变

概述

Transformer 训练动力学长期以来被认为难以分析：其模型尺度、训练目标、优化器配置的差异都会导致完全不同的训练轨迹。然而，2025 年 NeurIPS Oral 论文 From Condensation to Rank Collapse: A Two-Stage Analysis of Transformer Training Dynamics（Chen & Luo, SJTU）¹ 给出了一个惊人的结论：Transformer 的训练过程在数学上必然经历两个不同的阶段，且两个阶段之间存在显著的相变。

具体而言，作者在小初始化（Small Initialization）设定下，采用 Zhou 等人² 提出的梯度流（Gradient Flow）分析框架，系统地研究了线性化 Transformer 的训练动力学，并将其分解为两个截然不同的阶段：

阶段 I（Condensation）：外层参数 $W_{V}$ 、 $W^{[1]}$ 、 $W^{[2]}$ 在随机初始化引入的非对称扰动驱动下发生有限时间 blow-up，迅速逃离小初始化区域并向任务相关方向聚集（condensation）。在这一阶段，注意力矩阵 $W_{Q}$ 、 $W_{K}$ 几乎静止。
阶段 II（Key-Query Rank Collapse）：当外层参数进入准稳态（quasi-stationary）后，原本静默的 $W_{Q}$ 、 $W_{K}$ 重新被激活，驱动归一化的键-查询矩阵发生渐近秩坍缩。

这两个阶段并非相互独立的现象，而是由同一训练动力学在不同时间尺度上自然涌现的两面。论文的主要贡献可以归纳为四点¹：

Blow-up 动力学（Theorem 1）：在测度论意义上几乎所有高斯初始点都会发生有限时间 blow-up，从而消除对初始点二分性假设的依赖。
Condensation 机制（Theorem 2）：通过引入 Condensation Condition（Assumption 1），证明 condensation 在小初始化下必然出现。
Key-Query 坍缩（Theorem 3）：当外层参数进入准稳态（Assumption 2）后，键-查询矩阵发生渐近秩坍缩。
实验验证：在合成数据与 WikiText 真实任务上均观察到两阶段行为，且在小初始化下稳定出现。

本文件将系统性地展开这一理论框架，并与已有的注意力秩崩溃谱理论、Transformer Mean-Field 动力学以及规范表示假说与神经崩溃等工作进行交叉对比，揭示 Transformer 训练动力学的统一图景。

1. 预备知识：Token Condensation 现象

1.1 Condensation 的形式化定义

Token Condensation（语义聚集）是指在训练早期，同语义类别的 token 表示在表示空间中聚类对齐的现象。Chen & Luo 在论文中采用更一般的方向性定义¹：

定义 1（Condensation）。设 $W (t)$ 是一个矩阵，其行（或列）为 $W_{k} (t)$ 。若 $t \to T$ 时

⟨ \frac{W _{k} ( t )}{∥ W _{k} ( t ) ∥ _{2}}, v ⟩ \to \pm 1, \forall k, ∥ W_{k} (t) ∥_{2} \neq = 0

则称 $W$ condense 到方向 $v$ 。

直观上，这意味着矩阵的所有行（或列）虽然尺度可能差异很大，但方向高度一致——这是一个比 rank-1 更弱的概念（仅要求方向一致，不要求尺度一致）。当方向唯一时，condensation 蕴含 rank-1 坍缩。

1.2 与 Neural Collapse 的关系

规范表示假说与神经崩溃（Papyan, Han & Donoho, 2020）描述了监督学习末期最后一层特征的类内方差趋零³。Condensation 与 Neural Collapse 都是类内方差减小的现象，但存在以下关键区别：

维度	Token Condensation	Neural Collapse
发生位置	中间层 + 参数矩阵	最后一层特征
发生时间	训练早期	训练末期
度量对象	参数方向	特征分布
类别先验	可无（自监督也成立）	必须监督

Chen & Luo 的工作将 Condensation 推广为参数矩阵方向性的早期收敛现象，从而将 Neural Collapse 纳入更广义的「方向性对齐」框架。

1.3 Condensation 与 Self-supervised Learning

在自监督学习中，类似的现象被称为 neural collapse in SSL 或 dimensional collapse reduction：BYOL、SimSiam 等模型在训练早期就会让增强视图的表示高度对齐。Chen & Luo 论文中证明的 condensation 不需要监督信号——只要损失函数对参数矩阵具有乘法耦合结构（如 Transformer 的 $W_{V} W^{[1]} W^{[2]}$ ），condensation 就会发生。

1.4 实验观察

Condensation 现象在多种 Transformer 架构中普遍存在：

BERT 中间层的 attention head 在预训练早期发生 token 聚集；
GPT-2 不同层在训练过程中逐步形成方向一致的 query/key 投影；
ViT 的 patch embedding 在 ImageNet 上预训练时发生 patch-wise 聚类。

Chen & Luo 在合成 anchor function 数据集上量化了此过程：在不到 200 个训练步内，外层参数满足 condensation 条件的比例即从 0 升至接近 1¹。

2. 预备知识：Rank Collapse 现象

2.1 Rank Collapse 的定义

Rank Collapse（秩坍缩）描述训练后期 token 表示或参数矩阵的有效秩显著下降。Chen & Luo 给出的定义为¹：

定义 2（渐近秩坍缩）。设 $W (t)$ 为参数矩阵。若极限

W_{\infty} := t \to T lim \frac{W ( t )}{∥ W ( t ) ∥ _{F}}

存在且 $rank (W_{\infty}) \leq k$ ，则称 $W$ 发生 rank- $k$ 坍缩。

注意此定义与 Condensation 的差异：Condensation 是方向性概念（ $\pm 1$ 内积），而 Rank Collapse 是谱性概念（奇异值集中到少数几个）。

2.2 测量方法

实践中常用以下三个谱度量来检测 Rank Collapse：

稳定秩（Stable Rank）⁴：

sr (W) = \frac{∥ W ∥ _{F}^{2}}{∥ W ∥ _{2}^{2}} = \frac{\sum _{i} σ _{i}^{2}}{σ _{m a x}^{2}}

有效秩（Effective Rank）：

erank (W) = exp (H (p)), p_{i} = \frac{σ _{i}}{\sum _{j} σ _{j}}, H (p) = - i \sum p_{i} lo g p_{i}

核范数比（Nuclear Norm Ratio）：

ρ (W) = \frac{∥ W ∥ _{*}}{∥ W ∥ _{F}} = \frac{\sum _{i} σ _{i}}{\sum _{i} σ _{i}^{2}}

当 $ρ \to 1$ 时，所有奇异值趋于相等（无坍缩）；当 $ρ \to 1/ k$ 时，矩阵坍缩到 rank- $k$ 。

2.3 已有工作

Rank Collapse 在 Transformer 文献中有多个独立研究线索：

注意力矩阵的低秩结构 注意力秩崩溃谱理论：softmax 注意力矩阵在深层会发生特征值集中，趋向于秩-1 的均匀矩阵 $\frac{1}{T} 1 1^{⊤}$ ⁵。
Context Aggregation 中的瓶颈：随着层数加深，token 表示会被压缩到越来越窄的子空间（与低秩训练相关）。
Differential Transformer 的动机：通过差分注意力机制缓解注意力矩阵的秩坍缩问题⁵。
NTK 极限下的无限宽网络：在 NTK regime 下，训练不会改变参数的有效秩；但在 feature learning regime 下，rank collapse 是显著现象。

2.4 Rank Collapse 的负面后果

Rank Collapse 在训练末期会引发一系列问题：

信息瓶颈：token 表示坍缩到低维子空间后，跨位置信息传递能力受限；
梯度消失：当 attention 矩阵接近秩-1 时，反向传播的梯度也会相应集中；
表示能力退化：分类边界变得模糊，模型难以区分细微语义差异。

Chen & Luo 的关键洞察是：这些「负面后果」其实是训练的一个内在阶段，而非单纯的退化现象——它代表着参数空间结构性的重组。

3. 两阶段理论框架

3.1 时间轴划分

Chen & Luo 的核心贡献是将训练时间轴 $t \in [0, T]$ 显式划分为两个阶段¹：

Stage I: Condensation [0, t_{1}^{*}] ⟶ Stage II: Key-Query Rank Collapse [t_{1}^{*}, T]

其中 $t_{1}^{*}$ 是外层参数进入准稳态的临界时刻。两个阶段的数学刻画如下：

阶段	主导参数	主要动力学	表征度量
Stage I	$W_{V}$ , $W^{[1]}$ , $W^{[2]}$	blow-up + directional convergence	cosine similarity 矩阵出现块结构
Stage II	$W_{Q}$ , $W_{K}$	线性 ODE 系统	归一化键-查询矩阵有效秩下降

3.2 关键贡献：相变临界点 $t_{c}$

论文证明两个阶段之间存在清晰的相变临界点 $t_{c}$ 。这个相变具有以下特征：

几何突变：损失景观在 $t_{c}$ 附近的几何结构发生质变——从「外层参数主导的梯度场」切换到「注意力参数主导的梯度场」。

二阶导数不连续：损失函数 $L (t)$ 关于时间 $t$ 的一阶导数 $\dot{L}$ 在 $t_{c}$ 处连续，但二阶导数 $\ddot{L}$ 出现明显的拐点¹。

尺度分离：在 $t < t_{c}$ 时，外层参数的 Frobenius 范数 $∥ W_{V} ∥_{F}$ 从 $O (ε)$ blow-up 到 $O (1)$ ，而 $∥ W_{Q} ∥_{F}$ 始终保持 $O (ε)$ 量级；在 $t > t_{c}$ 时，外层参数方向冻结，而注意力参数开始演化。

3.3 与物理学相变的类比

Chen & Luo 的两阶段框架与物理学中的相变（一阶/二阶）有深刻的类比关系：

类比 1：一阶相变 vs 二阶相变

一阶相变（如水的凝固）：相变点处存在潜热（一阶导数不连续）；
二阶相变（如超导转变）：一阶导数连续，但二阶导数（如比热）不连续⁶。

Chen & Luo 的论文揭示的训练相变更接近二阶相变——Loss 曲线连续，但 $\ddot{L}$ 在临界点处出现拐点。

类比 2：能量景观的两阶段弛豫
在统计物理中，复杂系统经常经历「快-慢两阶段弛豫」（fast-slow relaxation）：

快弛豫（quench）：系统迅速下降到局部能量极小；
慢弛豫（aging）：系统在能量景观中缓慢漂移。

Transformer 训练的两阶段与这一物理图像惊人地一致：condensation 是快速 blow-up + 方向收敛，对应「快弛豫」；rank collapse 是缓慢的注意力重构，对应「慢弛豫」。

4. 理论分析

4.1 形式化设置

Chen & Luo 考虑一层 Transformer 模型¹：

f_{θ} (X) := FFN (Attn (X)) = σ (Attn (X) W^{[1]}) W^{[2]}

其中注意力子层为：

Attn (X) = softmax (\frac{X W _{Q} W _{K}^{⊤} X ^{⊤}}{d _{m}}) X W_{V}

参数矩阵 $W_{Q}, W_{K}, W_{V}, W^{[1]} \in R^{d_{m} \times d_{m}}$ ， $W^{[2]} \in R^{d_{m}}$ ，激活函数 $σ = tanh$ 。

小初始化设定：所有参数按 $N (0, ε^{2})$ 初始化，其中 $ε ≪ 1$ 控制初始化尺度⁷。

4.2 有效动力学的导出

将损失函数 $L (θ)$ 关于 $ε$ 进行 Taylor 展开，得到主阶形式¹：

L (θ) \approx \frac{1}{2 n} i = 1 \sum n [1 - ε^{3} (j = 1 \sum s \frac{1}{s} y_{i} X_{i, j} \overset{ˉ}{W}_{V} \overset{ˉ}{W}^{[1]} \overset{ˉ}{W}^{[2]}) + o (ε^{3})]

通过引入凝缩方向（condensation direction）：

v := \frac{\sum _{i = 1}^{n} y _{i} ( \sum _{j = 1}^{s} X _{i, j} )}{\sum _{i = 1}^{n} y _{i} ( \sum _{j = 1}^{s} X _{i, j} ) _{2}}

与重缩放时间 $\overset{ˉ}{t}$ ，论文证明归一化参数 $\overset{ˉ}{θ}$ 满足梯度上升形式（Proposition 1）¹：

\frac{d θ ˉ}{d t ˉ} = \nabla_{\overset{ˉ}{θ}} (v \overset{ˉ}{W}_{V} \overset{ˉ}{W}^{[1]} \overset{ˉ}{W}^{[2]})

并定义能量泛函：

E := W_{v} W^{[1]} W^{[2]}, W_{v} := v W_{V}

4.3 阶段 I：Condensation 速率定理

核心定理 1（Blow-up in finite time）：在测度论意义上几乎所有高斯初始点都满足非退化初始化条件（Definition 4），且有效动力学会在有限时间内 blow-up¹。

证明基于 Riccati 型微分不等式。设 $E (t)$ 为能量函数，则

\dot{E} (t) \geq 3 E (t)^{4/3}

由此得到

E (t) \geq \frac{1}{( E ( 0 ) ^{- 1/3} - t ) ^{3}}

因此当 $t \to T^{*} \leq E (0)^{- 1/3}$ 时， $E (t) \to + \infty$ 。

核心定理 2（Condensation）：在 Condensation 条件（Assumption 1）下，有效动力学驱动 $W_{V}$ 发生方向性收敛（condensation）¹。

Condensation 条件的形式为：

对每个 $i \in [d_{m}]$ ， $W_{i}^{[2]} W_{v} W_{i}^{[1]} > 0$ 且 $W_{v, i} W_{i}^{[1]} W^{[2]} > 0$ ；
对每个 $i, j \in [d_{m}]$ ，行积与列积方向对齐。

证明技巧：

几何一致性：在 Assumption 1 下，一旦在某 $t_{0} < T^{*}$ 时刻对齐条件成立，它会在 $(t_{0}, T^{*})$ 上传播；
结构二分： $W_{V}$ 的列分为凝缩类 $C_{1}$ 与一致有界类 $C_{2}$ ；
双边能量控制：通过双边估计 $E (t)$ 的上下界，凝缩指标在有限时间内占主导地位。

4.4 阶段 II：Rank Collapse 速率定理

核心定理 3（Asymptotic Rank Collapse）：在阶段 II 的关键-查询动力学下，归一化的键矩阵和查询矩阵发生渐近秩坍缩。当 $F$ （见下式）具有唯一最大奇异值时，归一化矩阵渐近趋于秩-1¹。

阶段 II 的关键-查询动力学是线性 ODE 系统：

\frac{d W _{Q}}{d t} = F W_{K}, \frac{d W _{K}}{d t} = F^{⊤} W_{Q}

其中 $F$ 由外层参数与数据决定：

F = \frac{1}{n s d _{m}} i = 1 \sum n y_{i} L_{1, i} X_{i, s}^{⊤} W^{[2] ⊤} W^{[1] ⊤} W_{V}^{⊤} (j = 1 \sum s X_{i, j}^{⊤} (X_{i, j} - \frac{1}{s} l = 1 \sum s X_{i, l}))

由于这是一个线性 ODE 系统，其解可以显式写为矩阵指数形式：

(W_{Q} (t) W_{K} (t)) = exp (t (0 F^{⊤} F 0)) (W_{Q} (0) W_{K} (0))

当 $t \to \infty$ 时，矩阵指数被最大奇异值对应的特征方向主导，从而归一化矩阵趋向 rank-1——这是渐近秩坍缩。

4.5 对超参数的依赖

Chen & Luo 框架揭示了两阶段对几个关键超参数的依赖：

学习率：增大学习率会加快两阶段的过渡——blow-up 时间 $T^{*} \propto ε n s / η$ （ $η$ 为学习率），临界点 $t_{c}$ 也随之提前。

初始化尺度 $ε$ ：更小的 $ε$ 会延长阶段 I 的 blow-up 时间，但会让 condensation 更彻底（方向性更强）；同时让阶段 II 开始的更晚。

模型深度 $L$ ：深层 Transformer 中，每层都经历一次微缩的两阶段循环——下层的 rank collapse 为上层的 condensation 提供更优的初始化。这种层级递归结构与 Transformer Mean-Field 动力学中的层级相互作用高度一致⁸。

数据规模 $n$ ：在小数据下阶段 II 容易过拟合（rank collapse 过早发生）；大数据下两阶段更平稳。

4.6 与 Loss Landscape 几何的关系

Chen & Luo 的两阶段框架与损失景观的多重分形动力学⁹ 高度相关：

阶段 I 对应 Sharp Minima 区域：condensation 让外层参数快速收敛到一个狭窄的能量井；
阶段 II 对应 Flat Minima 过渡：rank collapse 是损失景观几何的「软化」过程。

这一对比暗示：小初始化 $\to$ 两阶段相变 $\to$ 隐式正则化 是一个统一的因果链，与权重衰减与损失景观中的隐式偏好现象一致。

5. 实验验证

5.1 合成数据实验（Anchor Function）

Chen & Luo 采用 Zhang 等人¹⁰ 提出的 anchor function 构造合成数据集。该数据集模拟简化的语言建模场景：每个输入是若干 token 序列，目标是预测某个锚点位置的目标值。

实验设置：

模型：一层 Transformer，tanh 激活，cross-entropy loss
优化器：AdamW，小初始化 $ε ≪ 1$
度量：参数 cosine similarity 矩阵、Frobenius 范数变化、有效秩

三阶段观察：

   Loss
    ↑
    |  \
    |   \____     /‾‾‾‾‾\
    |        \   /        \____
    |         \ /
    +———————————————————————————→ Steps
      Stage I    Stage II   Further
    (condens.)  (rank col.)  training

阶段 I 特征：

外层参数 $W_{V}$ 、 $W^{[1]}$ 、 $W^{[2]}$ 的 Frobenius 范数从 $O (ε)$ 迅速增长到 $O (1)$ ；
cosine similarity 矩阵出现块结构；
有效秩单调下降；
注意力参数 $∥ W_{Q} ∥$ 、 $∥ W_{K} ∥$ 保持 $O (ε)$ 不变。

阶段 II 特征：

外层参数方向冻结（cosine similarity $\approx 1$ ）；
注意力参数开始主导优化；
归一化的 $W_{Q}$ 、 $W_{K}$ 发生 rank collapse；
损失曲线进入平台期。

5.2 真实任务（WikiText）

在 WikiText（Merity et al., 2017）上，作者训练两层 Transformer（GeLU 激活 + 残差连接，省略 LayerNorm）来验证两阶段动力学的普遍性¹。

关键发现：即使在真实文本数据上，两阶段动力学依然稳健出现：

两层都依次经历 condensation；
当外层参数冻结后，注意力参数开始演化；
最终归一化的 $W_{Q}$ 、 $W_{K}$ 都发生 rank collapse。

这一结果验证了两阶段不是合成数据的特殊现象，而是 Transformer 训练的一般规律。

5.3 训练曲线可视化

下图为示意图（基于论文 Figure 1-3 重绘）：

graph LR
    A[Step 0<br/>random init] -->|Stage I<br/>condensation| B[Step t_c<br/>outer quasi-static]
    B -->|Stage II<br/>rank collapse| C[Step T<br/>final model]
    A -.->|cosine sim block| D[Stage I<br/>块结构形成]
    B -.->|effective rank drop| E[Stage II<br/>rank collapse]
    A -.->|F norm blow-up| F[Stage I<br/>||W||_F: ε → 1]

5.4 临界点检测算法

基于论文的 Assumption 2*（方向变化缓慢 + 损失变化缓慢），可以设计如下临界点检测算法：

def detect_phase_transition(loss_history, param_dirs, threshold=0.01):
    """
    Detect the condensation-to-rank-collapse phase transition.
 
    Args:
        loss_history: list of loss values per step
        param_dirs: list of normalized outer parameter directions
        threshold: direction change threshold for "frozen" detection
 
    Returns:
        t_c: critical step index
    """
    n_steps = len(loss_history)
    dir_stability = []
 
    for t in range(1, n_steps):
        # Cosine similarity between consecutive normalized directions
        cos = np.dot(param_dirs[t], param_dirs[t-1])
        dir_stability.append(cos)
 
    # Critical point: when direction stability first exceeds threshold
    # AND loss has plateaued
    for t in range(1, n_steps - 1):
        if dir_stability[t] > (1 - threshold):
            # Check loss plateau: |Δloss| small
            recent_loss_change = abs(
                loss_history[t] - np.mean(loss_history[max(0, t-50):t])
            )
            if recent_loss_change < threshold:
                return t
 
    return None

6. 代码实现：训练过程两阶段度量

6.1 Token Condensation 度量

下面的 PyTorch 代码实现了训练过程中类内方差（intra-class variance）的实时度量：

import torch
import torch.nn.functional as F
 
 
def intra_class_variance(features: torch.Tensor,
                         labels: torch.Tensor,
                         eps: float = 1e-8) -> torch.Tensor:
    """
    Compute the average intra-class variance of token representations.
    Lower values indicate stronger condensation.
 
    Args:
        features: (B, N, d) token representations
        labels:   (B,) class labels
        eps:      numerical stability
 
    Returns:
        scalar: mean intra-class variance
    """
    unique_labels = torch.unique(labels)
    variances = []
 
    for c in unique_labels:
        mask = (labels == c)
        if mask.sum() < 2:
            continue
        class_feats = features[mask]             # (n_c, d)
        centroid = class_feats.mean(dim=0, keepdim=True)
        var = ((class_feats - centroid) ** 2).sum(dim=-1).mean()
        variances.append(var)
 
    if not variances:
        return torch.tensor(0.0, device=features.device)
    return torch.stack(variances).mean()
 
 
def condensation_score(features: torch.Tensor, labels: torch.Tensor) -> float:
    """
    Compute normalized condensation score in [0, 1].
    1.0 = perfect condensation, 0.0 = random.
    """
    total_var = features.var(dim=0).sum()
    intra_var = intra_class_variance(features, labels)
    # 1 - (intra / total): condensation reduces intra-class variance
    return float(1.0 - (intra_var / (total_var + 1e-8)).clamp(0, 1))

6.2 Rank Collapse 检测（基于 SVD 的有效秩）

import torch
 
 
def effective_rank(matrix: torch.Tensor, eps: float = 1e-8) -> float:
    """
    Compute the effective rank of a matrix via SVD entropy.
    Roy & Vetterli (2007), defined as exp(H(p)) where
        p_i = sigma_i / sum_j sigma_j,  H = -sum p_i log p_i
    """
    # matrix: (m, n)
    s = torch.linalg.svdvals(matrix.float())
    s = s[s > eps]
    if len(s) == 0:
        return 0.0
    p = s / s.sum()
    entropy = -(p * torch.log(p)).sum()
    return float(torch.exp(entropy))
 
 
def stable_rank(matrix: torch.Tensor, eps: float = 1e-8) -> float:
    """
    Stable rank: ||W||_F^2 / ||W||_2^2.
    More robust to noise than naive rank.
    """
    fro_sq = torch.linalg.matrix_norm(matrix, ord='fro') ** 2
    spec_sq = torch.linalg.matrix_norm(matrix, ord=2) ** 2
    return float(fro_sq / (spec_sq + eps))
 
 
class PhaseTransitionMonitor:
    """
    Track condensation + rank collapse metrics during training.
 
    Usage:
        monitor = PhaseTransitionMonitor()
        for step in range(N):
            ...
            monitor.update(step, features, labels, W_q, W_k, W_v)
        monitor.plot()
    """
 
    def __init__(self):
        self.history = {
            'step': [], 'condensation': [], 'rank_WQ': [],
            'rank_WK': [], 'rank_WV': [], 'stab_WQ': [], 'stab_WK': [],
            'stab_WV': [], 'norm_WQ': [], 'norm_WK': [], 'norm_WV': [],
        }
 
    def update(self, step, features, labels, W_q, W_k, W_v):
        with torch.no_grad():
            self.history['step'].append(step)
            self.history['condensation'].append(
                condensation_score(features, labels)
            )
            self.history['rank_WQ'].append(effective_rank(W_q))
            self.history['rank_WK'].append(effective_rank(W_k))
            self.history['rank_WV'].append(effective_rank(W_v))
            self.history['stab_WQ'].append(stable_rank(W_q))
            self.history['stab_WK'].append(stable_rank(W_k))
            self.history['stab_WV'].append(stable_rank(W_v))
            self.history['norm_WQ'].append(float(W_q.norm()))
            self.history['norm_WK'].append(float(W_k.norm()))
            self.history['norm_WV'].append(float(W_v.norm()))
 
    def detect_transition(self, threshold=0.95) -> int:
        """Heuristic: t_c is first step where outer-parameter stable rank
        stops changing AND attention-parameter stable rank starts changing."""
        sw = torch.tensor(self.history['stab_WV'])
        sa = torch.tensor(self.history['stab_WQ'])
        for t in range(1, len(sw) - 1):
            if abs(sw[t] - sw[t-1]) < 0.01 and abs(sa[t] - sa[t-1]) > 0.01:
                return t
        return -1

6.3 训练循环中的监控集成

import torch
import torch.nn as nn
 
 
def train_with_phase_monitor(model, dataloader, epochs, device='cuda'):
    monitor = PhaseTransitionMonitor()
    optimizer = torch.optim.AdamW(model.parameters(), lr=1e-3)
 
    step = 0
    for epoch in range(epochs):
        for batch in dataloader:
            inputs, labels = batch
            inputs = inputs.to(device)
            labels = labels.to(device)
 
            # Forward
            features, logits = model(inputs)
            loss = F.cross_entropy(logits, labels)
 
            # Update monitor (BEFORE optimizer step)
            with torch.no_grad():
                monitor.update(
                    step, features, labels,
                    model.attn.W_q.weight,    # (d, d)
                    model.attn.W_k.weight,    # (d, d)
                    model.attn.W_v.weight,    # (d, d)
                )
 
            # Backward
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
 
            step += 1
 
        # End of epoch: check phase transition
        t_c = monitor.detect_transition()
        if t_c > 0 and step > t_c:
            print(f"[Phase II detected @ step {t_c}] "
                  f"rank_WQ={monitor.history['rank_WQ'][-1]:.2f}, "
                  f"rank_WK={monitor.history['rank_WK'][-1]:.2f}")
 
    return monitor

7. 与其他现象的关系

7.1 与 Grokking 的关系

Grokking 描述了训练损失已收敛后，测试准确率突然跃升的现象。Grokking 与本论文两阶段的关系如下：

维度	Condensation → Rank Collapse	Grokking
时间尺度	训练早期 → 中期	训练末期（持续过拟合之后）
参数变化	外层 → 注意力	权重从小幅度 → 大幅度
度量	有效秩下降	测试准确率跃升
触发条件	小初始化	算法任务 + 权重衰减

深层联系：Grokking 的「延迟泛化」可以被理解为第三阶段——在 rank collapse 之后，模型经历一个缓慢的「表示重组」阶段，最终找到泛化解。这一推测尚未被严格证明，但与深度学习中的相变现象⁶ 中描述的多种相变高度一致。

7.2 与 Neural Collapse 的关系

如 §1.2 所述，规范表示假说³ 描述的 Neural Collapse 是监督学习末期的最后一层特征对齐。Chen & Luo 的 Rank Collapse 是中间阶段——它们构成一个完整的「坍缩谱」：

早期        中期          后期
condensation → rank collapse → neural collapse
(外层参数)    (注意力矩阵)    (最终特征)

这一谱系与 Transformer 中的神经崩溃理论中的描述高度吻合。

7.3 与 NTK / Feature Learning 的关系

NTK regime（无限宽网络）下，训练不会改变参数的有效秩——参数近似静止；而 feature learning regime 下，参数显著演化，发生 rank collapse。

Chen & Luo 的小初始化设定恰好横跨两个 regime：

阶段 I（condensation）：显著的 feature learning；
阶段 II（rank collapse）：特征重组主导。

这与交替梯度流与特征学习¹¹ 中描述的「特征学习与 lazy 训练交替」现象相一致。

7.4 与 Critical Learning Periods 的关系

Critical Learning Periods（关键学习期）描述训练早期对最终性能的决定性影响——若在早期引入随机标签或大幅扰动，最终性能会显著下降。

Chen & Luo 的阶段 I 恰好对应关键学习期：condensation 确定了参数的方向，这些方向在阶段 II 中几乎不再改变。因此阶段 I 是性能的决定性阶段，这为关键学习期提供了机制性解释。

7.5 与 Lottery Ticket Hypothesis 的关系

Lottery Ticket Hypothesis（Frankle & Carlin）认为密集网络中存在稀疏子网络（「中奖彩票」），单独训练即可达到原网络性能。Chen & Luo 的两阶段框架为 lottery ticket 提供了一个可能解释：

阶段 I 的 condensation 实际上是一种隐式剪枝——只有与目标方向对齐的参数存活；
阶段 II 的 rank collapse 是对剩余参数的精细调整。

若能找到与 condensation 方向对应的稀疏子网络，则可能加速训练——这与低秩训练与 LoRA 的思想一致¹²。

8. 实践意义

8.1 学习率调度

根据两阶段框架，可以设计两阶段学习率调度：

阶段 I（condensation）：使用较大学习率。原因：

阶段 I 需要快速 blow-up 逃离小初始化；
大学习率加速方向性收敛；
方向对齐是粗粒度的，对学习率精确性不敏感。

阶段 II（rank collapse）：使用较小学习率。原因：

阶段 II 是精细调整阶段；
小学习率避免 rank collapse 过快（导致信息瓶颈）；
配合 warm restart 可能进一步提升性能。

# Example: two-stage LR schedule based on phase detection
def two_stage_lr_schedule(base_lr, monitor, patience=100):
    t_c = monitor.detect_transition()
    if t_c < 0:
        return base_lr                  # Stage I: large LR
    return base_lr * 0.1                # Stage II: small LR

8.2 正则化设计

避免过早 Rank Collapse 的正则化策略：

谱归一化（Spectral Normalization）：约束 $∥ W ∥_{2} \leq 1$ ，延缓 rank collapse；
DropAttention：在注意力矩阵上引入随机扰动，阻止过快谱集中；
Differential Attention：通过差分注意力机制（谱分析视角下的秩崩溃）从结构上缓解 rank collapse⁵；
权重衰减与两阶段：在阶段 I 使用较大权重衰减（防止方向漂移），在阶段 II 使用较小权重衰减（保护精细结构）。

8.3 早停策略

临界点附近的早停：

在检测到 $t_{c}$ 后，可以适度继续训练让 rank collapse 完成；
但若阶段 II 持续过久（rank 已接近 1），则应提前停止——继续训练只会强化信息瓶颈；
一种经验策略：检测阶段 II 中 rank 下降速率，当 $\frac{d erank}{d t}$ 接近 0 时停止。

8.4 架构选择

深度对两阶段临界点的影响：

浅层模型（ $L \leq 4$ ）：两阶段清晰， $t_{c}$ 易于检测；
中等深度（ $L \in [12, 48]$ ）：每层独立经历两阶段，但跨层耦合复杂；
深层模型（ $L \geq 96$ ）：阶段 I 与阶段 II 可能重叠，需仔细设计初始化尺度。

宽度对两阶段的影响：

宽模型（ $d_{m}$ 大）：condensation 方向更分散，rank collapse 不完全；
窄模型（ $d_{m}$ 小）：condensation 方向集中，rank collapse 接近 rank-1。

8.5 知识蒸馏

两阶段框架为知识蒸馏提供了新的策略：

阶段 I 蒸馏：让学生模型在早期阶段就学会教师模型的 condensation 方向；
阶段 II 蒸馏：让学生模型经历相同的 rank collapse 路径。

这种轨迹蒸馏（trajectory distillation）相比传统的输出蒸馏更能传递结构化的知识。

9. 相关工作与交叉引用

Chen & Luo 的两阶段相变框架与以下工作密切相关：

9.1 谱分析与秩崩溃

注意力秩崩溃谱理论：从随机矩阵理论角度分析 softmax 注意力的谱结构⁵，与本论文的 rank collapse 阶段形成微观-宏观互补；
注意力矩阵低秩压缩：rank collapse 的工程化应用。

9.2 Mean-Field 与动力学

Transformer Mean-Field 动力学：将注意力视为相互作用粒子系统，与 condensation 阶段的聚类现象直接对应⁸；
Transformer 动力学 Mean-Field 视角：从平均场角度分析多层 Transformer 的层级动力学；
交替梯度流与特征学习：特征学习与 lazy 训练的交替，与本论文的两阶段切换一致¹¹。

9.3 表示理论

规范表示假说与神经崩溃：训练末期的特征对齐现象，本论文的 rank collapse 是其中间版本³；
Transformer 中的神经崩溃理论：更具体的神经网络架构下的神经崩溃分析。

9.4 损失景观

损失景观的多重分形动力学：损失景观的复杂几何与两阶段过渡的关系⁹；
平坦通道与无穷宽极限：平坦极小值与泛化性能的关系；
权重衰减与损失景观：权重衰减如何影响两阶段过渡。

9.5 其他相关

深度学习中的相变现象：包括 Edge of Stability、Progressive Sharpening 等相关相变⁶；
低秩训练与 LoRA 之外：rank collapse 与参数高效训练的桥梁；
Transformer 的解析低秩近似：rank collapse 的解析逼近。

10. 未来方向与开放问题

10.1 多阶段扩展

Chen & Luo 的工作主要揭示两阶段。但在实际训练中，可能存在三阶段甚至多阶段：

Stage 0 (初始化) → Stage I (condensation) → Stage II (rank collapse) → Stage III (?) → ...

开放问题：是否存在第三阶段？候选现象包括：

训练末期的 grokking 跃升；
模型合并（model merging）中的对称破缺；
持续学习中的灾难性遗忘。

10.2 不同架构的相变图谱

将两阶段框架推广到其他架构：

架构	阶段 I	阶段 II	特殊现象
Transformer	condensation	rank collapse	本文主题
Mamba / SSM	state matrix condensation	A/B matrix rank collapse	与注意力不同的相变结构
Mixture-of-Experts	router specialization	expert rank collapse	多阶段交错
Diffusion Model	UNet condensation	cross-attn rank collapse	时间步相关的相变

10.3 与联邦学习 / 持续学习的关系

联邦学习：客户端的异构数据可能导致不同的 $t_{c}$ 。如何聚合不同阶段的模型是一个开放问题。

持续学习：阶段切换可能与任务切换耦合——每个新任务都可能触发一次新的 condensation。

10.4 跨数据集迁移的临界点稳定性

开放问题：在数据集 A 上训练得到的 $t_{c}$ 与在数据集 B 上训练得到的 $t_{c}$ 是否存在稳定的比例关系？

初步证据表明 $t_{c}$ 与数据复杂度（如有效秩、数据维度）有强相关性，但精确关系尚未建立。

10.5 与 RLHF / 对齐的关系

RLHF 训练中通常采用三阶段：SFT → Reward Model → PPO。两阶段框架能否推广到 RLHF 的多阶段训练？

开放问题：RLHF 中每个阶段的 condensation/rank collapse 行为是什么？是否存在对齐阶段特有的相变？

11. 局限性与讨论

Chen & Luo 的论文明确指出以下局限性¹：

二分类简化：理论分析局限于二分类任务，无法直接处理多分类或序列到序列学习。
小初始化依赖：两阶段动力学在小初始化下显著，大初始化下可能不成立。
一层模型：理论仅严格建立在一层 Transformer 上；多层情况仅通过实验验证。
渐近秩坍缩：Theorem 3 给出渐近行为，但有限时间内的精确收敛率尚未刻画。

尽管如此，这项工作仍具有重要的理论与实践价值——它为 Transformer 训练动力学提供了第一个不依赖特定任务的统一分析框架。

12. 总结

Chen & Luo (NeurIPS 2025 Oral) 的 From Condensation to Rank Collapse 提出了 Transformer 训练动力学的两阶段相变框架¹：

阶段	主导参数	核心动力学	关键定理	关键现象
I	$W_{V}, W^{[1]}, W^{[2]}$	blow-up + directional convergence	Theorem 2 (Condensation)	外层参数方向对齐
II	$W_{Q}, W_{K}$	线性 ODE → rank collapse	Theorem 3 (Asymptotic rank collapse)	归一化矩阵趋向 rank-1

这一框架具有以下深远意义：

理论层面：首次将 token condensation 与 rank collapse 统一为训练动力学的两个内在阶段，揭示了 Transformer 训练的几何结构。
实验层面：在合成数据与 WikiText 真实任务上都得到验证，证明两阶段动力学的普遍性。
实践层面：为学习率调度、正则化设计、早停策略、架构选择提供了机制性指导。
跨领域联系：与神经崩溃、深度学习相变、Mean-Field 动力学等建立了密切联系。

未来研究可以向多阶段扩展、跨架构推广、跨数据集迁移等方向深入，最终形成 Transformer 训练动力学的统一相变图谱。

参考文献

Chen, Z.-A. & Luo, T. (2025). From Condensation to Rank Collapse: A Two-Stage Analysis of Transformer Training Dynamics. NeurIPS 2025 Oral. arXiv:2510.06954. https://openreview.net/forum?id=gm5mkiTGOy ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³ ↩¹⁴ ↩¹⁵ ↩¹⁶
Zhou, H., Zhou, Q., Luo, T., Zhang, Y. & Xu, Z.-Q. J. (2022). Towards Understanding the Condensation of Neural Networks at Initial Training. NeurIPS 2022. 该工作建立了小初始化下梯度流分析的数学框架，本文是其向 Transformer 的推广。 ↩
Papyan, V., Han, X. Y. & Donoho, D. L. (2020). Prevalence of Neural Collapse during the terminal phase of deep learning training. Proceedings of the National Academy of Sciences, 117(40):24652-24663. 与本文 condensation 现象共同构成神经网络的”坍缩谱”，可参考本知识库规范表示假说与神经崩溃的详细分析。 ↩ ↩² ↩³
Vershynin, R. (2018). High-Dimensional Probability: An Introduction with Applications in Data Science. Cambridge University Press. 稳定秩与有效秩的数学基础。 ↩
Mind the Gap Team (2024). Mind the Gap: Spectral Analysis of Rank Collapse and Signal Propagation in Attention Layers. arXiv:2410.07799. 与本文 rank collapse 阶段互补，从静态谱角度分析注意力矩阵。可参考注意力秩崩溃谱理论。 ↩ ↩² ↩³ ↩⁴
Cohen, J. M., Kaur, S., Li, Y., Kolter, J. Z. & Talwalkar, A. Characterizing Possible Failure Modes in Physics-Informed ML 及本知识库深度学习中的相变现象中关于 Edge of Stability、Progressive Sharpening 的讨论。 ↩ ↩² ↩³
小初始化（Small Initialization）作为深度学习训练理论的核心设定，已被广泛研究。本文的关键发现之一是该设定下两阶段动力学的稳健性。综述参见 Xu et al. (2025). An Overview of Condensation Phenomenon in Deep Learning. arXiv:2504.09484. ↩
与本知识库 Transformer Mean-Field 动力学共享数学语言——注意力作为 Wasserstein 梯度流，token 聚集对应平均场极限下的同步现象。 ↩ ↩²
与本知识库损失景观的多重分形动力学相关——阶段 I 对应 sharp minima，阶段 II 对应 flat minima 过渡。 ↩ ↩²
Zhang, Z., Lin, P., Wang, Z., Zhang, Y. & Xu, Z.-Q. J. (2024). Anchor Function: A Type of Benchmark Functions for Studying Language Models. arXiv:2401.08309. Chen & Luo 在合成实验中采用 anchor function 作为可控的基准任务。 ↩
与本知识库交替梯度流与特征学习中描述的”lazy 训练与特征学习交替”现象高度一致——本论文的两阶段是其在 Transformer 中的具体实例。 ↩ ↩²
本知识库低秩训练与 LoRA 之外讨论了 rank collapse 与参数高效微调的桥梁。本文的渐近秩坍缩定理为 LoRA 类方法的有效性提供了理论支撑。 ↩

Metaphor

探索