引言

深度学习虽然具有高度非凸的损失景观——全局最小值可能不唯一,且存在许多局部最小值和鞍点——但优化过程却表现出类似凸优化的行为特征。1

本文探讨凸支配(Convex Dominance)理论在深度学习中的应用,通过凸分析的视角建立损失和学习率的缩放定律,实现跨训练视界和模型规模的外推预测。

1. 损失景观的凸性特征

1.1 非凸优化的挑战

深度神经网络的损失函数具有复杂的非凸结构,理论上存在以下困难:

  • 多极值点:损失景观中存在多个局部最小值和鞍点
  • 路径复杂性:优化器可能被局部最优解所困
  • 理论分析困难:传统凸优化理论难以直接应用

尽管如此,深度学习的经验成功表明,某些良性性质可能成立并可以被利用。

1.2 深度学习中观察到的凸性现象

研究表明,深度学习在各种任务、模型、优化器和超参数下都表现出类似凸优化的动态特性:

  • 损失曲线相似性:LLaMA训练(非凸)与SGD凸优化的损失曲线形状高度相似2
  • 梯度方向凸性:在视觉和语言模型中,沿梯度方向的凸性普遍存在3
  • Hessian谱特征:Hessian矩阵的负特征值在训练初期快速趋近于零,随后正特征值主导损失景观

1.3 Star-convex路径

SGD在神经网络优化过程中遵循星凸路径(Star-convex Path)。4 星凸性是一种比严格凸性更弱的性质,它保证从任意点到最优点的连线上的函数值都满足特定的单调性。

定义:函数 沿优化路径是星凸的,当且仅当

其中 是极小值点。

2. 弱凸性与可预测性

2.1 训练初期的弱凸建立

深度学习在经过短暂的训练周期后迅速进入弱凸(Weakly Convex)状态。弱凸性意味着Hessian矩阵的最小负特征值被控制在有限范围内。5

弱凸性定义:对于可微函数 和其梯度 ,弱凸性可表述为

其中 是弱凸参数。

深度学习中的经验观察

  • 在初始化时,Hessian通常包含许多大的负特征值
  • 这些负特征值快速向零移动
  • 训练过程中,正特征值的量级远超负特征值
  • 最终谱由正特征值主导,损失景观近似凸

2.2 损失可预测性的数学刻画

基于凸分析理论,损失的迭代上界可精确刻画。对于SGD,参数更新满足

其中 是小批量梯度,且

凸性与有界梯度条件

条件 2.1(凸性条件):函数 是凸的,当

L(w) - L(x) \leq (w - x)^\top \nabla L(w) \tag{2.1}

条件 2.2(有界梯度条件):存在常数 使得

\mathbb{E}\|g(w)\|^2 \leq G^2 \tag{2.2}

最后迭代的损失上界1

\mathbb{E}[L(w_\tau)] \leq L^* + \frac{D^2}{2\sum_{\tau}^{t=1} \eta_t} + \frac{G^2}{2}\left(\frac{\sum_{\tau}^{t=1} \eta_t^2}{\sum_{\tau}^{t=1} \eta_t} + \frac{\tau - 1}{\sum_{k=1}^{\tau} \eta_k} \sum_{t=k+1}^{\tau} \eta_t \cdot \frac{\sum_{t=k}^{\tau} \eta_t^2}{\sum_{t=k}^{\tau} \eta_t}\right) \tag{2.4}

该上界将学习率序列 映射为损失值的上界,实现序列到序列的预测

2.3 学习率与弱凸性的关系

在常值学习率 下,损失上界简化为

这一形式揭示了深度学习中的经验权衡:较大的 收敛更快但收敛到更高的损失,反之亦然

最优学习率为

这一结论是D-adaptation6、Prodigy7、DoG8等自适应学习率方法快速收敛的理论基础。

3. 学习率缩放定律

3.1 跨训练视界的损失预测

对于任意训练视界 ,最后迭代 的损失可表示为

\mathbb{E}[L(w_T)] \sim \tilde{L}_\infty + \frac{\tilde{q}_2}{T\eta_{\text{peak}}} + \eta_{\text{peak}}\tilde{q}_2 := L_{\text{DL-last}}(\eta_{\text{peak}}, T) \tag{4.1}

其中 是不可约损失。

3.2 跨模型大小的缩放

广义缩放定律:对于缩放学习率 ,有

即在 缩放下,损失以 速率收敛。

二维缩放定律:同时预测损失和最优学习率

\mathbb{E}[L(N, T)] &\sim \tilde{L}_\infty(\eta^*_{\text{ref}}; N) + \frac{\tilde{Q}(\eta^*_{\text{ref}}; N)}{\sqrt{T}} \\ \eta^*_{\text{peak}}(N, T) &\sim \frac{\eta^*_{\text{peak}}(N_{\text{small}}, T_{\text{small}})}{\sqrt{T/T_{\text{small}}}} \end{aligned} \tag{5.1}$$ 其中 $N_{\text{small}} \leq N$ 是较小的参考模型,$T_{\text{small}} \leq T$ 是较短的训练视界。 ### 3.3 最优学习率的确定 **最优学习率的形式**: | 学习率调度 | 最优峰值学习率 $\eta^*_{\text{peak}}(T)$ | |-----------|----------------------------------------| | 常值 | $\frac{DG\sqrt{\ln T}}{T}$ | | 平方根逆 | $\frac{DG\sqrt{\ln T}}{}$ | | 线性衰减 | $\frac{DG}{\sqrt{T}}$ | | 余弦衰减 | $\frac{DG\sqrt{1.061}}{\sqrt{T}}$ | | WSD | $\frac{DG\sqrt{(1+c)(1+\frac{1}{2}\ln\frac{1+c}{1-c})}}{\sqrt{T}}$ | **关键发现**:最优学习率随训练视界以 $O(1/\sqrt{T})$ 速率衰减。 ### 3.4 合格学习率调度 **条件 2.5**(合格调度检验):学习率调度函数 $s_t(T) \in [0, 1]$ 是**合格的**,当且仅当 $$\frac{D^2}{2}\int_0^T \eta_t \, dt + \frac{G^2}{2}\int_0^T \left(\eta_t^2 \int_T^t \eta_k \, dk\right) dt = O\left(\frac{1}{\sqrt{T}}\right)$$ 其中 $\eta_t(T) := s_t(T) / \sqrt{T}$。 **合格调度**:线性衰减、余弦衰减、WSD(Warmup-Stable-Decay) **不合格调度**:常值、平方根逆 合格调度的共同特征: 1. **视界感知**:$\eta_t$ 依赖于训练视界 $T$ 2. **最优收敛率**:$O(1/\sqrt{T})$ 损失收敛 ## 4. 凸支配指数 ### 4.1 定义与计算方法 **凸支配指数**(Convex Dominance Index, CDI)衡量损失景观接近凸性的程度。基于Hessian谱分析: $$\text{CDI} = \frac{\lambda_{\text{positive}}}{\lambda_{\text{positive}} + |\lambda_{\text{negative}}|}$$ 其中: - $\lambda_{\text{positive}}$:正特征值的总和 - $\lambda_{\text{negative}}$:负特征值的总和 ### 4.2 与其他曲率度量的关系 | 度量 | 定义 | 与CDI关系 | |------|------|----------| | **谱半径比** | $\frac{\lambda_{\max}}{|\lambda_{\min}|}$ | CDI高时,比值大 | | **平均曲率** | $\frac{1}{d}\text{Tr}(H)$ | CDI高时,趋近于正 | | **条件数** | $\frac{\lambda_{\max}}{\lambda_{\min}}$ | CDI高时,条件数恶化 | ### 4.3 实践中的应用 **损失预测框架**:利用凸支配理论,通过非负线性回归拟合损失轨迹 ```cpp // 损失预测的非负线性回归框架 // 参考: Bu et al. (2026) #include <bits/stdc++.h> using namespace std; // 损失上界的矩阵形式 // y = X * beta + L_infty // y_tau = L(w_tau) // X_tau,1 = 1/2 * sum_{t=1}^{tau} eta_t // X_tau,2 = 1/2 * (sum eta_t^2 / sum eta_t + ...) struct LossPredictor { vector<double> L_inf; // 不可约损失 vector<double> q1, q2; // 缩放系数 // 序列到序列的损失预测 vector<double> predict(const vector<double>& eta, int T) { vector<double> loss(T + 1); double sum_eta = 0, sum_eta2 = 0; for (int t = 0; t <= T; ++t) { sum_eta += eta[t]; sum_eta2 += eta[t] * eta[t]; // 广义损失上界 (Generalization 1) double bound = L_inf[t] + q1[t] * q1[t] / (2 * sum_eta) + q2[t] * q2[t] / 2 * (sum_eta2 / sum_eta); loss[t] = bound; } return loss; } // 计算R²拟合优度 double computeR2(const vector<double>& actual, const vector<double>& predicted) { double ss_res = 0, ss_tot = 0; double mean = accumulate(actual.begin(), actual.end(), 0.0) / actual.size(); for (size_t i = 0; i < actual.size(); ++i) { ss_res += pow(actual[i] - predicted[i], 2); ss_tot += pow(actual[i] - mean, 2); } return 1 - ss_res / ss_tot; } }; ``` **训练初期预测**:CDI在训练初期快速建立,使得损失预测在 $T > 2.5k$ 次迭代后变得可靠,R² 分数 ≥ 0.95。 ## 5. 大规模语言模型验证 ### 5.1 语言模型的凸支配特性 在多种大规模语言模型上验证了凸支配理论的有效性: | 模型 | 参数量 | 优化器 | R² 分数 | |------|--------|--------|---------| | **RoBERTa** | 125M-355M | AdamW | ≥ 0.96 | | **LLaMA** | 7B-70B | AdamW | ≥ 0.97 | | **Qwen** | 0.5B-72B | AdamW | ≥ 0.95 | | **Mistral** | 7B | AdamW | ≥ 0.96 | 这些模型的损失景观在二维切片上表现出凸支配特性,损失曲线高度可预测。[^1] ### 5.2 视觉模型验证 **ResNet系列**(ImageNet): | 模型 | R² 分数 (SGD) | R² 分数 (AdamW) | |------|--------------|----------------| | ResNet18 | 0.99 | 1.00 | | ResNet50 | 0.98 | 0.99 | | ViT-Small | 0.97 | 0.98 | **视觉-语言模型**(Cauldron数据集): - 多模态VLM(约1B参数)在 $T > 2000$ 后精确拟合 $O(1/\sqrt{T})$ 收敛 - 视觉编码器、语言编码器、模态投影器各自的学习率均遵循 $1/\sqrt{T}$ 缩放 ### 5.3 理论与实践的一致性 **跨训练视界外推**:在小规模实验中确定的 $\eta^*_{\text{ref}}$ 可直接迁移到70倍大的模型和80倍长的训练视界。 **消融实验验证**:[^1] | 参数 | 默认值 | 变体 | R² 分数 | |------|--------|------|---------| | 随机种子 | 1337 | 3333, 8888 | 0.995-1.000 | | 批大小 | 512 | 64 | 0.996 | | 梯度裁剪 | 0.0 | 1.0 | 0.998 | | 动量 | 0.95 | 0.9 | 0.998 | | 权重衰减 | 0.01 | 0.0 | 0.999 | **关键结论**: 1. **凸支配现象普遍存在**:无论架构、优化器或超参数如何,$O(1/\sqrt{T})$ 收敛始终成立 2. **缩放定律可靠**:可预测80×训练视界和70×模型规模的外推 3. **过拟合时失效**:当严重过拟合时,测试损失不再遵循 $O(1/\sqrt{T})$ 收敛(仅训练损失仍遵循) ## 6. 总结与展望 ### 6.1 核心发现 1. **弱凸建立**:深度学习在短暂训练后迅速进入弱凸状态 2. **损失可预测性**:通过凸分析可将学习率序列映射为损失序列 3. **$O(1/\sqrt{T})$ 收敛**:在 $1/\sqrt{T}$ 缩放学习率下实现最优收敛率 4. **缩放定律**:建立跨训练视界和模型规模的统一预测框架 ### 6.2 开放问题 - **为何存在凸支配**:深层架构自发产生凸支配特性的深层原因尚不清楚 - **弱凸建立时间**:需要更多理论理解训练多长时间后特征可被凸支配刻画 - **测试损失预测**:当前方法在严重过拟合时无法预测测试损失 ### 6.3 实践建议 1. **优先使用合格调度**:线性衰减、余弦衰减、WSD 2. **$1/\sqrt{T}$ 缩放**:将峰值学习率按 $1/\sqrt{T}$ 缩放可保证 $O(1/\sqrt{T})$ 收敛 3. **跨规模迁移**:在小规模实验中确定的 $\eta^*_{\text{ref}}$ 可直接用于大规模训练 --- ## 参考文献 [^1]: Bu, Z., Xu, S., & Mao, J. (2026). *Convex Dominance in Deep Learning I: A Scaling Law of Loss and Learning Rate*. arXiv:2602.07145. https://arxiv.org/abs/2602.07145 --- *本文档基于arXiv:2602.07145的研究成果整理。*

Footnotes

  1. Garipov et al. (2018); Choromanska et al. (2015); Dauphin et al. (2014) 2

  2. Schaipp et al. (2025)

  3. Bu & Xu (2025)

  4. Zhou et al. (2019)

  5. Richards et al. (2021)

  6. Defazio & Mishchenko (2023)

  7. Mishchenko & Defazio (2023)

  8. Ivgi et al. (2023)