凸支配理论与深度学习

引言

深度学习虽然具有高度非凸的损失景观——全局最小值可能不唯一，且存在许多局部最小值和鞍点——但优化过程却表现出类似凸优化的行为特征。¹

本文探讨凸支配（Convex Dominance）理论在深度学习中的应用，通过凸分析的视角建立损失和学习率的缩放定律，实现跨训练视界和模型规模的外推预测。

1. 损失景观的凸性特征

1.1 非凸优化的挑战

深度神经网络的损失函数具有复杂的非凸结构，理论上存在以下困难：

多极值点：损失景观中存在多个局部最小值和鞍点
路径复杂性：优化器可能被局部最优解所困
理论分析困难：传统凸优化理论难以直接应用

尽管如此，深度学习的经验成功表明，某些良性性质可能成立并可以被利用。

1.2 深度学习中观察到的凸性现象

研究表明，深度学习在各种任务、模型、优化器和超参数下都表现出类似凸优化的动态特性：

损失曲线相似性：LLaMA训练（非凸）与SGD凸优化的损失曲线形状高度相似²
梯度方向凸性：在视觉和语言模型中，沿梯度方向的凸性普遍存在³
Hessian谱特征：Hessian矩阵的负特征值在训练初期快速趋近于零，随后正特征值主导损失景观

1.3 Star-convex路径

SGD在神经网络优化过程中遵循星凸路径（Star-convex Path）。⁴ 星凸性是一种比严格凸性更弱的性质，它保证从任意点到最优点的连线上的函数值都满足特定的单调性。

定义：函数 $f$ 沿优化路径是星凸的，当且仅当

$f (w_{t}) - f (w^{*}) \leq (w_{t} - w^{*})^{⊤} \nabla f (w_{t})$

其中 $w^{*} \in ar g min_{w} f (w)$ 是极小值点。

2. 弱凸性与可预测性

2.1 训练初期的弱凸建立

深度学习在经过短暂的训练周期后迅速进入弱凸（Weakly Convex）状态。弱凸性意味着Hessian矩阵的最小负特征值被控制在有限范围内。⁵

弱凸性定义：对于可微函数 $L$ 和其梯度 $\nabla L$ ，弱凸性可表述为

$\exists ρ \geq 0 s.t. \nabla^{2} L (w) ⪰ - ρ I$

其中 $ρ$ 是弱凸参数。

深度学习中的经验观察：

在初始化时，Hessian通常包含许多大的负特征值
这些负特征值快速向零移动
训练过程中，正特征值的量级远超负特征值
最终谱由正特征值主导，损失景观近似凸

2.2 损失可预测性的数学刻画

基于凸分析理论，损失的迭代上界可精确刻画。对于SGD，参数更新满足

$w_{t + 1} = w_{t} - η_{t + 1} g (w_{t})$

其中 $g (w_{t})$ 是小批量梯度，且 $E [g (w)] = \nabla L$ 。

凸性与有界梯度条件：

条件 2.1（凸性条件）：函数 $L$ 是凸的，当 $\forall (w, x)$ ：

$L(w) - L(x) \leq (w - x)^\top \nabla L(w) \tag{2.1}$

条件 2.2（有界梯度条件）：存在常数 $G$ 使得

$\mathbb{E}\|g(w)\|^2 \leq G^2 \tag{2.2}$

最后迭代的损失上界：¹

$\mathbb{E}[L(w_\tau)] \leq L^* + \frac{D^2}{2\sum_{\tau}^{t=1} \eta_t} + \frac{G^2}{2}\left(\frac{\sum_{\tau}^{t=1} \eta_t^2}{\sum_{\tau}^{t=1} \eta_t} + \frac{\tau - 1}{\sum_{k=1}^{\tau} \eta_k} \sum_{t=k+1}^{\tau} \eta_t \cdot \frac{\sum_{t=k}^{\tau} \eta_t^2}{\sum_{t=k}^{\tau} \eta_t}\right) \tag{2.4}$

该上界将学习率序列 ${η_{t}}$ 映射为损失值的上界，实现序列到序列的预测。

2.3 学习率与弱凸性的关系

在常值学习率 $η$ 下，损失上界简化为

$L^{*} + \frac{D ^{2}}{2 T η} + \frac{η G ^{2}}{2} ln T$

这一形式揭示了深度学习中的经验权衡：较大的 $η$ 收敛更快但收敛到更高的损失，反之亦然。

最优学习率为

$η^{*} = \frac{D}{T G}$

这一结论是D-adaptation⁶、Prodigy⁷、DoG⁸等自适应学习率方法快速收敛的理论基础。

3. 学习率缩放定律

3.1 跨训练视界的损失预测

对于任意训练视界 $T$ ，最后迭代 $w_{T}$ 的损失可表示为

$\mathbb{E}[L(w_T)] \sim \tilde{L}_\infty + \frac{\tilde{q}_2}{T\eta_{\text{peak}}} + \eta_{\text{peak}}\tilde{q}_2 := L_{\text{DL-last}}(\eta_{\text{peak}}, T) \tag{4.1}$

其中 $\tilde{L}_{\infty} = L (lim_{τ \to \infty} w_{τ})$ 是不可约损失。

3.2 跨模型大小的缩放

广义缩放定律：对于缩放学习率 $η_{peak} = η_{ref} / T$ ，有

$E [L (w_{T})] \sim \tilde{L}_{\infty} + \frac{Q ~ ( η _{ref} )}{T}, \forall η_{ref}$

即在 $1/ T$ 缩放下，损失以 $O (1/ T)$ 速率收敛。

二维缩放定律：同时预测损失和最优学习率

\mathbb{E}[L(N, T)] &\sim \tilde{L}_\infty(\eta^*_{\text{ref}}; N) + \frac{\tilde{Q}(\eta^*_{\text{ref}}; N)}{\sqrt{T}} \\ \eta^*_{\text{peak}}(N, T) &\sim \frac{\eta^*_{\text{peak}}(N_{\text{small}}, T_{\text{small}})}{\sqrt{T/T_{\text{small}}}} \end{aligned} \tag{5.1}$$ 其中 $N_{\text{small}} \leq N$ 是较小的参考模型，$T_{\text{small}} \leq T$ 是较短的训练视界。 ### 3.3 最优学习率的确定 **最优学习率的形式**： | 学习率调度 | 最优峰值学习率 $\eta^*_{\text{peak}}(T)$ | |-----------|----------------------------------------| | 常值 | $\frac{DG\sqrt{\ln T}}{T}$ | | 平方根逆 | $\frac{DG\sqrt{\ln T}}{}$ | | 线性衰减 | $\frac{DG}{\sqrt{T}}$ | | 余弦衰减 | $\frac{DG\sqrt{1.061}}{\sqrt{T}}$ | | WSD | $\frac{DG\sqrt{(1+c)(1+\frac{1}{2}\ln\frac{1+c}{1-c})}}{\sqrt{T}}$ | **关键发现**：最优学习率随训练视界以 $O(1/\sqrt{T})$ 速率衰减。 ### 3.4 合格学习率调度 **条件 2.5**（合格调度检验）：学习率调度函数 $s_t(T) \in [0, 1]$ 是**合格的**，当且仅当 $$\frac{D^2}{2}\int_0^T \eta_t \, dt + \frac{G^2}{2}\int_0^T \left(\eta_t^2 \int_T^t \eta_k \, dk\right) dt = O\left(\frac{1}{\sqrt{T}}\right)$$ 其中 $\eta_t(T) := s_t(T) / \sqrt{T}$。 **合格调度**：线性衰减、余弦衰减、WSD（Warmup-Stable-Decay） **不合格调度**：常值、平方根逆 合格调度的共同特征： 1. **视界感知**：$\eta_t$ 依赖于训练视界 $T$ 2. **最优收敛率**：$O(1/\sqrt{T})$ 损失收敛 ## 4. 凸支配指数 ### 4.1 定义与计算方法 **凸支配指数**（Convex Dominance Index, CDI）衡量损失景观接近凸性的程度。基于Hessian谱分析： $$\text{CDI} = \frac{\lambda_{\text{positive}}}{\lambda_{\text{positive}} + |\lambda_{\text{negative}}|}$$ 其中： - $\lambda_{\text{positive}}$：正特征值的总和 - $\lambda_{\text{negative}}$：负特征值的总和 ### 4.2 与其他曲率度量的关系 | 度量 | 定义 | 与CDI关系 | |------|------|----------| | **谱半径比** | $\frac{\lambda_{\max}}{|\lambda_{\min}|}$ | CDI高时，比值大 | | **平均曲率** | $\frac{1}{d}\text{Tr}(H)$ | CDI高时，趋近于正 | | **条件数** | $\frac{\lambda_{\max}}{\lambda_{\min}}$ | CDI高时，条件数恶化 | ### 4.3 实践中的应用 **损失预测框架**：利用凸支配理论，通过非负线性回归拟合损失轨迹 ```cpp // 损失预测的非负线性回归框架 // 参考: Bu et al. (2026) #include <bits/stdc++.h> using namespace std; // 损失上界的矩阵形式 // y = X * beta + L_infty // y_tau = L(w_tau) // X_tau,1 = 1/2 * sum_{t=1}^{tau} eta_t // X_tau,2 = 1/2 * (sum eta_t^2 / sum eta_t + ...) struct LossPredictor { vector<double> L_inf; // 不可约损失 vector<double> q1, q2; // 缩放系数 // 序列到序列的损失预测 vector<double> predict(const vector<double>& eta, int T) { vector<double> loss(T + 1); double sum_eta = 0, sum_eta2 = 0; for (int t = 0; t <= T; ++t) { sum_eta += eta[t]; sum_eta2 += eta[t] * eta[t]; // 广义损失上界 (Generalization 1) double bound = L_inf[t] + q1[t] * q1[t] / (2 * sum_eta) + q2[t] * q2[t] / 2 * (sum_eta2 / sum_eta); loss[t] = bound; } return loss; } // 计算R²拟合优度 double computeR2(const vector<double>& actual, const vector<double>& predicted) { double ss_res = 0, ss_tot = 0; double mean = accumulate(actual.begin(), actual.end(), 0.0) / actual.size(); for (size_t i = 0; i < actual.size(); ++i) { ss_res += pow(actual[i] - predicted[i], 2); ss_tot += pow(actual[i] - mean, 2); } return 1 - ss_res / ss_tot; } }; ``` **训练初期预测**：CDI在训练初期快速建立，使得损失预测在 $T > 2.5k$ 次迭代后变得可靠，R² 分数 ≥ 0.95。 ## 5. 大规模语言模型验证 ### 5.1 语言模型的凸支配特性 在多种大规模语言模型上验证了凸支配理论的有效性： | 模型 | 参数量 | 优化器 | R² 分数 | |------|--------|--------|---------| | **RoBERTa** | 125M-355M | AdamW | ≥ 0.96 | | **LLaMA** | 7B-70B | AdamW | ≥ 0.97 | | **Qwen** | 0.5B-72B | AdamW | ≥ 0.95 | | **Mistral** | 7B | AdamW | ≥ 0.96 | 这些模型的损失景观在二维切片上表现出凸支配特性，损失曲线高度可预测。[^1] ### 5.2 视觉模型验证 **ResNet系列**（ImageNet）： | 模型 | R² 分数 (SGD) | R² 分数 (AdamW) | |------|--------------|----------------| | ResNet18 | 0.99 | 1.00 | | ResNet50 | 0.98 | 0.99 | | ViT-Small | 0.97 | 0.98 | **视觉-语言模型**（Cauldron数据集）： - 多模态VLM（约1B参数）在 $T > 2000$ 后精确拟合 $O(1/\sqrt{T})$ 收敛 - 视觉编码器、语言编码器、模态投影器各自的学习率均遵循 $1/\sqrt{T}$ 缩放 ### 5.3 理论与实践的一致性 **跨训练视界外推**：在小规模实验中确定的 $\eta^*_{\text{ref}}$ 可直接迁移到70倍大的模型和80倍长的训练视界。 **消融实验验证**：[^1] | 参数 | 默认值 | 变体 | R² 分数 | |------|--------|------|---------| | 随机种子 | 1337 | 3333, 8888 | 0.995-1.000 | | 批大小 | 512 | 64 | 0.996 | | 梯度裁剪 | 0.0 | 1.0 | 0.998 | | 动量 | 0.95 | 0.9 | 0.998 | | 权重衰减 | 0.01 | 0.0 | 0.999 | **关键结论**： 1. **凸支配现象普遍存在**：无论架构、优化器或超参数如何，$O(1/\sqrt{T})$ 收敛始终成立 2. **缩放定律可靠**：可预测80×训练视界和70×模型规模的外推 3. **过拟合时失效**：当严重过拟合时，测试损失不再遵循 $O(1/\sqrt{T})$ 收敛（仅训练损失仍遵循） ## 6. 总结与展望 ### 6.1 核心发现 1. **弱凸建立**：深度学习在短暂训练后迅速进入弱凸状态 2. **损失可预测性**：通过凸分析可将学习率序列映射为损失序列 3. **$O(1/\sqrt{T})$ 收敛**：在 $1/\sqrt{T}$ 缩放学习率下实现最优收敛率 4. **缩放定律**：建立跨训练视界和模型规模的统一预测框架 ### 6.2 开放问题 - **为何存在凸支配**：深层架构自发产生凸支配特性的深层原因尚不清楚 - **弱凸建立时间**：需要更多理论理解训练多长时间后特征可被凸支配刻画 - **测试损失预测**：当前方法在严重过拟合时无法预测测试损失 ### 6.3 实践建议 1. **优先使用合格调度**：线性衰减、余弦衰减、WSD 2. **$1/\sqrt{T}$ 缩放**：将峰值学习率按 $1/\sqrt{T}$ 缩放可保证 $O(1/\sqrt{T})$ 收敛 3. **跨规模迁移**：在小规模实验中确定的 $\eta^*_{\text{ref}}$ 可直接用于大规模训练 --- ## 参考文献 [^1]: Bu, Z., Xu, S., & Mao, J. (2026). *Convex Dominance in Deep Learning I: A Scaling Law of Loss and Learning Rate*. arXiv:2602.07145. https://arxiv.org/abs/2602.07145 --- *本文档基于arXiv:2602.07145的研究成果整理。*

Garipov et al. (2018); Choromanska et al. (2015); Dauphin et al. (2014) ↩ ↩²
Schaipp et al. (2025) ↩
Bu & Xu (2025) ↩
Zhou et al. (2019) ↩
Richards et al. (2021) ↩
Defazio & Mishchenko (2023) ↩
Mishchenko & Defazio (2023) ↩
Ivgi et al. (2023) ↩

Metaphor

探索

凸支配理论与深度学习

引言

1. 损失景观的凸性特征

1.1 非凸优化的挑战

1.2 深度学习中观察到的凸性现象

1.3 Star-convex路径

2. 弱凸性与可预测性

2.1 训练初期的弱凸建立

2.2 损失可预测性的数学刻画

2.3 学习率与弱凸性的关系

3. 学习率缩放定律

3.1 跨训练视界的损失预测

3.2 跨模型大小的缩放

关系图谱

目录

Metaphor

探索

凸支配理论与深度学习

引言

1. 损失景观的凸性特征

1.1 非凸优化的挑战

1.2 深度学习中观察到的凸性现象

1.3 Star-convex路径

2. 弱凸性与可预测性

2.1 训练初期的弱凸建立

2.2 损失可预测性的数学刻画

2.3 学习率与弱凸性的关系

3. 学习率缩放定律

3.1 跨训练视界的损失预测

3.2 跨模型大小的缩放

Footnotes

关系图谱

目录