凸优化基础理论
凸优化是现代机器学习和深度学习的数学基石。尽管深度神经网络本身是非凸的,但许多理论分析、技术理解和算法设计都依赖于凸优化的工具和直觉。本文档系统介绍凸优化中最重要的基础概念:凸集、凸函数及其基本性质。
1. 凸集
1.1 定义与基本性质
定义(凸集):设 为一个集合,如果对于任意 和任意 ,都有
则称 是凸集。
几何上,这意味着连接集合中任意两点的线段完全包含在该集合内。
常见凸集:
| 集合类型 | 定义 | 凸性 |
|---|---|---|
| 仿射集 | 凸 | |
| 半空间 | 凸 | |
| 欧几里得球 | 凸 | |
| 椭球 | 凸 | |
| 多面体 | 凸 | |
| 范数球 | 凸 | |
| 半正定锥 | 凸 |
1.2 凸集运算
凸集的闭包、交集、和、透视变换等操作保持凸性:
定理(凸集运算保持凸性):
- 交集: 是凸集
- 和: 是凸集
- 仿射变换: 是凸集
- 透视变换: 保持凸性
1.3 分离定理与支撑超平面
分离定理是凸分析中最重要的结果之一,它建立了凸集边界的几何结构。
分离超平面定理:设 和 为两个非空不相交的凸集,则存在非零向量 和常数 ,使得
即超平面 分离了 和 。
支撑超平面定理:设 为凸集,(边界点)。则存在非零向量 ,使得
这意味着存在支撑超平面在 处”支撑”凸集 。
1.4 极点和极点定理
定义(极点):点 是极点,如果不存在 ()和 使得 。
** Kreŭn-Milman 定理**:每个紧凸集是其极点的凸包:
这一定理在理论上保证了凸集可以用有限个极点完全描述。
2. 凸函数
2.1 定义与基本性质
定义(凸函数):函数 是凸函数,如果 是凸集,且对任意 和 :
严格凸:如果不等式在 和 时严格成立。
几何解释:函数图像上任意两点之间的弦线位于函数图像上方。
常见凸函数:
| 函数 | 定义 | 凸性条件 |
|---|---|---|
| 指数函数 | 恒凸 | |
| 对数函数 | 凸 | |
| 范数 | 凸() | |
| 线性函数 | 凸 | |
| 二次函数 | ||
| 负熵 | 凸 | |
| 逻辑斯蒂 | 凸 | |
| 行列式的对数 | 凸() |
2.2 凸函数的等价条件
一阶条件:可微函数 是凸函数,当且仅当
这称为梯度不等式,几何上表示切平面位于函数下方。
二阶条件:二阶可微函数 是凸函数,当且仅当其Hessian矩阵半正定:
2.3 共轭函数
定义(共轭函数):给定函数 ,其 Fenchel 共轭 定义为
共轭函数的性质:
- Fenchel 不等式:
- 双向共轭:如果 是闭凸函数,则
- 凸性: 总是闭凸函数
示例:
| 原函数 | 共轭函数 |
|---|---|
| () | |
| () |
2.4 函数的闭包与延拓
有效域:
闭包:闭包 是使得 成为下半连续的最小的扩展函数。
扩展值延伸:扩展函数 定义为
3. 凸优化问题
3.1 标准形式
凸优化问题的标准形式为:
其中 和 是凸函数, 是仿射函数。
3.2 凸优化问题的性质
关键性质:
- 全局最优性:任何局部最优解都是全局最优解
- 最优性条件:在适当条件下(见KKT条件),解满足一阶最优性条件
- 对偶理论:强对偶通常成立(Slater条件)
凸优化问题的分类:
| 问题类型 | 特殊形式 | 应用 |
|---|---|---|
| 线性规划 (LP) | 线性目标 + 线性约束 | 调度、资源分配 |
| 二次规划 (QP) | 二次目标 + 线性约束 | 投资组合 |
| 半正定规划 (SDP) | 线性目标 + 半正定约束 | 控制系统 |
| 二阶锥规划 (SOCP) | 线性目标 + 二阶锥约束 | 鲁棒优化 |
3.3 等价变换
许多非标准形式的问题可以通过变量替换或约束重组转化为标准凸优化形式:
- 绝对值消除: 替换为 ,添加
- 分段函数:使用指示函数或 log-barrier
- 范数松弛: 可转化为 SOCP
4. 一阶最优性条件
4.1 无约束问题
对于无约束可微凸优化问题 ,最优性条件为
这是因为 凸意味着 既是必要条件也是充分条件。
4.2 等式约束问题
对于问题 s.t. ,KKT条件给出
其中 是拉格朗日乘子。
4.3 不等式约束问题
对于不等式约束问题,一阶必要条件涉及 互补松弛:
5. 经典算法
5.1 梯度下降法
对于无约束凸优化问题
收敛性:设 为 -强凸且 -光滑,则
收敛速率为线性,条件数 决定收敛速度。
5.2 投影梯度下降
对于约束优化问题,投影梯度下降为
其中 是到可行域 的投影。
5.3 近端梯度法
对于复合目标 ,其中 光滑、 闭凸:
近端算子 定义为
6. 与深度学习的联系
6.1 凸代理问题
虽然神经网络训练是非凸的,但许多分析使用凸代理:
- 线性规划松弛:用于分析网络表达能力
- 核方法视角:无限宽网络对应凸优化
- 损失 Landscape 分析:使用凸函数的下界
6.2 凸组合解释
在特定条件下,深度网络的某些组件可以解释为凸优化问题的解:
- softmax 对应多项 logistic 回归(凸)
- ReLU 激活 分割输入空间,每个区域线性(分段凸)
6.3 对偶与正则化
对偶理论为理解正则化提供了几何视角:
- 权重衰减( 正则)对应欧几里得范数的对偶
- 正则 促进稀疏性,对应 范数约束
7. 总结
凸优化提供了理解深度学习优化问题的强大框架:
- 凸集与凸函数 建立了优化问题数学结构的基础
- 对偶理论 提供了分析约束问题和理解正则化的工具
- 最优性条件(KKT条件)连接了原问题与对偶问题
- 收敛理论 为算法设计提供了理论基础
尽管深度神经网络训练本质上是非凸的,但凸优化的工具和直觉在理论分析和算法设计中仍然不可或缺。理解凸优化的基础对于深入研究深度学习理论至关重要。