Fenchel对偶与近端算子
Fenchel对偶是拉格朗日对偶的推广,它不依赖于显式的约束形式,而是通过共轭函数直接在原始和对偶空间之间建立联系。近端算子是求解非光滑凸优化问题的核心工具,其理论基础正是Fenchel共轭。
1. Fenchel共轭函数
1.1 定义
Fenchel共轭(也称Legendre变换)是实分析中Legendre变换在高维非光滑情形下的推广。
定义:给定函数 ,其 Fenchel共轭 定义为
注意:这里 sup 不限制在 内,定义域自动满足 。
1.2 共轭函数的性质
基本性质:
-
凸性: 总是闭凸函数( 的支撑函数)
-
Fenchel不等式(双向不等式):
-
双向共轭:如果 是闭凸函数,则
-
对称性: 的共轭的共轭是原函数(闭凸函数)
次微分形式:
1.3 常见函数的共轭
| 原函数 | 共轭函数 | 条件 |
|---|---|---|
| - | ||
| 指示函数 | ||
| 对偶范数 | ||
| - | ||
| 支撑函数 | ||
1.4 共轭与Legendre变换
在一维可微严格凸函数情形,Fenchel共轭简化为经典Legendre变换:
设 严格凸可微,则
几何上,共轭函数在点 的切线斜率为 时与 -轴的截距为 。
2. Moreay包络与近端算子
2.1 Moreau包络
定义(Moreay包络):给定闭凸函数 ,其 Moreay包络 定义为
其中 是平滑化参数。
核心性质:
- 光滑性: 是 -光滑的凸函数
- 收敛性: 时,
- 梯度公式:
2.2 近端算子
近端算子(Proximal Operator) 是Moreay包络的核心组成部分:
定义:给定闭凸函数 ,其 近端算子 定义为
更一般地,对于参数 :
2.3 近端算子的性质
基本性质:
-
存在唯一性:对于闭凸函数 , 总是存在且唯一
-
固定点性质:
-
分离性质:如果 ,且 的近端算子易计算,可分解计算
-
** Moreau 分解**(对于闭凸集 ):
其中 是法锥上的投影。
2.4 常见近端算子
| 函数 | 近端算子 | 说明 |
|---|---|---|
| 收缩算子 | ||
| 软阈值(见下) | ||
| 投影到 球 | 按幅截断 | |
| 投影算子 | ||
| - | ||
| 平移不变 |
软阈值算子(Soft Thresholding):
这是 正则化(Lasso)的闭式解。
3. Fenchel-Rockafellar对偶
3.1 问题形式
Fenchel-Rockafellar对偶处理以下形式的问题:
其中 是闭凸函数, 是线性算子。
3.2 Fenchel对偶定理
Fenchel对偶定理:上述问题的对偶问题为
且在一定约束规范下,强对偶成立。
约束规范(Slater类型):
- 存在 使得 且
- 存在 使得 且
3.3 与拉格朗日对偶的关系
Fenchel对偶可以视为拉格朗日对偶的推广,通过引入变量 :
原始问题(引入变量):
拉格朗日函数:
对偶函数:
这正是Fenchel对偶形式。
4. 对偶算法与原始-对偶方法
4.1 原始-对偶梯度上升
对于问题 ,原始-对偶更新为:
这称为 Chambolle-Pock算法 或 原始-对偶混合梯度法 (PDHG)。
4.2 Douglas-Rachford分裂
对于问题 ,Douglas-Rachford迭代为:
4.3 ADMM(交替方向乘子法)
ADMM 是Douglas-Rachford的变体,适用于可分离问题:
更新:
5. 近端梯度法
5.1 问题形式
近端梯度法(Proximal Gradient Method) 求解复合凸优化问题:
其中 是 -光滑凸函数, 是闭凸函数(可能非光滑)。
5.2 算法
当 时,称为 ISTA(Iterative Shrinkage-Thresholding Algorithm)。
加速版本(FISTA):
5.3 收敛性
定理:设 为 -光滑凸函数, 为闭凸函数,则近端梯度法满足
FISTA 可达到 最优收敛率。
6. 在机器学习中的应用
6.1 Lasso问题
Lasso 问题:
使用近端梯度法求解:
6.2 Group Lasso
Group Lasso 问题:
近端算子为组软阈值:
6.3 Total Variation正则化
图像去噪中的TV正则化:
近端算子涉及解线性方程组,可使用共轭梯度法。
7. 与深度学习的联系
7.1 隐式正则化的近端视角
梯度下降的隐式正则化效应可以解释为近端算子1:
考虑带 正则化的梯度步:
这可以视为最小化问题的近似解:
7.2 网络剪枝与近端算子
权重剪枝可以建模为近端操作:
幅度剪枝:
其中 近端算子实现硬阈值。
7.3 网络权重归一化
某些权重归一化方法可以解释为投影操作:
7.4 优化器的近端解释
Adam和其他自适应优化器可以视为近端梯度法的变体,通过估计二阶信息调整步长和方向2。
8. 扩展:非欧几里得几何
8.1 Bregman散度
Bregman散度 基于凸函数 :
8.2 Bregman近端算子
基于Bregman散度的近端算子:
8.3 Mirror Descent
Mirror Descent算法:
这推广了欧几里得空间中的投影梯度下降。
9. 总结
Fenchel对偶理论和近端算子提供了分析和求解凸优化问题的强大框架:
- Fenchel共轭 建立了函数与其对偶之间的对称关系
- Moreay包络 提供了将非光滑问题光滑化的工具
- 近端算子 使得复合优化问题的求解成为可能
- Fenchel-Rockafellar对偶 统一了多种对偶理论
- Bregman散度 将理论推广到非欧几里得几何
这些工具在机器学习算法设计、深度学习理论分析、以及高效优化算法实现中都发挥着关键作用。
参考资料
相关主题:凸优化基础理论atamente、 拉格朗日对偶与KKT条件atamente、 信息几何基础