Fenchel对偶与近端算子

Fenchel对偶是拉格朗日对偶的推广,它不依赖于显式的约束形式,而是通过共轭函数直接在原始和对偶空间之间建立联系。近端算子是求解非光滑凸优化问题的核心工具,其理论基础正是Fenchel共轭。

1. Fenchel共轭函数

1.1 定义

Fenchel共轭(也称Legendre变换)是实分析中Legendre变换在高维非光滑情形下的推广。

定义:给定函数 ,其 Fenchel共轭 定义为

注意:这里 sup 不限制在 内,定义域自动满足

1.2 共轭函数的性质

基本性质

  1. 凸性 总是闭凸函数( 的支撑函数)

  2. Fenchel不等式(双向不等式):

  1. 双向共轭:如果 是闭凸函数,则

  2. 对称性 的共轭的共轭是原函数(闭凸函数)

次微分形式

1.3 常见函数的共轭

原函数 共轭函数 条件
-
指示函数
对偶范数
-
支撑函数

1.4 共轭与Legendre变换

在一维可微严格凸函数情形,Fenchel共轭简化为经典Legendre变换:

严格凸可微,则

几何上,共轭函数在点 的切线斜率为 时与 -轴的截距为

2. Moreay包络与近端算子

2.1 Moreau包络

定义(Moreay包络):给定闭凸函数 ,其 Moreay包络 定义为

其中 是平滑化参数。

核心性质

  1. 光滑性-光滑的凸函数
  2. 收敛性 时,
  3. 梯度公式

2.2 近端算子

近端算子(Proximal Operator) 是Moreay包络的核心组成部分:

定义:给定闭凸函数 ,其 近端算子 定义为

更一般地,对于参数

2.3 近端算子的性质

基本性质

  1. 存在唯一性:对于闭凸函数 总是存在且唯一

  2. 固定点性质

  1. 分离性质:如果 ,且 的近端算子易计算,可分解计算

  2. ** Moreau 分解**(对于闭凸集 ):

其中 是法锥上的投影。

2.4 常见近端算子

函数 近端算子 说明
收缩算子
软阈值(见下)
投影到 按幅截断
投影算子
-
平移不变

软阈值算子(Soft Thresholding)

这是 正则化(Lasso)的闭式解。

3. Fenchel-Rockafellar对偶

3.1 问题形式

Fenchel-Rockafellar对偶处理以下形式的问题:

其中 是闭凸函数, 是线性算子。

3.2 Fenchel对偶定理

Fenchel对偶定理:上述问题的对偶问题为

且在一定约束规范下,强对偶成立。

约束规范(Slater类型)

  • 存在 使得
  • 存在 使得

3.3 与拉格朗日对偶的关系

Fenchel对偶可以视为拉格朗日对偶的推广,通过引入变量

原始问题(引入变量):

拉格朗日函数

对偶函数

这正是Fenchel对偶形式。

4. 对偶算法与原始-对偶方法

4.1 原始-对偶梯度上升

对于问题 ,原始-对偶更新为:

这称为 Chambolle-Pock算法原始-对偶混合梯度法 (PDHG)

4.2 Douglas-Rachford分裂

对于问题 ,Douglas-Rachford迭代为:

4.3 ADMM(交替方向乘子法)

ADMM 是Douglas-Rachford的变体,适用于可分离问题:

更新

5. 近端梯度法

5.1 问题形式

近端梯度法(Proximal Gradient Method) 求解复合凸优化问题:

其中 -光滑凸函数, 是闭凸函数(可能非光滑)。

5.2 算法

时,称为 ISTA(Iterative Shrinkage-Thresholding Algorithm)

加速版本(FISTA)

5.3 收敛性

定理:设 -光滑凸函数, 为闭凸函数,则近端梯度法满足

FISTA 可达到 最优收敛率。

6. 在机器学习中的应用

6.1 Lasso问题

Lasso 问题:

使用近端梯度法求解:

6.2 Group Lasso

Group Lasso 问题:

近端算子为组软阈值:

6.3 Total Variation正则化

图像去噪中的TV正则化:

近端算子涉及解线性方程组,可使用共轭梯度法。

7. 与深度学习的联系

7.1 隐式正则化的近端视角

梯度下降的隐式正则化效应可以解释为近端算子1

考虑带 正则化的梯度步:

这可以视为最小化问题的近似解:

7.2 网络剪枝与近端算子

权重剪枝可以建模为近端操作:

幅度剪枝

其中 近端算子实现硬阈值。

7.3 网络权重归一化

某些权重归一化方法可以解释为投影操作:

7.4 优化器的近端解释

Adam和其他自适应优化器可以视为近端梯度法的变体,通过估计二阶信息调整步长和方向2

8. 扩展:非欧几里得几何

8.1 Bregman散度

Bregman散度 基于凸函数

8.2 Bregman近端算子

基于Bregman散度的近端算子:

8.3 Mirror Descent

Mirror Descent算法:

这推广了欧几里得空间中的投影梯度下降。

9. 总结

Fenchel对偶理论和近端算子提供了分析和求解凸优化问题的强大框架:

  1. Fenchel共轭 建立了函数与其对偶之间的对称关系
  2. Moreay包络 提供了将非光滑问题光滑化的工具
  3. 近端算子 使得复合优化问题的求解成为可能
  4. Fenchel-Rockafellar对偶 统一了多种对偶理论
  5. Bregman散度 将理论推广到非欧几里得几何

这些工具在机器学习算法设计、深度学习理论分析、以及高效优化算法实现中都发挥着关键作用。

参考资料


相关主题凸优化基础理论atamente拉格朗日对偶与KKT条件atamente信息几何基础

Footnotes

  1. Zhang, C., et al. (2025). Understanding the Implicit Regularization of Gradient Descent in Over-parameterized Models. arXiv:2505.17304.

  2. Jacobs, T., et al. (2025). Mirror, Mirror of the Flow: How Does Regularization Shape Implicit Bias? ICML 2025.