搜索

分享

QQ空间 QQ好友新浪微博微信

优化 | 对偶问题下的几类优化方法

520jefferson 2020-11-16

展开全文

『运筹OR帷幄』原创

作者：邓康康

邓康康，福州大学应用数学系在读博士生，研究方向:运筹优化算法设计与应用、流形优化。

编者按

这篇文章介绍三个方法在原始问题和对偶问题下的形式，分别为：梯度方法（gradient descent method），临近点方法（proximal point method）以及临近梯度方法（proximal gradient method），感受下对偶的魅力。这里主要参考的是印卧涛老师的slide，有兴趣的可以看他的主页。

我们分为三部分，第一部分讲一下共轭函数的概念以及一些性质。第二部分描述了三个常见的优化方法。第三部分讲述这些方法应用在对偶问题上如何去刻画。

一、共轭函数（conjugate function）

接下来我们分析下共轭函数的一些性质，这将会在对偶方法中的推导起到关键的作用。因为对偶问题中目标函数就是原问题目标函数的共轭形式。所以我们要研究一下共轭函数的次梯度，以及什么情况下光滑。在得到共轭函数次梯度前，我们需要下面这个定理：

proof. （为了完整性，我给出证明，不想看的可以跳过，记住结论就行。）

（这个叫Fenchel's inequality）

二、Primal Perspective

2.1.Gradient descent method

2.2. Proximal point method

2.3. Proximal Gradient Method

三、Dual Perspective

下面我将首先得到原问题的对偶问题，然后利用上面提到的三个方法去求解，最后通过formulation，观察他们在转化到原始角度下是什么样的形式。

3.1. Dual （sub）gradient descent method

（上式不够严谨，次梯度为集合，所以应该是属于的关系，这里为了表达的简化，约定一下）

如果d是光滑的，那么上式就为梯度下降。就这样结束了吗？并没有，虽然这样看起来很简洁，但问题是我们不知道d(y)这个函数的显式表达形式是什么，甚至连是不是可微的也不知道，也就没有办法去求解它的梯度了。下面我来回答三个问题：

首先我们发现d(y)可以表达为：

其次，我们知道一个函数的强凸性对应于其共轭函数的光滑性。所以当f是强凸的时候，它的共轭才会是光滑的，进一步d(y)才光滑(函数内线性复合不改变光滑性）。

最后，对于次梯度而言，

3.2. Dual proximal point method

考虑上述的线性约束问题（6），这次我将proximal point method应用到对偶问题中，即

现在的问题是计算梯度，由上一节中可以知道：

这也等价于增广拉格朗日方法（ALM）。所以我们有结论：

原始问题的ALM方法等价于对偶问题下的临近点方法

绕了半天，结果出来个已经存在的方法

3.3. Dual proximal gradient method

考虑可分离线性约束问题：

我们利用临近梯度方法求解该对偶问题（14），具体的迭代为：

四、总结

这里我只介绍了三种方法在对偶角度下的形式，事实上，任意的方法都可以用到对偶问题上，比如：

■ 对偶问题下的Douglas-Rachford splitting方法等价于原始问题的ADMM方法

■ 对偶问题下的Peaceman-Rachford splitting方法等价于原始问题的对称ADMM方法

有时候还会有意想不到的结果。比如文献【7】就是将ALM（增广拉格朗日方法）应用到对偶问题上，再结合稀疏结构，加速了计算。

参考文献

【1】A.Beck. First-order methods in optimization[M]. SIAM, 2017.

【2】Splitting methods in communication, imaging, science, and engineering[M]. Springer, 2017.

【3】Y.Chen. Large-Scale Optimization for Data Science，ELE522，lecture notes，Princeton University

【4】 L. Vandenberghe. Optimization methods for large-scale systems, EE236C lecture notes,UCLA.

【5】Ryu E K, Boyd S. Primer on monotone operator methods[J]. Appl. Comput. Math, 2016, 15(1): 3-43.

【6】https://www.math./~wotaoyin/index.html

【7】Li X, Sun D, Toh K C. A highly efficient semismooth Newton augmented Lagrangian method for solving Lasso problems[J]. SIAM Journal on Optimization, 2018, 28(1): 433-458.

文章作者：邓康康

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： 520jefferson > 《机器学习/深度学习/tensorflow》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

520jefferson

关注对话

TA的最新馆藏

一些通用的Makefile文件模板
领域/场景大模型也太难训了吧
PEFT | Transformer参数量、计算量、显存占用分析
Broadcast,Scatter,Gather,Reduce,All
浅析 | 大语言模型细节、训练及微调
[转] LLMs之InternLM：InternLM/InternLM-7B模型的简介、安装、使用方法之详细攻略

喜欢该文的人也喜欢更多

热门阅读换一换