搜索

分享

QQ空间 QQ好友新浪微博微信

如何理解梯度下降法？

吴敬锐 2020-12-22

展开全文

梯度下降法是用来计算函数最小值的。它的思路很简单，想象在山顶放了一个球，一松手它就会顺着山坡最陡峭的地方滚落到谷底：

凸函数图像看上去就像上面的山谷，如果运用梯度下降法的话，就可以通过一步步的滚动最终来到谷底，也就是找到了函数的最小值。

1 动机

先解释下为什么要有梯度下降法？其实最简单的二维凸函数是抛物线，很容易通过解方程求出最小值在处：

只是有一些凸函数，比如下面这个二元函数（该函数实际上是逻辑回归的经验误差函数，在监督式学习中确实需要求它的最小值）：要求它的最小值点就需要解如下方程组：

这个方程组实在太复杂了，直接求解难度太高，好在的图像就像一座山谷：

所以可以用梯度下降法来找到的谷底，也就是最小值。

2 最简单的例子

梯度下降法在本文不打算进行严格地证明和讲解，主要通过一些例子来讲解，先从最简单的凸函数开始讲起。

2.1 梯度向量

假设起点在处，也就是将球放在：

它的梯度为 1 维向量：这是在轴上的向量，它指向函数值增长最快的方向，而就指向减少最快的方向：

将也看作 1 维向量，通过和相加，可以将之向移动一段距离得到新的向量：其中称为步长，通过它可以控制移的动距离，本节设，那么：此时小球（也就是起点）下降到了这个位置：

2.2 迭代

的梯度为：继续沿着梯度的反方向走：小球就滚到了更低的位置：

重复上述过程到第 10 次，小球基本上就到了最低点，即有：

2.3 梯度下降法

把每一次的梯度向量的模长列出来，可以看到是在不断减小的，因此这种方法称为梯度下降法：

这也比较好理解，当最终趋向于 0 时有：所以梯度下降法求出来的就是最小值（或者在附近）。

3 步长

上面谈到了可以通过步长来控制每次移动的距离，下面来看看不同步长对最终结果的影响。

3.1 过小

如果设就过于小了，迭代 20 次后离谷底还很远，实际上 100 次后都无法到达谷底：

3.2 合适

上面例子中用的是较为合适的步长，10 次就差不多找到了最小值：

3.3 较大

如果令，这个时候会来回震荡（下图看上去只有两个点，实际上在这两个点之间来来回回）：

3.4 过大

继续加大步长，比如令，反而会越过谷底，不断上升：

3.5 总结

总结下，不同的步长，随着迭代次数的增加，会导致被优化函数的值有不同的变化：

寻找合适的步长是个手艺活，在工程中可以将上图画出来，根据图像来手动调整：

往上走（红线），自然是过大，需要调低
一开始下降特别急，然后就几乎没有变化（棕线），可能是较大，需要调低
几乎是线性变化（蓝线），可能是过小，需要调高

4 三维的例子

原理都介绍完了，下面再通过一个三维的例子来加强对梯度下降法的理解。假设函数为：

其图像及等高线如下（等高线中心的蓝点表示最小值）:

下面用梯度下降法来寻找最小值。

4.1 前进一步

设初始点为，此时梯度为：令步长，那么下一个点为：可以看到向最小值方向前进了一步：

4.2 迭代

同样的方法找到下一个点：此时又向最小值靠近了：

如此迭代20次后，差不多找到了最小值：

我们通过通俗易懂、图形化的方式，对机器学习中的《监督式学习》进行了精讲，目前还在连载中，可以享受早鸟价格，可以点击下面的链接购买：

机器学习之《监督式学习》

👉 也可以直接点击下面这个图片购买机器学习的前置课程，《线性代数》、《单变量微积分》、《多变量微积分》、《概率论与数理统计》：

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：吴敬锐 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

吴敬锐

关注对话

TA的最新馆藏

C#源码上位机 SECS协议，里面包含各种进制转换，用于半导体行业
来给公安送取保候审申请书，趁着民警开会的间隙，突然想到最高法曾对
刑事案件，你需要知道公、检、法三家办案的基本期限！！！对于经常进
刑事案件千万别错过这三个拯救期
保定同城一般纳税人开票收多少税点
保定同城一般纳税人开票收多少税点

喜欢该文的人也喜欢更多

热门阅读换一换