搜索

分享

QQ空间 QQ好友新浪微博微信

机器学习中的成本函数，学习率和梯度下降

taotao_2016 2020-02-09

展开全文

机器学习中的成本函数，学习率和梯度下降

成本函数

我们在机器学习中最主要的目标是最小化成本函数，因此，将执行优化过程以最小化该成本函数。成本函数由下式给出：

机器学习中的成本函数，学习率和梯度下降

为了深入了解成本函数的几何形状，让我们学习凹函数和凸函数：

凹函数

在凹函数g(x)中，对于x轴上的任意两个值，即a和b，点g(a)和g(b)之间的直线总是位于g(x)的下方。凹函数的最大值是一个导数为0的点

机器学习中的成本函数，学习率和梯度下降

凸函数

凸函数具有相反的属性，凸函数的最小值是导数为0的点。

机器学习中的成本函数，学习率和梯度下降

我们如何找到成本函数的最大值或最小值呢？

有两种查找成本函数的最小值或最大值的方法：

解析法:凹函数的最大值和凸函数的最小值是导数为0的点。在导数=0后所形成的方程易于求解之前，解析法是较好的方法。

机器学习中的成本函数，学习率和梯度下降

爬山算法：该算法是一种综合算法，我们从可能的斜率（θs）的空间中的某个地方开始，然后不断改变斜率，以期接近最大值或最小值。现在，出现的问题是我应该增加θ（将θ向右移动），还是应该减少θ（向左移动θ）以接近最佳值。在凸函数的情况下，我们可以求导数，如果导数为正，则需要增加θ，即向右移动，而如果导数为负，则减小θ。

机器学习中的成本函数，学习率和梯度下降

t是迭代，α是学习率。

机器学习中的成本函数，学习率和梯度下降

学习率

学习率决定了“爬山算法”中步长的大小。学习率有两种类型：

静态：静态学习率是在所有迭代过程中保持不变的速率。

动态：学习率是动态变化的，即最初在θ偏离最佳值时，α很大，并且随着我们接近最佳值而不断下降。

选择学习率

学习率不能太小，因为需要很多次迭代才能达到最小值。而且，学习率不能太大，因为它可能会错过最佳点。

机器学习中的成本函数，学习率和梯度下降

更好的想法是选择动态学习率，该学习率随着时间的推移而降低，因为它允许算法快速识别该点。基本的降低学习率时间表如下：

机器学习中的成本函数，学习率和梯度下降

理想情况下，对于凸函数，最优值出现在:

机器学习中的成本函数，学习率和梯度下降

但是，在实践中需要设置阈值，该阈值定义了与最佳解“足够接近”的条件：

机器学习中的成本函数，学习率和梯度下降

什么是梯度下降？

梯度下降用于实现爬山算法。为了理解梯度下降，让我们假设是否要最小化某些成本函数，这可能是许多变量的函数。为了简单起见，让我们假设C是两个变量的函数：

成本函数的变化由下式给出：

机器学习中的成本函数，学习率和梯度下降

梯度向量（∇C）包含C相对于v的偏导数，即∇C使v的变化与C的变化相关：

机器学习中的成本函数，学习率和梯度下降

将向量的变化（ΔV）和梯度向量（∇C）放在ΔC方程中：

机器学习中的成本函数，学习率和梯度下降

我们需要以使ΔC为负的方式选择Δv。假设我们选择：

机器学习中的成本函数，学习率和梯度下降

其中η是一个小的正参数（称为学习率）。那么ΔC可以写成：

机器学习中的成本函数，学习率和梯度下降

因为∥∇C∥²≥0，所以保证了ΔC≤0，即，C将总是减小而从不增大。降低C是主要动机，因为我们希望尽可能降低成本。因此，我们以以下方式实现梯度：

机器学习中的成本函数，学习率和梯度下降

梯度下降是机器学习的基础，因此必须了解该算法背后的数学知识才能真正理解机器学习模型的工作原理。此外，所有深度学习模型在反向传播过程中都使用梯度下降算法来更新权重和偏差。希望这篇文章能帮助您了解机器学习中的成本函数，学习率和梯度下降的一些基础知识。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： taotao_2016 > 《it》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

taotao_2016

关注对话

TA的最新馆藏

红外光谱和拉曼光谱的区别
[转] Docker入门教程
对偶空间的定义与种类
流形，不仅是几何，更是物理的底层法则，都藏着无数维度的秘密
[转] 计算光学成像
学习笔记：什么是“实验”，什么是“试验”？

喜欢该文的人也喜欢更多

热门阅读换一换