发文章
发文工具
撰写
网文摘手
文档
视频
思维导图
随笔
相册
原创同步助手
其他工具
图片转文字
文件清理
AI助手
留言交流
什么是回归算法
线性回归
常用的其他损失函数
局部加权回归-损失函数
似然函数/对数似然函数
目标函数/损失函数
线性回归的过拟合
Ridge回归(岭回归)
LASSO回归
Elasitc Net算法(弹性网络算法)
梯度下降算法
批量梯度下降算法(BGD)
随机梯度下降算法(SGD)
小批量梯度下降法(MBGD)
梯度下降法调优策略
Logistic回归
Softmax回归
模型效果判断
机器学习调参
@(机器学习(2)之回归算法)
有监督算法
解释变量(x)与观测值(因变量y)之间的关系
最终结果是一个连续的数据值,输入值(属性值)是一个d维度的属性/数值向量
最终要求是计算出 θ 的值,并选择最优的 θ值构成算法公式
可以写为其中ε^(i)^是误差,独立同分布的,服从均值为0,方差为某定值δ^2^的高斯分布。即
似然函数(释然函数的概念可以参考:https://segmentfault.com/a/1190000014373677?utm_source=channel-hottest)
注:似然函数里面用的是正态分布,实际问题中,很多随机现象可以看做众多因素的独立影响的综合反应,往往服从正态分布。
对数似然函数
损失函数是实际值与预测值之间的关系,通过求损失函数的最小值,来确定求解的θ的值,下面式子对数似然函数得:
通过对损失函数求导并令其等于0,可以得到:注:X为样本x^(i)^的矩阵,Y为y^(i)^的矩阵,要求矩阵X^T^X是可逆的。
w(i)是权重,它根据要预测的点与数据集中的点的距离来为数据集中的点赋权值。当某点离要预测的点越远,其权重越小,否则越大。常用值选择公式为:该函数称为指数衰减函数,其中k为波长参数,它控制了权值随距离下降的速率。注意:使用该方式主要应用到样本之间的相似性考虑。
为了防止数据过拟合,也就是的θ值在样本空间中不能过大/过小,可以在目标函数之上增加一个平方和损失:其中λ$\sum_{i=1}^{n}$θ^2^~j~为正则项(norm),这里这个正则项叫做L2-norm。
使用L2正则的线性回归模型就称为Ridge回归(岭回归)Ridge模型具有较高的准确性、鲁棒性以及稳定性。
使用L1正则的线性回归模型就称为LASSO回归(Least Absolute Shrinkage and Selection Operator)LASSO模型具有较高的求速度,容易出现稀疏解,即解为0的情况。
同时使用L1正则和L2正则的线性回归模型就称为Elasitc Net算法(弹性网络算法)既要考虑稳定性也考虑求解的速度,就使用Elasitc Net。
目标函数θ求解:
初始化θ(随机初始化,可以初始为0)
沿着负梯度方向迭代,更新后的θ使J(θ)更小α:学习率、步长
当样本量为m的时候,每次迭代BGD算法中对于参数值更新一次。
BGD一定能够得到一个局部最优解(在线性回归模型中一定是得到一个全局最优解)。
计算速度比较慢。
当样本量为m的时候,SGD算法中对于参数值更新m次。SGD算法的结果并不是完全收敛的,而是在收敛结果处波动的。
SGD在某些情况下(全局存在多个相对最优解/J(θ)不是一个二次),SGD有可能跳出某些小的局部最优解,所以不会比BGD坏。
SGD由于随机性的存在可能导致最终结果比BGD的差。
SGD算法特别适合样本数据量大的情况以及在线机器学习(Online ML)。
注意:优先选择SGD
保证算法的训练过程比较快,又保证最终参数训练的准确率。MBGD中不是每拿一个样本就更新一次梯度,而且拿b个样本(b一般为10)的平均梯度作为更新方向。
学习率的选择:学习率过大,表示每次迭代更新的时候变化比较大,有可能会跳过最优解;学习率过小,表示每次迭代更新的时候变化比较小,就会导致迭代速度过慢,很长时间都不能结束。
算法初始参数值的选择:初始值不同,最终获得的最小值也有可能不同,因为梯度下降法求解的是局部最优解,所以一般情况下,选择多次不同初始值运行算法,并最终返回损失函数最小情况下的结果值。
标准化:由于样本不同特征的取值范围不同,可能会导致在各个不同参数上迭代速度不同,为了减少特征取值的影响,可以将特征进行标准化操作。
主要是进行二分类预测,也即是对于0~1之间的概率值,当概率大于0.5预测为1,小于0.5预测为0。
Logistic/sigmoid函数:
假设:
得似然函数:
回归参数θ(类似梯度下降方法求得):
Logistic回归损失函数(由对数似然函数得来):
softmax回归是logistic回归的一般化,适用于K分类的问题,第k类的参数为向量θ~k~,组成的二维矩阵为θ~k*n~ 。
softmax函数的本质就是将一个K维的任意实数向量压缩(映射)成另一个K维的实数向量,其中向量中的每个元素取值都介于(0,1)之间。
softmax回归概率函数为:
算法原理
损失函数
MSE:误差平方和,越趋近于0表示模型越拟合训练数据。
RMSE:MSE的平方根,作用同MSE。
R2:取值范围(负无穷,1],值越大表示模型越拟合训练数据;最优解是1;当模型预测为随机值的时候,有可能为负;若预测值恒为样本期望,R2为0。
TSS:总平方和TSS(Total Sum of Squares),表示样本之间的差异情况,是伪方差的m倍。
RSS:残差平方和RSS(Residual Sum of Squares),表示预测值和样本值之间的差异情况,是MSE的m倍。
来自: 印度阿三17 > 《开发》
0条评论
发表
请遵守用户 评论公约
详解梯度下降法的三种形式BGD,SGD以及MBGD
详解梯度下降法的三种形式BGD,SGD以及MBGD.2.随机梯度下降法SGD原理讲解。3.小批量梯度下降法是为了解决批梯度下降法的训练速度慢,以及...
深度学习
我们会事先定义一个迭代次数 epoch,首先计算梯度向量 params_grad,然后沿着梯度的方向更新参数 params,learning rate 决定了我们每一...
梯度下降算法综述
梯度下降算法综述背景介绍 梯度下降算法最经典的优化算法之一,在最优化领域占据十分重要的地位。随机梯度下降随机梯度下降(Stochastic ...
梯度下降法的三种形式BGD、SGD以及MBGD
梯度下降法的三种形式BGD、SGD以及MBGD.随机梯度下降法(Stochastic Gradient Descent,简称SGD)正是为了解决批量梯度下降法这一弊端而...
深度学习框架TensorFlow系列之(五)优化器1
模型的代价函数: J ( θ ) J(\theta) J(θ)模型的相关参数: θ ∈ R d \theta \in R^d θ∈Rd参数的梯度: ▽ θ J ( θ ) \bigtriang...
深度学习模型中的梯度下降算法优化方法
深度学习模型中的梯度下降算法优化方法。批量梯度下降算法(Batch Gradient Descent,BGD)是最基本的梯度下降算法,它在每次迭代时使用...
零基础入门深度学习(2)
零基础入门深度学习(2)零基础入门深度学习(2) - 线性单元和梯度下降。线性单元的目标函数。今天的目标函数是一个『凸函数』,沿着梯度反...
零基础入门深度学习:感应器、线性单元和梯度下降
零基础入门深度学习:感应器、线性单元和梯度下降。下面部门将通过介绍另外一种『感知器』,也就是『线性单元』,来说明关于机器学习一...
[DL学习笔记]从人工神经网络到卷积神经网络
[DL学习笔记]从人工神经网络到卷积神经网络。<1>:人工神经网络结构与人工神经网络可以完美分割任意数据的原理:损失函数是干啥的...
微信扫码,在手机上查看选中内容