分享

想要学好数据分析,回归不可少

 昵称52821188 2019-12-02

回归就是“回顾”,就是从过去的数据中寻找规律,然后运用这个规律来推测数据将来的变化。

如何寻找现有数据的内在规律,数据拟合”是我们总结和寻找历史数据中规律的常用方法。

事实上,用一条曲线把散点串起来的过程就是“数据拟合”。那么如何判断数据拟合的质量呢?有一个著名的指标就是R2,R2这个指标是在0~1之间,越接近1,表示拟合的效果越好,越首先看看在EXCEL环境中怎么做数据拟合。

点击上面散点图中的任何一个散点,再点击鼠标右键,在弹出的页面选择“添加趋势线”,接近于0,表示拟合的效果越差。

首先看看在EXCEL环境中怎么做数据拟合。

点击上面散点图中的任何一个散点,再点击鼠标右键,在弹出的页面选择“添加趋势线”,如图所示。

想要学好数据分析,回归不可少

此时,会出现图所示的界面。

想要学好数据分析,回归不可少

在添加趋势线的界面中,勾选左下角的“显示公式”、“显示R平方值”,再选择上面的红框中的任何一个线型,散点图上就会出现相应的曲线、曲线方程和R2值,如图所示。

想要学好数据分析,回归不可少

下面的工作就是在以上的各种线型中选择一个R2值最大的。

多元线性回归

但是现实中有很多是1对多的情况,就是1个因变量对多个自变量,这时在EXCEL环境中就很难处理了,对此,可用SPSS来处理。

想要学好数据分析,回归不可少

进入“线性回归”界面后,做如下选择,如图所示。

想要学好数据分析,回归不可少

在将“租赁价格”放入因变量,将总成本、产量、工资率、产品价格放入自变量后,在回归方法中选择“逐步”,并点击“确定”,得到下图。

想要学好数据分析,回归不可少

可以看到,在输出中,模型选择了工资率、产品价格作为租赁价格的影响因素。

在下图中,给出了工资率和产品价格这两个影响因素的显著性指标,分别是0.005和0.02,均小于0.05,因此工资率和产品价格这两个因素对租赁价格的影响是显著的。

想要学好数据分析,回归不可少

logistic回归

前面讲的回归都是因变量是连续型的回归,实际上,还有很多是因变量是离散值的情况。

因变量是离散值,因此之前使用的普通回归的方法已经不再适用,logistic回归是这种情况下合适的解决方案。

首先,依次点击SPSS里的“分析”→“回归”→“二元logistic回归”,如图所示。

想要学好数据分析,回归不可少

点击“二元Logistic回归”后,得到如图所示界面。

想要学好数据分析,回归不可少

将“是否购买”放入因变量,将“年龄”、“职业”等放入协变量,其他采用默认设置,点击“确定”,在输出中找到模型汇总,可得到下图。

想要学好数据分析,回归不可少

从R2的角度来看,模型回归的效果一般。继续看回归的显著性指标,如图所示。

想要学好数据分析,回归不可少

从Sig的角度看,除了收入分级的Sig是0.055,比较接近于0.05之外,其他的Sig都跟0.05差距比较大,如果按照普通的判断规则,这些指标对于是否购买的影响都不够显著,为了让普通的离散型变量也能够做回归,模型在最初就做了一个变形,将研究的变量发生的概率做变形,研究的变量变形如下:

想要学好数据分析,回归不可少

换个方式表达,就是购买的概率除以不买的概率,根据结果再取对数,公式如下:

想要学好数据分析,回归不可少

以上这个转换非常有名,叫作“优势比”。

就是做了这样一个“优势比”转换后,就不要再计较方程中变量的Sig值了。再来看图。

想要学好数据分析,回归不可少

Sig基本都不用看了,只要看B列就可以了,可以形成的方程如下:

想要学好数据分析,回归不可少

以上的式子计算出来的结果都是针对概率而言的,例如收入分级的系数是2.057,表明收入越高就可以显著地提高购买的概率;年龄之前的系数是-0.064,这表明随着年龄的增长,购买的概率越小。

多元logistic回归

SPSS中的变量视图如图所示。

想要学好数据分析,回归不可少

多项Logistic回归中要做多轮比对。现在有三个车型,实际上也是做两两比较。

想要学好数据分析,回归不可少

点击图中的参考类别,得到下图,进行相应的设置。

想要学好数据分析,回归不可少

首先设定多项Logistic的参考值是1,也就是以家用车为基准,商务车和跑车都跟家用车进行比较,输出如图所示。

想要学好数据分析,回归不可少

连续型数据的处理技巧有两个,一是如果有协变量可以选择,就放入协变量中;二是把连续变量变成离散变量进行处理。

想要学好数据分析,回归不可少

现在来看输出中的参数估计,如图所示。

想要学好数据分析,回归不可少

得到的方程是:

购买工作车=0.079-0.025*年龄+0.124*性别1+0.395*婚姻状况1-0.376*合资国家1-0.31*合资国家2-0.082*尺寸-1.187*尺寸2。

购买跑车=2.35-0.098*年龄+0.339*性别1+1.304*婚姻状况1-0.148*合资国家1+1.101*合资国家2-3.558*尺寸1-0.878*尺寸2。

同样来看参数估计,同样地写方程做对比。

多元有序logistic回归

售后满意度是有序变量,可采用多元有序Logistic回归。

想要学好数据分析,回归不可少

由于年龄属于连续变量,因此在界面上将其放入协变量,然后点击“确定”。

SPSS中有序Logistic回归被称为PLUM-序数回归。输出如图。

想要学好数据分析,回归不可少

看到除了两个阀值之外,其他的因素及其估计都是一样的,也就是说,最多形成两个方程。

在写出这两个方程之前,首先看一下累计Log it转换的概念,在有序Logistic回归中是采用累计Logit转换的。假设现在有三个变量,变量之间是可以排序的,其发生的概率分别为π1、π2、π3,累计Log it转换简单地讲就是“一件事情发生的概率除以它不发生的概率,再进行对数处理”:

想要学好数据分析,回归不可少

如上式,就是第一件事情发生的概率π1除以它不发生的概率再进行对数处理即可。

对于第一件事情和第二件事情的和,计算公式如下:

想要学好数据分析,回归不可少

搞清楚什么是累计log it转换之后,得到两个方程,如下:

想要学好数据分析,回归不可少

例如收入水平1前面的系数是1.618,那么收入水平1跟第一件事情发生的概率π1是同步的,年龄跟π1的变化方向是相反的,对于上面的第二个式子,如果做一下转换,要得出结论就很容易了:

想要学好数据分析,回归不可少

从上式可以看出,收入水平1跟第3件事情发生的概率π3是相反的,年龄跟π3的变化方向是相同的。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多