搜索

分享

QQ空间 QQ好友新浪微博微信

想要学好数据分析，回归不可少

昵称52821188 2019-12-02

展开全文

回归就是“回顾”，就是从过去的数据中寻找规律，然后运用这个规律来推测数据将来的变化。

如何寻找现有数据的内在规律，数据拟合”是我们总结和寻找历史数据中规律的常用方法。

事实上，用一条曲线把散点串起来的过程就是“数据拟合”。那么如何判断数据拟合的质量呢？有一个著名的指标就是R2，R2这个指标是在0～1之间，越接近1，表示拟合的效果越好，越首先看看在EXCEL环境中怎么做数据拟合。

点击上面散点图中的任何一个散点，再点击鼠标右键，在弹出的页面选择“添加趋势线”，接近于0，表示拟合的效果越差。

首先看看在EXCEL环境中怎么做数据拟合。

点击上面散点图中的任何一个散点，再点击鼠标右键，在弹出的页面选择“添加趋势线”，如图所示。

想要学好数据分析，回归不可少

此时，会出现图所示的界面。

想要学好数据分析，回归不可少

在添加趋势线的界面中，勾选左下角的“显示公式”、“显示R平方值”，再选择上面的红框中的任何一个线型，散点图上就会出现相应的曲线、曲线方程和R2值，如图所示。

想要学好数据分析，回归不可少

下面的工作就是在以上的各种线型中选择一个R2值最大的。

多元线性回归

但是现实中有很多是1对多的情况，就是1个因变量对多个自变量，这时在EXCEL环境中就很难处理了，对此，可用SPSS来处理。

想要学好数据分析，回归不可少

进入“线性回归”界面后，做如下选择，如图所示。

想要学好数据分析，回归不可少

在将“租赁价格”放入因变量，将总成本、产量、工资率、产品价格放入自变量后，在回归方法中选择“逐步”，并点击“确定”，得到下图。

想要学好数据分析，回归不可少

可以看到，在输出中，模型选择了工资率、产品价格作为租赁价格的影响因素。

在下图中，给出了工资率和产品价格这两个影响因素的显著性指标，分别是0.005和0.02，均小于0.05，因此工资率和产品价格这两个因素对租赁价格的影响是显著的。

想要学好数据分析，回归不可少

logistic回归

前面讲的回归都是因变量是连续型的回归，实际上，还有很多是因变量是离散值的情况。

因变量是离散值，因此之前使用的普通回归的方法已经不再适用，logistic回归是这种情况下合适的解决方案。

首先，依次点击SPSS里的“分析”→“回归”→“二元logistic回归”，如图所示。

想要学好数据分析，回归不可少

点击“二元Logistic回归”后，得到如图所示界面。

想要学好数据分析，回归不可少

将“是否购买”放入因变量，将“年龄”、“职业”等放入协变量，其他采用默认设置，点击“确定”，在输出中找到模型汇总，可得到下图。

想要学好数据分析，回归不可少

从R2的角度来看，模型回归的效果一般。继续看回归的显著性指标，如图所示。

想要学好数据分析，回归不可少

从Sig的角度看，除了收入分级的Sig是0.055，比较接近于0.05之外，其他的Sig都跟0.05差距比较大，如果按照普通的判断规则，这些指标对于是否购买的影响都不够显著，为了让普通的离散型变量也能够做回归，模型在最初就做了一个变形，将研究的变量发生的概率做变形，研究的变量变形如下：

想要学好数据分析，回归不可少

换个方式表达，就是购买的概率除以不买的概率，根据结果再取对数，公式如下：

想要学好数据分析，回归不可少

以上这个转换非常有名，叫作“优势比”。

就是做了这样一个“优势比”转换后，就不要再计较方程中变量的Sig值了。再来看图。

想要学好数据分析，回归不可少

Sig基本都不用看了，只要看B列就可以了，可以形成的方程如下：

想要学好数据分析，回归不可少

以上的式子计算出来的结果都是针对概率而言的，例如收入分级的系数是2.057，表明收入越高就可以显著地提高购买的概率；年龄之前的系数是-0.064，这表明随着年龄的增长，购买的概率越小。

多元logistic回归

SPSS中的变量视图如图所示。

想要学好数据分析，回归不可少

多项Logistic回归中要做多轮比对。现在有三个车型，实际上也是做两两比较。

想要学好数据分析，回归不可少

点击图中的参考类别，得到下图，进行相应的设置。

想要学好数据分析，回归不可少

首先设定多项Logistic的参考值是1，也就是以家用车为基准，商务车和跑车都跟家用车进行比较，输出如图所示。

想要学好数据分析，回归不可少

连续型数据的处理技巧有两个，一是如果有协变量可以选择，就放入协变量中；二是把连续变量变成离散变量进行处理。

想要学好数据分析，回归不可少

现在来看输出中的参数估计，如图所示。

想要学好数据分析，回归不可少

得到的方程是：

购买工作车=0.079-0.025*年龄+0.124*性别1+0.395*婚姻状况1-0.376*合资国家1-0.31*合资国家2-0.082*尺寸-1.187*尺寸2。

购买跑车=2.35-0.098*年龄+0.339*性别1+1.304*婚姻状况1-0.148*合资国家1+1.101*合资国家2-3.558*尺寸1-0.878*尺寸2。

同样来看参数估计，同样地写方程做对比。

多元有序logistic回归

售后满意度是有序变量，可采用多元有序Logistic回归。

想要学好数据分析，回归不可少

由于年龄属于连续变量，因此在界面上将其放入协变量，然后点击“确定”。

SPSS中有序Logistic回归被称为PLUM-序数回归。输出如图。

想要学好数据分析，回归不可少

看到除了两个阀值之外，其他的因素及其估计都是一样的，也就是说，最多形成两个方程。

在写出这两个方程之前，首先看一下累计Log it转换的概念，在有序Logistic回归中是采用累计Logit转换的。假设现在有三个变量，变量之间是可以排序的，其发生的概率分别为π1、π2、π3，累计Log it转换简单地讲就是“一件事情发生的概率除以它不发生的概率，再进行对数处理”：

想要学好数据分析，回归不可少

如上式，就是第一件事情发生的概率π1除以它不发生的概率再进行对数处理即可。

对于第一件事情和第二件事情的和，计算公式如下：

想要学好数据分析，回归不可少

搞清楚什么是累计log it转换之后，得到两个方程，如下：

想要学好数据分析，回归不可少

例如收入水平1前面的系数是1.618，那么收入水平1跟第一件事情发生的概率π1是同步的，年龄跟π1的变化方向是相反的，对于上面的第二个式子，如果做一下转换，要得出结论就很容易了：

想要学好数据分析，回归不可少

从上式可以看出，收入水平1跟第3件事情发生的概率π3是相反的，年龄跟π3的变化方向是相同的。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：昵称52821188 > 《没下载》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

昵称52821188

关注对话

TA的最新馆藏

书法落款时间各种雅称全汇总查询表
中文之美
【佳节有新知丨微视】慎终追远话清明
木林森！真养眼
70年前板门店停战谈判纪实录像，朝中美代表出镜，谈判地很简陋
朝鲜战争结束后，为何所有的参战方都宣布自己是胜利者？

喜欢该文的人也喜欢更多

热门阅读换一换