回归就是“回顾”,就是从过去的数据中寻找规律,然后运用这个规律来推测数据将来的变化。 如何寻找现有数据的内在规律,数据拟合”是我们总结和寻找历史数据中规律的常用方法。 事实上,用一条曲线把散点串起来的过程就是“数据拟合”。那么如何判断数据拟合的质量呢?有一个著名的指标就是R2,R2这个指标是在0~1之间,越接近1,表示拟合的效果越好,越首先看看在EXCEL环境中怎么做数据拟合。 点击上面散点图中的任何一个散点,再点击鼠标右键,在弹出的页面选择“添加趋势线”,接近于0,表示拟合的效果越差。 首先看看在EXCEL环境中怎么做数据拟合。 点击上面散点图中的任何一个散点,再点击鼠标右键,在弹出的页面选择“添加趋势线”,如图所示。 此时,会出现图所示的界面。 在添加趋势线的界面中,勾选左下角的“显示公式”、“显示R平方值”,再选择上面的红框中的任何一个线型,散点图上就会出现相应的曲线、曲线方程和R2值,如图所示。 下面的工作就是在以上的各种线型中选择一个R2值最大的。 多元线性回归 但是现实中有很多是1对多的情况,就是1个因变量对多个自变量,这时在EXCEL环境中就很难处理了,对此,可用SPSS来处理。 进入“线性回归”界面后,做如下选择,如图所示。 在将“租赁价格”放入因变量,将总成本、产量、工资率、产品价格放入自变量后,在回归方法中选择“逐步”,并点击“确定”,得到下图。 可以看到,在输出中,模型选择了工资率、产品价格作为租赁价格的影响因素。 在下图中,给出了工资率和产品价格这两个影响因素的显著性指标,分别是0.005和0.02,均小于0.05,因此工资率和产品价格这两个因素对租赁价格的影响是显著的。 logistic回归 前面讲的回归都是因变量是连续型的回归,实际上,还有很多是因变量是离散值的情况。 因变量是离散值,因此之前使用的普通回归的方法已经不再适用,logistic回归是这种情况下合适的解决方案。 首先,依次点击SPSS里的“分析”→“回归”→“二元logistic回归”,如图所示。 点击“二元Logistic回归”后,得到如图所示界面。 将“是否购买”放入因变量,将“年龄”、“职业”等放入协变量,其他采用默认设置,点击“确定”,在输出中找到模型汇总,可得到下图。 从R2的角度来看,模型回归的效果一般。继续看回归的显著性指标,如图所示。 从Sig的角度看,除了收入分级的Sig是0.055,比较接近于0.05之外,其他的Sig都跟0.05差距比较大,如果按照普通的判断规则,这些指标对于是否购买的影响都不够显著,为了让普通的离散型变量也能够做回归,模型在最初就做了一个变形,将研究的变量发生的概率做变形,研究的变量变形如下: 换个方式表达,就是购买的概率除以不买的概率,根据结果再取对数,公式如下: 以上这个转换非常有名,叫作“优势比”。 就是做了这样一个“优势比”转换后,就不要再计较方程中变量的Sig值了。再来看图。 Sig基本都不用看了,只要看B列就可以了,可以形成的方程如下: 以上的式子计算出来的结果都是针对概率而言的,例如收入分级的系数是2.057,表明收入越高就可以显著地提高购买的概率;年龄之前的系数是-0.064,这表明随着年龄的增长,购买的概率越小。 多元logistic回归 SPSS中的变量视图如图所示。 多项Logistic回归中要做多轮比对。现在有三个车型,实际上也是做两两比较。 点击图中的参考类别,得到下图,进行相应的设置。 首先设定多项Logistic的参考值是1,也就是以家用车为基准,商务车和跑车都跟家用车进行比较,输出如图所示。 连续型数据的处理技巧有两个,一是如果有协变量可以选择,就放入协变量中;二是把连续变量变成离散变量进行处理。 现在来看输出中的参数估计,如图所示。 得到的方程是: 购买工作车=0.079-0.025*年龄+0.124*性别1+0.395*婚姻状况1-0.376*合资国家1-0.31*合资国家2-0.082*尺寸-1.187*尺寸2。 购买跑车=2.35-0.098*年龄+0.339*性别1+1.304*婚姻状况1-0.148*合资国家1+1.101*合资国家2-3.558*尺寸1-0.878*尺寸2。 同样来看参数估计,同样地写方程做对比。 多元有序logistic回归 售后满意度是有序变量,可采用多元有序Logistic回归。 由于年龄属于连续变量,因此在界面上将其放入协变量,然后点击“确定”。 SPSS中有序Logistic回归被称为PLUM-序数回归。输出如图。 看到除了两个阀值之外,其他的因素及其估计都是一样的,也就是说,最多形成两个方程。 在写出这两个方程之前,首先看一下累计Log it转换的概念,在有序Logistic回归中是采用累计Logit转换的。假设现在有三个变量,变量之间是可以排序的,其发生的概率分别为π1、π2、π3,累计Log it转换简单地讲就是“一件事情发生的概率除以它不发生的概率,再进行对数处理”: 如上式,就是第一件事情发生的概率π1除以它不发生的概率再进行对数处理即可。 对于第一件事情和第二件事情的和,计算公式如下: 搞清楚什么是累计log it转换之后,得到两个方程,如下: 例如收入水平1前面的系数是1.618,那么收入水平1跟第一件事情发生的概率π1是同步的,年龄跟π1的变化方向是相反的,对于上面的第二个式子,如果做一下转换,要得出结论就很容易了: 从上式可以看出,收入水平1跟第3件事情发生的概率π3是相反的,年龄跟π3的变化方向是相同的。 |
|
来自: 昵称52821188 > 《没下载》