模型一般形式 统计模型的一般形式是Y=m(X)+e。其中Y为输出变量、响应变量、因变量、被解释变量;m为均值;e为不可控因子,可以理解为噪声。故模型等式右边是用X组成的函数去描述Y的均值,即模型是在平均的意义下去描述自变量与因变量间的关系,所以在解读模型的时候,我不会将模型说死。 模型中不同形式的m(X)会幻化为不同的模型体系,一般可以将模型分为两大类: 1、m(X)可以幻化为数学公式,即公式模型,一般比较成熟的都是公式模型,例如回归模型的理论与底蕴就比较完善,模型的假定都是可以进行检验的; 2、m(X)过于复杂,用公式无法描述,需要用算法去描述,即算法模型,例如决策树模型。 其实,建模的作用就是将看上去不太可能的事情联系到一起,同时又能将事情的来龙去脉解释清楚。模型构建之前都有假定,模型构建的好不好、是否合适都取决于模型是否符合假定,当然更核心的还是要关注模型在业务场景的应用,这才是建模的最主要的目的。 回归的基本思路 在模型领域,解释性较好的模型毋庸置疑就是回归。回归模型主要能做两件事情,一是用模型去体现事物间的关系,即解释模型变量间的关系;二是用模型进行预测。 如下图所示,回归建模的工作流程即 将客观现实转化为数据后进行建模,终极目标是用数学模型将事物的来龙去脉解释清楚,作为数据分析师,讲故事的能力真的非常重要。 回归模型里的坑 构建回归模型时经常需要对变量进行变换,在调整量纲的过程中不怕数据长度发生变化,怕的是数据的相对长度发生变化,因为眼睛能看到的空间为欧式空间,欧式空间的弱点是数据很容易受到量纲的影响,所以在构建模型进行数据变换的时候并不能随心所欲的变换。 数据变换过程中我经常会使用BOX-COX变换,这种变换的方法为: 1、λ不等于0的时候, 2、λ等于0的时候, 这种BOX-COX的数据变换方式有几个特点: 1、这种变换可以改变分布形状,使数据成为对称甚至正态分布,至少,这种变换能将数据分布往正态分布方向拉一拉; 2、这种变换能保持原数据的大小次序; 3、这种变换对变换结果有比较好的解释。例如: λ=2的时候变换变为了 λ=1的时候变换变为了 λ=0.5的时候变换变为 λ=0的时候可以叫做对数变换; λ=-0.5的时候,y可以叫做平方根倒数变换; 4、变换需要y的最大值和y的最小值的比值要大于2,即原始数据Y的最大值和最小值的变化范围不能太小使用BOX-COX变换才是有效的,如果变化范围过小则数据不敏感。但是实际工作中我还没有遇到过比值小于2的情况。 怎样衡量模型好坏 建模过程中首先应该考虑检验能否通过,如果检验通过,则需要考虑模型好不好、行不行,即必须要进行模型诊断,任何一个模型都有一个正常、期待的样子,即假定,模型建好后都应该看下模型拟合的结果是否符合假定,建模不是很难的过程,困难的点在于数据是否符合假定的衡量。 简单线性回归模型的假定 简单线性回归模型有下面几个假定: 1、线性假定 所谓线性假定指构建模型时需将模型构建成线性的模式,例如Y=b0+b1x2+e,虽然是x2的形式,但可将x2的整体看做X。即在进行参数估计的时候,自变量X可以采用任何形式,但是模型整体需要保证是类线性的模式; 2、正交假定 X和e之间不相关; 3、独立同分布 残差间相互独立,方差需齐性,即相等; 4、Y服从正态分布 一般直接检验因变量Y是不是正态分布比较麻烦,实际检验的是残差。 ![]() 单变量线性回归模型SAS示例 单变量线性回归模型一般形式为:Y=b0+b1X1+e。其中Y为因变量,X为自变量或预测变量,e为扰动项,b为模型的系数。如下示例建模背景为针对消费与收入构建单变量线性回归模型,下面为SAS实现代码以及我对模型结果的解读思路: PROC REG DATA=XUHUI PLOTS(ONLY)=ALL; Linear_Regression_Model: MODEL cost=income/dw spec; OUTPUT OUT=result PREDICTED=predicted_cost RESIDUAL=residual_cost STUDENT=student_cost RSTUDENT=rstudent_cost; RUN; QUIT; 结果解读: 1、看F检验结果与调整R方: F检验,如果P值小则为合理; 调整R方,这里调整R方过小,说明这个一元回归模型可能仅仅一个自变量是不够的; 2、看DW与spc: DW为自相关衡量指标,靠近2没有自相关,靠近4和0有自相关,这里DW为1.42有点靠近未判定区。一般,DW只能检验一阶自相关,更复杂的情况无法检验; spc为异方差检验指标,即怀特检验,即下方第一和第二距制定的检验,P值小表明没有异方差。 其实,DW检验也好、怀特检验也好,都属于弱检验,他们的检验结果的可靠性和实用性不大,只能作为参考,一般实际中我还是会去看残差图再次进行检验。 3、看分布,类似钟型,如果不是钟型可以对Y做Box-Cox变换。 4、利用预测值残差图查看模型是否符合假定 如果模型符合假定,那么模型的残差均值为0、方差为常数,图形中方差用范围去体现,比较期望的状态应该是以均值为中心、区间保持稳定。这里残差图的形态说明出现了异方差,即消费越大花钱的方差越大,需要进行变换,这个地方我不太喜欢用最小二乘的方法进行处理,一般我会想去用合适的方法对变量进行变换。 5、拟合诊断图: 第一列图形用于判断数据是否是正态,右上角的四张图用于判断强影响点。 |
|