诸位,本公众号已经形成包括“样本量估算方法”、“医学研究进展”、“Meta分析简明教程”、“统计视频”(R、医学统计学、妙趣统计学)、“科研资源合集”、“如何分析真实世界研究数据”等系列,有兴趣朋友们可以关注。 “如何分析真实世界研究数据”系列(9) 一、什么是LINE 二、线性回归分析的线性条件 三、什么是残差 先了解回归分析的两个概念: 误差与残差 误差(Errors):观测值与真实值的偏差。 这种真实值(true value)往往是不可观测的,观测值只能无限靠近真实值,却无法等同于真实值,靠近真实值的远近,即是观测误差的大小。观测值靠真实值近,则称观测误差小,否则称观测误差大。 回归模型可以用一下公式来表达误差: 残差(Residuals):估计值与观测值的偏差。 这个观测值既可以是通过某种工具测量得到的,也可以是通过某种统计学方法获得的,而估计值一般是通过某种数据模型方法得到的。这个估计值与观测值之间的偏差就叫做残差。 残差的回归模型可以用以下公式来表达: 也就是说,Y预测值和真实值就是残差 刚才的LINE条件,除了线性条件之外,最准确的方法是以下的条件: 误差项ε是一个期望值为零的随机变量,即E(ε)=0。 同x的时候,ε的方差都相同或者固定。 误差项ε是一个服从正态分布的随机变量,且相互独立。 ε一般情况下不知道,因此,我们用e残差来ε代替进行正态性、方差齐性的分析(值得注意的是,ε的独立的,而e本身是相关的) 四、残差分析 一般来说没有准确的方法来判定正态性、方差齐性和独立性,但是可以结合残差分析图来判定各个正态性、方差齐性和独立性是否成立。 如何看残差图? 通常我们利用Y与X的散点图来观察是否可以使用线性回归,并使用t和F检验来验证其正确性。 但是残差有着得天独厚的优势,因为各个残差项的平均数是0,所以可以通过观测残差图来修正模型。各种残差分布如图1所示。 根据残差性质,一个好的模型残差分布应是(a)中的分布。 (b)中表明数据中可能存在某个异常值,这时需要将异常值删去建立模型,当然要标明此模型不适合该检测值。 而(c)表明,Y的观测值的方差并不相同,是随着X的增加而增加的,所以这就需要对Y进行变换或者其他求解方法来消除这个影响。而(d)也是异方差,随着X增加而增减。 (d)、(e)中表明Y与X之间存在非线性的关系,需要考虑新的曲线关系,而不再是线性回归。当然也可能Y存在自相关。 那误差项是否服从正态分布该如何检验?常用的方法是频数分布图和QQ图。频数分布图不需再说,这里展示下QQ如图2所示。 图2:QQ图 观测QQ图,只要上面的点基本在一条直线上,就可表明误差项服从正态分布。 五、利用SPSS软件进行残差分析 现在利用SPSS软件开展残差分析,探讨残差的独立性、正态性和方差齐性 残差分析同时与线性回归分析进行,可见以下的SPSS界面,包括“图”按钮、“保存按钮” “图”按钮 选择右侧的“图”按钮,将DEPENDNT选择入区域2,ZRESID选择入区域1,并在区域3勾选标准化残差图的“直方图”和“正态概率图”。同样地,要绘制标准化预测值的图形,需要选择下一个,将“*ZRESID”选入Y轴,将“*ZPRED”选入X轴,见图。(*ZRESID表示标准化残值、*ZPRED表示标准化预测值。) “保存”按钮 点击确定,上述过程都完成之后,最终得到4个图形,即标准化残差直方图、标准化残差正态P-P图、关于因变量的标准化残差图、标准化预测值图,可用4个图形来判断残差的特征和LINE的条件是否满足(具体不再这里显示了) 此外,对于LINE的独立性问题,SPSS软件还给予另外一种检验方法,Durbin-Watson 得到如下的结果: 一般来说,Durbin-Watson检验值分布在0-4之间,越接近2,观测值相互独立的可能性越大。本研究中Durbin-Watson检验值为0.399,即观测值的相互独立性条件符合。 |
|