分享

如何进行残差分析? | 2周掌握统计学与SPSS(17-2)

 刘金宸 2022-12-11 发布于云南

本日学习任务


1. 微信群内视频1段 (共21分钟)
2. 公众号公开推文1段: Day 17-1、Day 17-2
3. 微信群内测试题
4. SPSS实操和群内讨论
建议先观看视频,再看本推文再测试,否则效果不佳!

以下文字版教程,今后可能会失效,如需获得全套视频课程,以及永久版的文字版教程,请加入公益免费课程群(发送“打卡”到公众号),全面学习医学统计学与SPSS应用


构建线性回归必须满足一定的条件,主要包括:

(1)在大部分情况下,自变量x和应变量y理论上有因果关系。

(2)结局y是定量变量 。

(3)各x与y存在着线性关系。

(4)正态性、独立性、方差齐性。

1、2、3在之前一讲已经有所提及,今天介绍第四点的重要性及其诊断方法。线性(Linear)、正态性(Normal)、独立性(independence)、方差齐性(Equal Variance),俗称LINE,是线性回归分析的四大前提条件LINE条件往往采用残差分析的方法来诊断。若你要掌握线性回归,残差分析必须得学会。

线性回归模型构建是否成功,用什么来评价也很重要。SPSS一般来说统计分析时会产生两个指标,R^2和方差分析的P值,本文同时展开介绍。

这篇推文将全面介绍多因素线性回归的一些细节处理方法,请不要错过。篇幅较长(约6000字),请耐心阅读。

实例分析


例1:研究究高血压患者血压与性别、年龄、身高、体重等变量的关系,随机测量了32名40岁以上的血压y、年龄X1、体重指数X2、性别X3,试建立多重线性回归方程。数据文件见d17_mreg.sav。


图片


1



线性回归模型的主要分析结果

本题应该考虑多因素回归分析方法。本系列在本日上篇已经介绍该方法,结合SPSS得到以下的分析结果:
图片

从表格结果来看,年龄对血压的影响的存在着统计学差异(b=0.99,P=0.003);男性相对女性,提高了血压值(b=-9.33P=0.001),体重指数对血压的影响的有统计学差异(b=1.08,P=0.041)。

不过,线性回归分析,光光建模还不够,还得包括模型的总体拟合效果评价,模型条件的诊断。若模型诊断和评价结果不理想,上表的结果可能毫无意义。整个模型的诊断,最重要的工作是残差分析。


2



LINE与残差分析

(1)LINE条件的正确理解
学过医学统计学的往往都知道,不是所有定量数据都可以开展线性回归的,线性回归模型有一些适用条件,简称LINE:线性(L)、独立性(I)、正态性(N)、方差齐性(E)。

在这里,我首先严肃纠正一直以来对LINE四个条件的错误理解。很多教材对线性回归LINE语焉不详。给学习统计学带来很多的误导!

比如某一权威版本的统计学如此鉴定LINE:
图片

这种说法本身没错,但没把事情讲清楚,非常容易造成学生的误解。

线性:解释变量X和反应变量Y必须要有线性关系吗?不是!只有当X是定量数据或者等级数据(不设哑变量)时,才要求X与Y有线性的关系。当X是二分类或无需多分类,没有线性条件的要求。

独立性:要求Y各观察值相互独立吗? 不是,是要求残差是独立的。

正态性:要求Y各观察值正态分布吗?  不是,是要求残差正态分布。

方差齐性:要求不同的解释变量X时,反应变量Y方差相等吗?没错,但是对于多因素回归分析,更加合理的理解是在不同Y预测值情况下,残差的方差变化不大。

(2)残差
线性回归按变量数量的多少可以分为:简单线性回归和多重线性回归。简单线性回归,也就是有一个自变量,数学上表达为一元一次函数,其模型可以表示如下:
图片
上述公式是基于样本得到的结果,b0和b1均为统计量,若该公式拓展到总体人群,则为
图片

公式中参数解释如下:
x:自变量
ŷ:y的预测值
b0 、β0:截距
b1、β1:变量回归系数

其中,关键的指标即为b1和β1他们称之为回归系数,反映的是x对y的影响力,是当x每改变一个观测单位时所引起y的改变量

值得注意的是,这里x是真实的变量值x,而y带了一顶帽子,并非是y的真实值,而是成为y的预测值或者估计值。

实际上,世界上所有的x和y没有严格上一一对应的关系,通过x产生的预测值ŷ,是接近于y但不等于y。

y预测值与y直接的差值我们称之为残差。
图片
残差反映了除了x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性。

可以这么来理解ϵ:我们对y的预测是不可能达到与真实值完全一样的这个真实值只有上天知道,因此必然会产生误差,我们就用ϵ来表示这个无法预测的误差。我们通过引入了ϵ可以让模型达到完美状态,也就是理论的回归模型。

残差ϵ就是没有被解释的部分,是剩下来的变异,是边角料。

再通俗来说,就是x和y完美的关系是不存在的,通过x只能差不多预测y。真实和模型总是有点差别,有些差别大,有些差别小。就如,现在的美女们,照片的美女和实际真人残差很大,很以前的美女,照片和真实简直一摸一样,残差小。

结合残差,真实的y和x关系如下:

图片

同样的,多个自变量存在的情况下,多重线性回归模型的表示如下:

图片
 
其中,bk、、βk:回归系数,在多重线性回归中,被称之为偏回归系数,表示每个自变量都对y部分的产生了影响。意义与简单线性回归结果相似,反映的是x对y的影响力,是当x每改变一个观测单位时所引起y的改变量

一个回归模型,必然有残差,成功的模型必然也有相应的变量来解释y的变异,但是残差可大可小。一般来说,建立回归模型时,总希望残差尽可能小残差越小,往往意味着更多的y的变异被解释掉了,预测模型更加真实,即Y预测值更接近于Y真实值。

这一“残差越小越好”的思维被运用回归分析中,便成为了回归建模的基本原则,最小二乘原则。

一般情况下,残差一般要满足一下是哪个条件
(1)残差ϵ是一个期望为0的随机变量,即E(ϵ)=0
(2)对于自变量的所有值,ϵ的方差σ^2都相同
(3)误差项ϵ是一个服从正态分布的随机变量,且相互独立,即ϵ~N(0,σ^2)

这就是为什么回归分析要求正态性、方差齐下和独立性的原因。

(3)残差分析
ε一般情况下不知道,因此,我们用e残差来ε代替进行正态性、方差齐性、独立性的分析

残差分析,一般可以采用残差的正态性分析和残差图来反映。

正态性分析可以用绘制残差的直方图或者QQ图来反映,并不复杂。残差图在SPSS软件中是标准化残差与标准化预测值的散点图。各种残差分布下图所示(x轴为标准化预测值,y轴为标准化残差)。
图片
根据残差性质,一个好的模型残差分布应是(a)中的分布。
 
(b)中表明数据中可能存在某个异常值,这时需要将异常值删去建立模型,当然要标明此模型不适合该检测值。
 
而(c)表明,残差的方差并不相同,是随着y预测值的增加而增加,所以这就需要对Y进行变换或者其他求解方法来消除这个影响。而(d)也是异方差,随着预测值增加而增减。
 
(d)、(e)中表明Y与X之间存在非线性的关系,需要考虑新的曲线关系,而不再是线性回归。当然也可能Y存在自相关。

更多的残差图:

线性和非线性
图片

等方差和异方差
图片

独立和不独立
图片


3



线性回归模型拟合效果评价


线性回归模型SPSS软件给出两个用于评价模型拟合效果的,一个是R平方(R^2),另外一个是方差分析。

一个回归模型必然有残差,成功的模型必然也有相应的变量来解释y的变异。一般情况下,自变量越多,残差越小,这意味着更多的y的变异被解释掉了。因此多因素回归比单因素更好,更有意义。

因此,回归分析时,我们希望残差变异越小越好。残差变异越小,意味着更多的变异被已知的自变量解释了,意味着我们用回归模拟真实世界的效果越好。

那么,如何评价回归分析模拟真实现象的效果呢?方法便是计算R^2和开展方差分析

(1)R平方
R^2反映自变量能够解释应变量y多大变异性的指标,统计学称之为决定系数。因变量被自变量解释的这一部分变异称之为回归变异,它实际上就是y预测值的变异性,一般用离均差平方和(SS回归)来计算;剩下无法解释的变异就是残差变异(SS残差),变异越大,残差方差越大。SS回 SS残=SS总变异。R^2即SS回归除以SS总变异得到值:
图片
决定系数为回归平方和在总平方和中所占百分比,说明模型对真实世界模拟度,0-1,该值越大,模拟度越高,拟合效果更好。

(2)方差分析
R^2用于评价模型好不好,美不美,而方差分析从另一角度评价模型,它探讨模型是否成功构建,有没有意义。它的原理是基于回归均方除以残差均方得到F值,来探讨量是否不是至少有一个解释变量成功地解释了y的变异。如果回答是,那么P值<0.05。若F值很大P值很小,则表明回归均方大而残差均方小,则表明y更多部分被x解释了,模型成功建立。

统计分析首先看方差分析结果,判断是否成功建立,在此基础上可看R^2,评价模型是优秀、还是合格。

本文更多疑问,请发送关键词4040到本公众号,了解更多答疑

线性回归分析SPSS教程


本文展开系统的SPSS介绍,来帮助诸位学习多因素线性回归分析,内容包括x与y的线性关系判断、具体的回归分析方法、残差分析、R^2、方差分析等。


1



回归分析前的第一步,散点图描绘线性趋势

对于线性关系的条件,一般要求当x是定量变量或者等级变量时,需绘制散点图探讨与y是否存在着线性趋势的关系;但如x为二分类或者无序多分类,无须绘制散点图。这一操作应在回归分析之前完成。

本例开展血压、年龄、和BMI指数的散点图分析(SPSS操作:图形-旧对话框-散点图-矩阵图)结果发现,体重指数、年龄与血压的线性关系成立。
图片

2



线性回归入口

线性回归分析SPSS分析入口:分析-回归-线性
图片


3



线性回归主界面

图片
①血压是结果变量,放入因变量
②年龄、性别和体重指数是原因变量,放入自变量
③统计:软件默认勾选模型拟合计算R^2,同时有必要进行残差的独立性分析德宾沃森检验(Durbin-Watson)
图片

“图”:可以绘制残差图和残差直方图、QQ图。选择右侧的“图”按钮,将“*ZRESID”选入Y轴,将“*ZPRED”选入X轴()(*ZRESID表示标准化残值、*ZPRED表示标准化预测值);选择直方图(若选择正态概率,将绘制QQ图)

图片

“选项”:可以计算预测值和残差
图片


43


多因素线性回归分析的结果


线性回归分析主要结果:

首先呈现的是R^2结果和残差独立性检验(德宾沃森检验)。

一般情况下,R^2 看的是“调整R^2”,该值相对不受自变量个数的影响,结果更为可靠。本例调整R^2=0.775,处于较高的水平,也就是说真实世界已经被模拟得“七七八八”了。

德宾沃森检验结果,该结果是独立性检验的方法,若该值在2附近(一般1-3之间)(注意:视频上的结果不准确,以本文的值为准)基本可认为数据独立性符合。本题该值为1.969,独立性符合(该结果同样可以从上文残差分析图可以得到)
图片

第二个结果为方差分析(ANOVA),主要探讨模型是否成功建成。本例F=36.542,P<0.001,说明至少有一个自变量解释了一部分的因变量的变异,从而使得回归变异变大,残差变异减少,模型成功建立,模型具有统计学意义。

值得注意的是,本题平方和即变异程度(离均差平方和),回归变异平方和/总的平方和,便是R^2,0.797。因此方差分析和R^2结果同出一源,方差分析侧重于分析模型是否成功,R^2侧重于探讨模型有多成功。
图片

第三个结果,回归分析的主要结果:计算回归系数、并对回归系数进行假设检验,探讨影响因素。
图片

第四个结果,由于本例选择计算残差和预测值,可以通过下表来看预测值和残差结果
图片

在数据库中,可以发现增加了PRE_1(预测值)和RES_1(残差) ,两组相加,刚好是y“血压值”。
图片

第五个结果,残差直方图。可以看出,本例残差均数接近于0,标准差接近于1,数据呈正态分布(标准正态分布),这意味着线性回归在正态性条件是达到的。
图片

第六个结果,残差图。残差图的x、y轴分别是因变量预测值的标准化值和残差的标准化值(一般x轴是预测值的标准化值)。本例从图形来看,标准化残差图分布在0值周围,基本是上下对称分布,分布特征不随预测值的增加而发生改变,意味着数据方差齐性、独立性条件符合。
图片

纵观线性回归分析SPSS整个过程,我们要通过散点图解决线性问题,残差分析结局残差的LINE条件,根据R^2和方差分析来评价模型,在此基础,评价各自变量的回归效应。

更多关于多因素回归


1.线性回归分析LINE条件不成立怎么办?

·线性:如果X和Y的关系是非线性的关系(如曲线关系),则回归系数b值无法值正确反映X和Y 的关系(X是二分类、无序多分类除外)

处理方法:将X转为哑变量处理,或者曲线回归,或者对自变量x进行转换(指数转换x^3,或者对数转换log(x)等)。

·正态性:如果残差不符合正态性(一般是严重偏态分布),则可以考虑对y或者x进行数据转换(比如BOX-COX转换),推动残差正态分布;或将y转成2分类或多分类数据采用logistic回归

方差不齐:方差不齐可以采用其他方法估计回归系数,常见的如加权最小二乘法估计回归系数

·独立性:如果独立性条件不符合,则采用非独立性的数据分析方法,比如线性混合模型、多水平模型、广义估计方程等。

数据不符合要求者,不是说结果就不能用,只要情况不严重,回归分析也能用,但要谨慎看待线性回归分析结果。

2. 回归分析R^2很小怎么办?

无须凉拌!

很多人、甚至是论文的评审专家很看重R^2,都觉得R^2越大越好,模型越好,对R^2低的模型不屑一看。实际上这些人都是社会学、经济学领域的研究者,对医学研究具体情况不熟悉。

医学研究线性回归有几个重要的用途,其中两个分别是预测结局,探讨影响因素。

对于目的是预测的线性回归,R^2非常重要,R^2越高,模型预测效果越好,所以经济学领域特别看中R^2。医学研究,偶尔也开展预测,但预测并非医学研究的主要研究目的。实际上,医学研究,由于自变量个数有限,一般情况下R^2都比较小,很难起到预测的效果。

如果你觉得R^2应该大才对,实际上你可能误解了一篇文章中线性回归分析 的目的。医学研究开展回归模型,最大的目的是探讨影响因素(或者控制混杂)。此时,R^2无论大小,都不太影响结果。探讨影响因素,首要探讨的是某一个因素在假设检验中P值到底是否小于0.05。

有人说R^2这么小,建模有什么意思?我倒反驳说,就凭医学研究的那几个指标,你就想预测如此复杂的医学现象?痴人说梦!

所以,诸位不必纠结R^2是不是过小了!R^2虽好,不必苛求。

3.回归分析还需注意异常值

在实践中,科研工作者鉴别数据异常值是统计分析前首先要完成的工作,否则会导致前功尽弃,得不偿失。比如下图:虚线是代表受异常值影响而偏离的回归线。
图片
引自:方积乾主编,生物医学研究的统计学方法(第二版)

异常值数据的识别可以通过简单、直观、有效的散点图,也可以计算相关统计量(比如残差或者广义平方距离获得)来反映。

SPSS软件提供异常值的诊断。可设置一定的离群值标准来诊断存在着异常值的个案(一般是>3个标准差),其残差的直方图也可以看出是否存在着异常的残差值。
图片

图片
异常残差分布位置,本例残差均小于3个标准差,无特别异常值,红框仅作位置标注

一旦发现可能的异常数据,不易草率地删除,应该仔细审查这些可能异常数据的获得过程。如果是认为实验失误、记录错误或者录入错误等造成的,才考虑删除或者重新测量;若异常值便是个体本身造成,不便删除,否则会扭曲真实结果。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多