杏花开医学统计 医学统计教程,统计分析服务 SPSS多元线性回归 分析的操作及结果解读 关键词:SPSS 多元线性回归 上两期,我们对所有类型的回归分析了归纳总结,并且详细讲解了SPSS二元Logistic回归分析的操作及结果解读,具体见下方文章及视频: 回归分析是统计学的一个重要分支,它基于各个变量的观测数据,建立变量之间的因果关系。回归分析家族非常庞大,常见的回归分析有线性回归、logistic回归、生存回归等。 本期我们着重讲解回归家族中多元线性回归的SPSS操作,同时给出结果的详细解读,并将多元线性回归的运算结果绘制成图形,从而使得结果更加清晰易懂。大家学会后完全可以运用于自己的数据及论文中。 请观看下方视频教程 全屏播放请关闭手机中“方向锁定”,然后将手机横向放置 (若无法播放,请联系客服微信3301888200) 1 案例背景 本期案例的研究目的为:探寻年龄、BMI是否会影响心率。我们搜集了165名正常人的年龄、BMI、心率数据,数据情况如下: 2 SPSS多元线性回归操作步骤 多元线性回归小贴士:只要因变量是连续数值型变量,无论自变量是连续型(例如:BMI),还是分类型(例如:家族史、糖尿病),必须选择多元线性回归。本次的案例中,自变量年龄和BMI全部是连续型的,因此直接在SPSS中进行线性回归即可;如果自变量中有分类型(例如:性别,分为男和女),则需要先对自变量进行虚拟化处理。处理之后才可以进行多元线性回归,也就是我们常说的虚拟线性回归(下一期会详细讲解)。 SPSS多元线性回归操作步骤: 第一步:点击“分析”→“回归”→“线性” 第二步:选择对应的自变量和因变量: 第三步:点击“统计”→“共线性诊断”→“德宾-沃森”,然后点击“继续” 第四步:点击“图”→“ZRESID”选进Y→“ZPRED”选进X 然后点击“继续”,最后点击确定,SPSS软件就会输出多元线性回归的运算结果。 2 结果解读 “模型摘要表”显示:R方=0.114,意味着自变量“年龄”和“BMI”可以解释因变量“心率”变化的11.4%,一般而言,R方在30%以上意味着拟合状况良好,而实际数据分析,10%也是可以接受的。 “系数”表显示:年龄显著负向影响心率,影响系数为-0.184<0,且显著性P=0.000<0.05,意味着年龄越大,心率越小;BMI显著正向影响心率,影响系数为0.744>0,且显著性P=0.005<0.05,意味着BMI越大,心率越大; 基于“系数表”的结果,得出回归方程: 心率=65.788-0.184*年龄+0.744*BMI 线性回归模型的诊断: 线性回归模型运算结果的分析非常简单,但是线性回归模型的诊断则是非常复杂的过程。线性回归模型的运算有几个前提条件: 1、样本独立:即165个样本之间不会相互干扰; 2、残差正态:模型的残差服从正态分布; 3、自变量不存在多重共线性:自变量之间不存在极强的相关关系; 只有满足了以上三个条件,那么之前得出的线性回归结果才是准确可靠的。 ①样本独立性的判别: DW值在2附近,意味着样本独立,本案例的DW<2,但是偏差也不是很大,存在轻微的非独立性,但是影响不大,不会太影响回归结果的准确性。 ②残差正态的判别: 上图中,黑色曲线为正态曲线,而黄色柱子的轮廓远远高于正态曲线,意味着本次模型的残差不服从正态分布。 出现这种情况的主要原因是模型拟合度R方不高。自变量只能解释因变量变异的11.4%,解决这个办法的问题是还要再多加入几个自变量,提升模型的拟合度,那么残差就会接近正态分布。至于再加什么样的自变量,还需要大家根据自己的专业知识考察,加入一些极有可能会影响“心率”变化的自变量。 ③自变量不存在多重共线性的判别: VIF值小于5,意味着变量之间不存在多重共线性,不会影响回归结果的准确性。 对于经济类数据,关联性本来就很强,这是这个行业决定的,因此有些经济类数据,VIF的临界点可以放宽到30多,都认为不存在多重共线性。 综合以上的线性回归模型的诊断可以得出:回归模型的结果基本准确。可以基于这个结论给出相关的对策建议。 最后,以上回归模型的结果可以Graphpad prism绘图进行可视化处理:
上图可以清晰看到,年龄对心率是负向影响,而BMI对心率是正向影响。其中,年龄散点有点散乱,有可能是导致R方不高的原因。 本期课程就到这里,我们将每周推出更多、更实用的医学统计教程,提供医学统计相关服务。涵盖医学科研设计、数据统计分析、SPSS、Meta、GraphPad、SAS、R、Eexel等,欢迎大家关注!感谢大家的观看,下期再见! |
|