分享

因变量是定性变量的回归分析—Logistic回归分析

 Nursing小班长 2020-08-08

编者按

logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。

1

 从多元线性回归到Logistic 回归

案例

对200个不同年龄和性别的人对某项服务产品的认可的数据(logi.sav)进行分析。其中: 年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而变量“观点”则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量。

从下面的图可以看出什么?

从下面这张图又可以看出什么?

这里观点是因变量, 只有两个值;所以可以把它看作成功概率为p的Bernoulli试验的结果。但是和单纯的Bernoulli试验不同,这里的概率p为年龄和性别的函数,必须应用Logistic回归。

2

多元线性回归不能应用于定性因变量

首先,多元线性回归中使用定性因变量严重违反本身假设条件,即:因变量只能取两个值时,对于任何给定的自变量值,e本身也只能取两个值。这必然会违背线性回归中关于误差项e的假设条件。

其次,线性概率概型及其问题由于因变量只有两个值;所以可以把它看作成功概率p,取值范围必然限制在0—1的区间中,然而线性回归方程不能做到。另外概率发生的情况也不是线性的。

3

Logistic函数

Logistic的概率函数定义为:

我们将多元线性组合表示为:

于是,Logistic概率函数表示为:

经过变形,可得到线性函数:

这里, 

事件发生概率=P        (y=1)

事件不发生概率=1-P  (y=0)

发生比:

对数发生比:

这样,就可将logistic曲线线性化为:

从P到logit P经历了两个步骤变换过程:

第一步:将p转换成发生比,其值域为0到无穷

第二步:将发生比换成对数发生比,其值域科为

经过转换, 将P→logit P,在将其作为回归因变量来解释就不再有任何值域方面的限制了,即可线性化!

4

Logistic回归系数的意义

logit P方程的线性表达式来解释回归系数,即:

在logistic回归的实际研究中,通常不是报告自变量对P的作用,而是报告自变量对logit P的作用。以发生比Ω的指数表达式来解释回归系数。与logit P不同,发生比Ω具有一定的实际意义,代表一种相对风险。因此对logistic回归系数的解释通常是从发生比的指数表达式出发的。

例如:在取得了logistic回归系数的各bi的解以后,将其带入Ω函数,

如果分析x 变化一个单位对于Ω的影响幅度,可以用(x +1)表示,并将其代入上式,得到新的发生比:

将两个发生比集中在一起有:

将此称为发生比率,它可测量自变量一个单位的增加给原来的发生比所带来的变化,一般表达式为:

说明在其他情况不变的情况下,x一个单位的变化使原来的发生比扩大倍。比如,原来的Ω为6:4(比值为1.5),如果一个自变量变化一个单位导致的发生比率为exp(0.693)=2,即表示这一变化将会导致新发生比值Ω*为原来的2倍,即新发生比将是12:4(比值为3)。

我们也可用发生比率减1的差来表示发生比的增长率,如发生比率为2.3,就可以说自变量一个单位的变化会使原发生比增加1.3倍(2.3-1=1.3).

当logistic回归系数为负数时,发生比率小于1。这时的表达要特别小心。比如发生比率为0.8时,表示新发生比只有原来的80%,那么下降的倍数则是(1-0.8=)0.2.

5

 Logistic回归应用

以上例为例,说明logistic回归分析

SPSS选项:Analyze — Regression — Binary logistic。Logistic回归的SPSS输出结果

6

Logistic模型的检验与评价

1. 对于整体模型的检验

Logistic回归方程求解参数是采用最大似然估计方法,因此其回归方程的整体检验通过似然函数值,表示为:

-2 Log Likelihood

该值越大,意味着回归方程的似然值越小,模型的拟和程度越差。反之,拟和程度越好。

在评价或检验一个含有自变量的Logistic回归模型时,通常是将其含有自变量的Logistic的-2 Log Likelihood与截距模型的相比较。两者之差服从卡方分布,进行卡方检验。所谓截距模型,就是将所有自变量删除后只剩一个截距系数的模型。

2.对于回归系数的检验

Logistic回归系数的检验是用Wald统计量进行的。

7

Logistic回归的标准化回归系数

SPSS进行Logistic回归时不提供标准化 回归系数,但是其手工计算公式很简单:

Age和Sex的标准化回归系数分别约为:

8

Logistic回归的偏回归系数

通过比较两个自变量的标准化回归系数,我们发现对于是否同意该观点来说,年龄的负作用要比性别的负作用要大一些。

艾德医讯|艾德课堂|科研服务

请留下你指尖的温度

让太阳拥抱你

记得这是一个有温度的公众号

    转藏 全屏 打印 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多