配色: 字号:
logistic回归、probit回归与poission回归
2017-12-09 | 阅:  转:  |  分享 
  
?Logistic回归(因变量为二分变量/二项分布)

?probit回归

?Poisson(因变量为poisson分布)

第三章:横截面数据:因变量为分类变量及因

变量为频数(计数)变量的情况

?Logistic回归(因变量为二分变量/二项分布)

?probit回归

?Poisson(因变量为poisson分布)

第三章:横截面数据:因变量为分类变量及因

变量为频数(计数)变量的情况

概念

logistic回归是研究因变量为二分类或多分类观察结果与影响

因素(自变量)之间关系的一种多变量分析方法,属概率型非线

性回归。

最常用的是二值型logistic,即因变量的取值只包含两个类

别例如:好、坏;发生、不发生;常用Y=1或Y=0表示。自变

量X称为危险因素或暴露因素,可为连续变量、等级变量、分类

变量,可有m个自变量X1,X2,…Xm。P表示Y=1的概率,是

其他变量的一个函数。

【p(Y=1|X)表示在X的条件下Y=1的概率】

logistic回归的数学表达式为:

ln1TpXp???

logistic回归的分类:

(1)二分类资料logistic回归:因变量为两分类变量的资料,

可用非条件logistic回归和条件logistic回归进行分析。非条

件logistic回归多用于非配比病例-对照研究或队列研究资料,

条件logistic回归多用于配对或配比资料。

(2)多分类资料logistic回归:因变量为多项分类的资料,

可用多项分类logistic回归模型或有序分类logistic回归模型

进行分析。

也可以分为logistic回归和条件logistic回归

1.令因变量两个水平对应的值为0、1,概率为1-p、

p,则显然我们也可以用多重回归进行分析?为

什么要用logistic回归分析?

2.logistic回归回归系数、模型评估、参数估计、

假设检验等与之前的回归分析有何不同?

3.因变量为二分变量时既可以用logistics回归也可

以用probit回归,那么probit回归及其与logistic

回归的异同之处

问题

问题1:

0

0

(1)1

x

x

ePy

e

??

??

?

????

?

?

??

)未发病、无效、存活等出现阴性结果

发病、有效、死亡等)出现阳性结果

(0

(1Y

p(y=1)表示某暴露因素状态下,结果y=1的概率(P)模型。

0

1(1)

1exp[()]pyx???????



模型描述了应变量p与x的关系

P概率

1

0.5

Z值

0123-1-2-3

图1Logistic回归函数的几何图形

)](exp[1

1)1(

0x

yp???????

xz10????



可看出:当

Z

趋于

??

时,

P

值渐进于1;当

Z

趋于

??

时,

P

值渐进于0;

P

值的变化在0~1之间,并且随

Z

值的变

化以点(0,0.5)为中心成对称S形变化。

线性回归在处理有上限和下限的因变量时面临着

一个问题:X上同样的变化对Y产生的影响不同,

由图1也可以直观的看出这里并不适合进行线性

回归。

虽然有很多非线性的函数可以呈现S形,但由于

Logit转化比较简易,所以更受欢迎。

Logit转化:

设因变量

Y

是一个二分类变量,其取值为

Y

=1和

Y

=0。

影响

Y

取值的

m

个自变量分别为

mXXX,,,21?

。在

m



个自变量(即暴露因素)作用下阳性结果发生的条件

概率为

),,,1(21mXXXYPP???

,则logistic回归模

型可表示为:

)exp(1

)exp(

22110

22110

mm

mm

XXX

XXX

P

????

????

?????

????

?

?

?



其中,

0?

为常数项,

m???,,,21?

为偏回归系数。

logitP=

P

P

?1ln

为P的logit变换,

通过logit变换之后,就可将

10??P

的转换为

??????)(logPit



作logit变换后,logistic回归模型可以表示成如下的线性形式:



01122

01122

01122

01122

exp()

1exp()

ln()ln[]

exp()1

1

1exp()

mm

mm

mm

mm

XXX

XXXP

XXXP

XXX

????

????

????

????

????

?????

?

?????

?

?????



01122ln[exp()]mmXXX?????????



01122mmXXX?????????



Logit与概率不同,它没有上下限。比数去除了概率的上限,比

数的对数去除了概率的下限;且是以0,5为中点对称的,概率大

于0.5产生正的logit,logit距离0的距离反映了概率距离0.5的距离;

概率上相同的改变与在logits上产生的改变是不同的,logit转化

拉直了X与最初的概率之间的非线性关系。

回归系数的意义:

?Logistic回归中的回归系数表示,某一因

素改变一个单位时,效应指标发生与不发生事

件的概率之比的对数变化值,即OR的对数值。

?Logistic回归中的常数项表示,在不接触任

何潜在危险/保护因素条件下,效应指标发生

与不发生事件的概率之比的对数值。

i?

0?

单纯从数学上讲,与多元线

性回归分析中回归系数的解

释并无不同。

问题2:

模型评估

(1)Hosmer-Lemeshowz指标

HL统计量的原假设Ho是预测值和观测值之间无显著差

异,因此HL指标的P-Value的值越大,越不能拒绝原假设,

即说明模型很好的拟合了数据。

(2)AIC和SC指标即池雷准则和施瓦茨准则

与线性回归类似AIC和SC越小说明模型拟合的越好

(3)似然比卡方出

从整体上看解释变量对因变量有无解释作用相当于多元

回归中的F检验在logistic回归中可以通过似然比(likelihood

ratiotest)进行检验

(4)RSQUARE(R^2)和C统计量

解释变量解释在多大程度上解释了因变量与线性回归中

的R^2作用类似在logistic回归中可以通过R^2和C统计量进

行度量

统计量趋势拟合作用备注

AIC、SC越小越好类似于多元回归中的残差平方和

似然比卡方越大越好类似于多元回归中的回归平方和P值越小越好

RSQUARE越大越好类似于多元回归中的R^2

C统计量越大越好度量观测值和条件预测的相对一致性

HL统计量越小越好度量观测值和预测值总体的一致性P值越大越好

说明:

在实践中,对以上统计量最为关注的是C统计量,

其次是似然比卡方,最后才是HL统计量。AIC和

SQUARE极少关注,这一点和多元线性回归有很大的

区别。根本原因就是多元线性回归模型是一个预测模

型,目标变量的值具有实际意义;而logistic是一个分

类模型,目标变量只是一个分类标识,因此更关注预

测值和预测值之间的相对一致性而不是绝对一致性。

参数估计

logistic回归模型的参数估计常采用最大似然估计(与多元线性回

归中的类似)。其基本思想是先建立似然函数与对数似然函数,

求使对数似然函数最大时的参数值,其估计值即为最大

似然估计值。

建立样本似然函数:

1

1

(1)ii

n

YY

ii

i

LPP

?

?

???



1,2,,in?

)(15.6)

其中,

iP

表示第

i

例观察对象处于暴露条件下时阳

性结果发生的概率。阳性结果时,

1iY?

;阴性结

果时,

0iY?



根据最大似然原理,似然函数L应取最大值。

对似然函数取对数形式:

1

ln[ln(1)ln(1)]

n

iiii

i

LYPYP

?

?????

(15.7)

式中为对数似然函数,对其取一阶导数求解参数。对

于参数

j?



1,2,,jm?

),令lnL的一阶导数为0,



ln

0

j

L

?

?

?

?

,用Newton-Raphson迭代方法解方程组,

得出参数

j?

的估计值

jb



jb

的渐进标准误

jb

S



自变量

jX

不同水平

1c



0c

优势比的估计值:

10

?exp[()]

jjORbcc??



当样本含量

n

较大时,

jb

的抽样分布近似服从

正态分布,若

jX

只有暴露和非暴露2个水平,

则优势比

jOR

的100(

1??

)%可信区间为:

2exp()jjbbuS??



除此以外,logistic回归还可以用优势比估计:

表1为吸烟、饮酒与食管癌关系的病例-对照研究调查

资料,试进行logistic回归分析。

表1吸烟、饮酒与食管癌关系的病例-对照研究资料

分层

g

吸烟

1X

饮酒

2X



总例数

gn

阳性数

gd

阴性数

ggnd?



10019963136

20117063107

3101014457

411416265151

首先确定变量的赋值或编码:

吸烟饮酒病例

1

1

0

X

?

??

?



不吸烟

2

1

0

X

?

??

?



不饮酒

1

0

Y

?

??

?



对照



案例:

在logistic过程步

中加“descending”

选项的目的是使

SAS过程按阳性

率(y=1)拟合模

型,得到阳性病

例对应于阴性病

例的优势比。









OR值OR的95%CI

对偏回归系数

的假设检验

吸烟与不吸烟的优势比:

11

?expexp0.88562.42ORb???

,其

1OR

的95%可信区间:

110.052

exp[]exp(0.88561.960.1500)(1.81,3.25)bbuS?????



饮酒与不饮酒的优势比:

22

?expexp0.52611.69ORb???

,其

2OR

的95%可信区间:

220.052

exp[]exp(0.52611.960.1572)(1.24,2.30)bbuS?????



由结果可看出,吸烟和饮酒均为食管癌发病的危险因素,

吸烟人群发生食管癌的可能性是不吸烟人群的2.42倍,

饮酒人群发生食管癌的可能性是不饮酒人群的1.69倍。

logistic回归模型的假设检验

1.似然比检验

基本思想是比较2种不同假设条件下的对数似然函

数值差别的大小。具体方法是:①先拟合不包含待

检验因素的logistic模型,求对数似然函数值

0lnL



②再拟合包含待检验因素的logistic模型,求另一

个对数似然函数值

1lnL

;③比较两个对数似然函数

值差别的大小

若2个模型分别包含

l

个自变量和

p

个自变量,

似然比统计量

G

的计算公式为:

2(lnln)plGLL??



当样本含量

n

较大时,在

0H

成立的条件下,

G



统计量近似服从自由度

dpl????



2?

分布。

如果只对一个回归系数(或一个自变量)进行检

验,则1??。

2.Wald检验

用u检验或

2?

检验来检验各参数

j?

是否为0。

jjb

ubS?



??

2

2

jjb

bS??



jb

S

为偏回归系数的标准误。

3.比分检验(scoretest)

以未包含某个或几个变量的模型为基础,保留模型

中参数的估计值,并假设新增加的参数为零,计算似然函

数的一价偏导数(又称有效比分)及信息距阵,两者相乘

便得比分检验的统计量S。样本量较大时,S近似服从自

由度为待检验因素个数的?2分布。

上述三种方法中,似然比检验(与之前的类似)

最可靠,比分检验(logistic回归模型特有)一

般与它相一致,但两者均要求较大的计算量;而

Wald检验(相当于广义的t检验)未考虑各因素

间的综合作用,在因素间有共线性时结果不如其

它两者可靠。

概率p值均小

于0.05,说明

方程有意义。

对所拟合模型的假设检验:

变量筛选

Logistic逐步回归变量筛选的过程与线性逐步回归变量筛选的

过程极为相似,但其中所用的检验统计量不再是

F

统计量,

而是似然比统计量、

Wald

统计量等。

例如使用似然比统计量,即利用

()()

102[lnln]

llGLL??

,在进行

到第

l

步时,通过比较含有

jX

和不含

jX

的模型,决定

jX



否引入模型。

与多元线性回归类似,标准化偏回归系数可以

比较各因素作用的相对重要性。

?例某工作者在探讨肾细胞癌转移的有关临床病理因素

研究中,收集了一批行根治性肾切除术患者的肾癌标

本资料,现从中抽取26例。试用logistic回归分析筛选

出于癌细胞转移有关的危险因素(变量选入和剔除水

平均为0.10)。

表15-4与肾细胞癌转移有关的因素及说明

符号说明

1X



确诊时患者年龄(岁)

2X



肾细胞癌血管内皮生长因子(VEGF),阳性表述由低到高共3级

3X



肾细胞癌组织内微血管数(MVC)

4X



肾癌细胞核组织学分级,由低到高共4级

5X



肾细胞癌分期,由低到高共4期

Y

肾细胞癌转移情况(有转移Y=1;无转移Y=0)



用逐步回

归法拟合

模型,变量

选入和剔

除水平均

为0.10

指定选项“des”是为了

按照y=1(有转移)的

概率拟合模型。如果

不加此选择项,则软

件会按照y=0(无转移)

的概率拟合模型,此

时,应变量的排序水

平发生颠倒,且所有

参数估计的符号相反,

OR值为原来的倒数。



logistic逐步回归分析筛选出两个有统计学意义的变量为x2和

x4,回归系数分别为2.4134和2.0963,比数比分别为11.172和

8.136。结果中还给出了标准化偏回归系数,肾癌细胞核组织

学分级(x4)在引起癌细胞转移中的危险性大于肾细胞癌血

管内皮生长因子(x2)。

条件Logistic回归

对配对/比调查资料,应该用条件Logistic回归分析。

对于配比资料,第i个配比组可以建立一个Logistic回归:

假设自变量在各配比组中对结果变量的作用是相

同的,即自变量的回归系数与配比组无关。

配比设计的Logistic回归模型

其中不含常数项。

i1122logitP=bkkbxbxbx???????

1122logitP=bkkxbxbx??????

?可以看出此回归模型与非条件Logistic

回归模型十分相似,只不过这里的参

数估计是根据条件概率得到的,因此

称为条件Logistic回归模型。

?条件Logistic回归的回归系数检验与分

析,和非条件Logistic回归完全相同。

1.疾病(某结果)的危险因素分析和筛选

用回归模型中的回归系数(βi)和OR说明

危险因素与疾病的关系。

适用的资料:

前瞻性研究设计、病例对照研究设计、

横断面研究设计的资料。

三类研究计算的logistic回归模型的β意义是一致。仅常

数项不同。(证明略)

logistic回归的应用

2.校正混杂因素,对疗效做评价

在临床研究和疗效的评价,组间某些因素构

成不一致干扰疗效分析,通过该法可控制非处

理因素,正确评价疗效。

3.预测与判别

预测个体在某因素存在条件下,发生某事件

(发病)的概率,为进一步治疗提供依据。

问题3

如同logistic回归,probit分析依赖于将二分因变量上的回

归转化成连续因变量上的回归。给定经历某事件或者具有某

特点的概率,预测的probit变成了一个由一个或者多个自变

量所决定的线性方程的因变量:

Z代表了利用累积标准正态分布将概率转为z分数的非线性转

化。通过用一个线性方程来预测z分数,probit分析暗含了一

个与概率的非线性关系,与曲线的极限比,因变量在接近曲

线中点时对概率有更大的影响。

i01iZbbX??

在logistic回归中我们可以利用简单的公式来总结将概率变成比数对数

的转化以及比数对数变成概率的转化。对于probit分析,标准正态分布曲

线的复杂公式让这一切难度更大(尽管用计算机可以很容易得到)。

除了logit与probit转化当中的一些相似性,它们两个所得出的系数会

有一个随意的常数(约1.8)的区别。(由于软件程序中probit分析将误

差项的标准差定为1,而logistic分析将误差项的标准差大约定为1.814)

logitic系数大约是probit系数的1.8倍,将logistic系数除以这个值可以让

二者的单位具有可比性,但是由于logistic和正态曲线不同,所以logitic

系数和probit系数依然会有小小的不同。但是基本上,logistic分析和

probit分析得出的结果在本质上都是相似的。

与logistic回归一样,probit分析也利用最大似然估计进行参数估计,

且估计过程与logistic回归一模一样。但与logistic回归不同的是,这里

使用的是累积标准正态分布所以不能从自变量和估计参数得到因变量的p

值。且为了计算更简单一些,程序是让似然数的自然对数取最大值而非让

似然函数取最大值。

系数含义及对整个模型的评估和检验与logistic回归的内容大同小异

probit分析与logistic回归只是因变量的

转化方式不同以及因此产生的细小差异

?Logistic回归(因变量为二分变量/二项分布)

?probit回归

?Poisson(因变量为poisson分布)

第三章:横截面数据:因变量为分类变量及因

变量为频数(计数)变量的情况

概念

Poisson回归:

用来为技术资料和列联表建模的一种回归分析。泊松

回归假设反应变量Y是Poisson分布,并假设它期望值的

对数可被未知参数的线性组合建模。Poisson回归模型有

时(特别是当用作列联表模型时)又被称作对数-线性模

型。

?????e

kkyP

k

!)(

分类数据表现为离散的计数,服从Poisson分布

因变量Y服从Poisson分布,期望值为

(Poisson分布变量的方差也是)

如果有一个解释变量x,可以写出如下回归模型:

这里g是一个连接函数(linkfunction),通常取

log函数,因此得到对数线性模型

可写成:

?

?

01()gx?????

011log()x?????

011xe?????

?Poisson回归模型是描述服从Poisson分布

的目标变量y的均数与协变量关

系的回归模型。

?对数线性模型

?解释变量xi增加一个单位,增加

y?mxx,....,1

nnxxg????????...)(110

nnxx????????...)log(110

nnxxe????????...110

?ie?

?单位率的模型可写作

?N称作偏移(offset),log(N)被用做偏移量;当所有

协变量都无作用时,等于N

nnxxN???

?????...)log(

110

011...nnxxNe????????

011log()log()...nnNxx?????????

?

Poisson分布下模型的似然函数

对于低发生(病)率的开放性队列研究资料,由

于di服从Poisson分布,其概率函数为:

其中di是随机变量,可取值为di=1,2,…,其期望发

生数?i=nihi()。回归模型的似然函数为

Poisson分布条件下各个格子概率函数的总概率

(积)。

L(?)=

!i

d

i

id

epii????

!

)()(

11i

hnd

ii

n

ii

n

id

ehnpiii?

??

???

?,iX

参数估计

两侧取对数,回归模型的对数似然函数为:

lnL(?)=

对数似然函数中的未知参数可以用迭代

重复加权最小二乘法(简称IRLS法)估计,

它与通常的极大似然估计结果一致。

也可用极大似然估计法

)},(_)),(ln({??iiiiiiXhnXhnd?

模型拟合度与参数检验偏差统计量

?Poisson回归模型拟合好坏用偏差统计量

(deviance)表示,偏差统计量实际上是对数似然

比统计量,它是饱和模型(saturatedmodel)和拟

合模型对数似然值差的两倍,其在Poisson分布条

件下的计算公式为:

2?=2(ln()())

?

i

iii

i

dGdd?

????

参数检验

参数检验可通过两个包含不同参数个数模型的

偏差统计量G2的差(?G2)和自由度的差(?df)来

实现,当?G2>时,P<0.05,该参数(因素)有统计

学意义。

?G2

))(ln)((ln2

))(ln)((ln2))(ln)((ln222

rkk

rkkrkk

LL

LLLLGG

?

??

???

???????

??

????

Poisson回归实现(Genmod过程)

Genmod过程:通过对参数向量进行最大似然

估计来拟和广义线性模型,采用迭代拟和过程估计

参数的值。

GENMOD过程用于广义线性模型分析。广义线性模

型是传统线性模型的的延伸,它的总体均数通过一

个非线性连接函数依赖于线性预测值,反应变量

(误差项)的概率分布为指数分布族中的任何一员。

有许多广泛应用的统计模型都属于广义线性模型,

包括带正态误差的经典线性模型、Logistic回归模

型、概率单位模型和对数线性模型等。

?

?例:英国男性医生冠心病死亡与抽烟关系研究的资

料,请推断冠心病死亡与抽烟、年龄是否有关

观察号死亡数

death

观察单位

n

年龄

age

抽烟

s(1抽0不抽)

132523071(35-44)1

2104432482(45-54)1

3206286123(55-64)1

4186126634(65-74)1

521879010

6121067320

728571030

828258540



?程序exam2:

procgenmod;

modeldeath=agesmoke/dist=poissonlink=logoffset=ln;

run;

?结果

CriteriaForAssessingGoodnessOfFit

CriterionDFValueValue/DF

Deviance522.91034.5821

ScaledDeviance522.91034.5821

PearsonChi-Square520.54684.1094

ScaledPearsonX2520.54684.1094

LogLikelihood2271.8051

?拟合优度,p<0.05,说明此组数据不

符合所拟合的模型

?可能原因:age对目标变量的作用是不均匀的,

需作为定性变量处理。

?程序:

procgenmod;

classage;

modeldeath=agesmoke/dist=poissonlink=logoffset=ln;

run;

222.910??



献花(0)
+1
(本文系勤悦轩首藏)