临床研究中还存在另外一种情况。先看一个具体例子:为了研究老年患者颅脑手术后发生死亡的危险因素,研究人员总结出了以下几个可能的危险因素:年龄,肿瘤的性质,高血压,心功能不全,糖尿病。那么,在这些可能的危险因素里面,哪些是真正有危险的?并且,哪种危险因素的危险性最高呢? 这里要注意到的是:与上两回的例子不同的是,这里的数据都是分类变量。因变量的取值仅有两个:死亡与生存。自变量的取值也仅有两个:如肿瘤的良性与恶性,高血压的有与无。这时候,就要用到另外一种重要的回归分析方法:Logistic回归分析。 Logistic回归是一种概率分析,即分析当暴露因素为x时,个体发生某事件(y)的概率的大小。Logistic的方程式为y=β0+β1X1+β2X2+…βmXm。怎么样?看着眼熟吧? β1,β2…βm称为回归系数,反映了在其他变量固定后,x=1与x=0相比发生y事件的概率
童鞋们不必深究OR是什么。只要记住OR越大,发生结果的可能性越大。因为这类资料是分类资料,所以在做Logistic回归分析之前的第一件事就是赋值。顾名思义,就是把分类资料赋予一定的数值。一般赋予0或者1的数值。阴性或者较轻的情况赋予0;阳性或者较重的情况赋予1。如下表所示。
赋值完成之后,就可以正式开始Logistic回归分析了。我们还是以最常用的统计学软件SPSS为例,得出的结果如下表所示。 ![]() 红圈标注的数字,就是Logistic的方程式中的β0和回归系数。把相应的数字代入方程式,就可以得出Logistic回归方程式:y=-9.561+0.098X1+0.066X2+0.058X3-1.013X4+0.075X5。那么,如何判断在这些可能的危险因素里面,哪些是真正有危险的?这就需要看紫圈标注的数字,如果p﹤0.05,就认为是真正的危险因素;如果p﹥0.05,就认为不是危险因素。这个例子里就是心功能不全。另外,如何判断哪种危险因素的危险性最高呢?那就要看蓝圈标注的最后一列数字。这列数字其实就是OR。数值越大,表明发生结果的概率越大。在这个例子里面,年龄的危险性最高。 另外,Logistic回归分析对样本量是有一定要求的。这里,算盘教大家一个简单的估算方法:样本量为自变量个数的10倍。在本文的例子中,有5个自变量,那么就要有至少50位患者的数据,才能进行Logistic回归分析。 必须注意到的是:Logistic回归分析要求应变量为分类变量(如本文例子中的生存/死亡)。但是,自变量并不一定非要是分类变量。它们也可以是连续变量和等级变量。本文的例子中采用了分类变量,只是为了方便举例。 |
|
来自: 井里的怪兽 > 《logisitic回归》