Logistic回归曲线的学习 1（转）

gakevin 2010-11-02

展开全文

Logistic回归曲线的学习 1. 临床应用

　　（1）因素分析：可用于相关因素的筛选，并确定其作用大小（主要因素、次要因素）。

　　（2）预测预报：若已知x1, x2 xm数值大小, 通过模型可以预测某种结果出现的概率。用卡方检验（或u检验）的局限性：只能研究1个危险因素；只能得出定性结论。

　　（3）研究某种疾病或现象发生和多个危险因素（或保护因子）的数量关系。

　　2. 应用条件：

　　（1）各观察对象间相互独立：（如研究初中同学的吸烟情况，则各个个体之间不是独立的关系，因为吸烟会互相影响）、

　　（2） logit P与自变量呈线性关系（判断自变量严格说来，应用logistic回归之前必须先检验自变量与logit P之间是否具有线性关系，因为如果两者之间的关系是非线性的，参数估计将发生偏差，从而导致结果的不准确以及结论的不可靠。但在111篇应用logistic回归的文章中却无一篇提及自变量与logit P之间的线性关系问题，说明这是一个很容易被忽视的问题，在实际应用中应引起注意。判断自变量与logit P之间是否具有线性关系，可用多种方法：比较简单的一种方法是在模型中加入非线性项，如卡方，Ln X等，使线性模型变为非线性模型，通过比较非线性模型与线性模型的优劣来判断是否应加入该非线性项，从而判断出自变量与logit P是否有非线性关系。还有其他较复杂但更为准确的方法，如将连续变量分为几组，然后用虚拟变量代表这些组别，并以最低的一组作为参照组，然后再用这些虚拟变量代替原先的连续变量，并重新估计模型。具体方法可参考有关文献。

　　（3）变量间的共线性问题

　　（4）分类变量的数量化：变量的编码要易于识别，注意编码的顺序关系，改变分类变量的编码，其分析的意义应不变。

　　（5）名义变量引入回归分析，必须进行数量化。如，血型有A、B、O、AB，分别赋值0，1，2，3。但是0，1，2，3代表的实际意义又不是由小到大的关系。所以这在回归分析中直接使用是错误的。对于有序变量，如轻、中、重，则要酌情考虑。如果样本量足够打的话，也进行哑变量化，这样可以得到不同级别的差异。但是如果样本量不够大，哑变量化造成变量数目上升，使回归结果变得不可靠，只能适得其反。

　　（6）我觉得：如果定量变量不呈共线性关系，可按照临床意义将其赋值为分类变量，如乳腺癌的大小，可以按照小于2cm，2~5cm或大于5cm分组。另外，对于性别的赋值，一般为0和1。对于边界等的赋值可以按照0/1赋值，如边界清晰为0，边界不清为1。病情轻重的赋值，一般轻者为0，重者为1。但是，也有人按1/2/3赋值，或者按照-1/0/1赋值。似乎对结果没有明显的影响。对于因变量，一般赋值为0/1。一定要注意编码的顺序（如，甲状腺回声按照无回声、极低回声、低回声、等回声依次编码1/2/3/4/5的话，可能得不到统计结果，因为无回声的恶性程度最低，而极低回声的恶性程度最高，这时可能需要重新编码或者将其按照哑变量处理）。

　　（7）我觉得：关于哑变量。对于多元无序变量，应该按照哑变量处理。对于病情轻重中，如果病例数足够，也应按照哑变量处理（有出处）。典型的哑变量如A.B.O血型，肝炎的分类（甲乙丙丁等）。文献里看到有人研究不同的血流分布类型，也将其按照哑变量处理。在本文甲状腺的研究中，钙化和回声是多元无序变量（似乎也可以作为一定程度上的有序），按照哑变量处理和不按哑变量的处理结果类似，所以我没有按照哑变量做（也可能是由于我已经按照顺序编码了）。因素变量名赋值说明年龄(岁) X1 <45=1, 45~54=2, 55~64=3, 65~=4 高血压史 X2 无=0, 有=1 高血压家族史 X3 无=0, 有=1 吸烟 X4 不吸=0, 吸=1 高血脂史 X5 无=0, 有=1 动物脂肪摄入 X6 低=0, 高=1 体重指数(BMI) X7 <24=1, 24~<26=2, 26~=3 A型性格 X8 否=0, 是=1 冠心病 Y

　　对照=0，病例=1 3. 回归的方法：method：

　　1、Enter：所有自变量强制进入回归方程； 2、Forward: Conditional：以假定参数为基础作似然比概率检验，向前逐步选择自变量；

　　3、Forward: LR：以最大局部似然为基础作似然比概率检验，向前逐步选择自变量；

　　4、Forward: Wald：作Wald概率统计法，向前逐步选择自变量；

　　5、Backward: Conditional：以假定参数为基础作似然比概率检验，向后逐步选择自变量；

　　6、Backward: LR：以最大局部似然为基础作似然比概率检验，向后逐步选择自变量； 7、Backward: Wald：作Wald概率统计法，向后逐步选择自变量。建立模型后的检验：我觉得：除Enter强制各变量进入回归方程外，各种统计方法的结果都很类似。似乎应用较多的是"向前LR"和"向后wald"法(为计算方便，通常向前选取变量用似然比或比分检验，而向后剔除变量常用Wald检验)。对于文献上经常提到的"stepwise regression"，我觉得是这些方法的总称。 4. 对于样本量的要求：Logistic回归统计推断是建立在大样本基础上的，要求有足够的样本量。样本含量不宜太少：例数大于200例时才可不考虑参数估计的偏性。经验上病例和对照的人数应至少各有30-50例，模型中变量个数越多，需要的样本含量越大。一般情况下，样本量应为变量数的10倍以上。

　　5. 我觉得：对于变量的选择，阅读文献后发现，在进行多因素logistic回归前，有部分文献先进行了单因素logistic回归或者单因素分析，找出有意义的变量后在进行回归分析。但是也有文献并没有这样做。综合考虑，可能是在病例数足够时就不需要事先进行单因素分析。另外，我觉得在病例量足够时，事先删除单因素分析无意义的变量也不一定好。比如本文，虽然单因素分析显示"边界"在良恶性组之间无差别，但是多因素logistic分析显示，边界是一个有意义的变量。

　　对于，什么是单因素logistic回归，我上网查了也没有共识。我认为单因素logistic就是指单因素分析。可以得出两种表格：

　　表格1：组别结节数纵横比边界声晕钙化 ≥1 <1 清晰不清晰无规则不规则无微钙化非微钙化良性 16 42 41 17 36 0 22 19 36 3 恶性 7 54 41 20 58 3 0 50 4 7 χ2值 P值 <0.001 0.682 <0.001 <0.001 表格2：这两个表格都可以通过analysis-description-crosstab，得出来。勾选"chi-square"和"risk"。 6. 选择变量进入LOGISTIC回归模型的方法可以归纳如下：（1）选择单因素分析中所有统计学显著性检验水平小于或等于0.25的变量。（2）根据前人经验引入可能有生物学联系的变量。（3）使用逐步logistic回归模型来选择自变量，常使用0.25或者0.5作为筛选进入模型的P值。 7. 做出回归公式后，还应对模型回归系数整体的检验，对模型拟合优度的检验，对模型中单个回归系数的检验。下面分开介绍。8. 对模型回归系数整体的检验：理论上有三种方法：（似然比检验，计分检验，wald检验），以上三种方法中，似然比检验最可靠，比分检验一般与它相一致，但两者计算量均较大；而Wald检验未考虑各因素间的综合作用，在因素间有共线性存在时,结果不像其它两者可靠。文献里常用的是"对整个模型的拟合情况采用似然比检验"，"对上述模型进行似然比检验，具有统计学意义（x2=404.122，P<0.001）"。

　　但是，我在SPSS里不会操作。YH说：下表为全局检验（模型系数的全局检验），对每一步都作了Step、Block和Model的检验，可见6个检验都是有意义的。在借的统计书里看到spss6.0只有"Model Chi-square ，df，Sig"一栏，意义是："此回归方程有意义，即有必要成立"。

　　对模型拟合优度的检验：我们需要LOGISTIC回归进行拟合优度检验。拟合优度检验是logistic回归分析过程中不可缺少的一部分，拟合的效果好，所作出的结论才更符合事实，若拟合的不好，预测值与实际值差别较大，得出的结论是不可靠的。评价模型拟合优度的指标主要有pearson，卡方，偏差，Hosmer-Lemeshow指标，Akaike信息准则（AIC），SC指标等。当自变量增多且含有连续型变量时，用HL指标更为恰当。HL指标值服从卡方分布，卡方检验显示无统计学意义（P）0.05）表示模型拟合的较好。但是大部分指标我在spss不会操作。Hosmer-Lemeshow指标可在"option"中勾选，其值越大越好。

　　YH说：拟合优度信息指标：-2 ln L等，值越小，拟合效果越好（但是，这个-2 ln L代表哪个指标？）。广义决定系数R2（Cox-Snell R2、Nagelkerke R2）：指标越大，说明变异中被模型解释的比例越大，模型预测的准确度越高。预测准确率（predicted percentage correct）也可以间接判断模型的拟合程度。

　　9. 对模型中单个回归系数的检验：

　　文献中使用的是"对各回归系数的Wald x2检验显示，P值均小于0.05"。6.0spss统计书写："表的最下面，有一个统计量Wald，它是用来对logistic回归方程中的系数为零的无效假设做显著性检验，本例中，X2的wald值3.713，对应P=0.044，有显著性意义"。（我的理解是P小于0.05即代表这个系数不为0，有其存在的意义）。应该注意，有的时候会出现回归系数很大，但是标准误很大，而Wald值很小的令人不愉快的情况；不管怎样，此时我们应该考虑该自变量加入回归方程，是否引起Chi-square值的明显增加（应该是方程的Model Chi-square ，df，Sig一栏）。

　　10. 因素作用大小的比较：一些作者经常通过比较OR值的大小来间接比较不同因素对应变量影响的大小。这是不合适的，一般情况下，Logistic回归模型各个自变量的OR值不可以直接进行比较。这里说的一般情况是指对自变量未进行标准化时，此时各变量的单位不一致。因此为了使各个自变量的OR值之间能够具有可比性，应在拟合模型之前对所有变量进行标准化，然后对标准化的偏回归系数进行比较。这一步我还不会做，看Z大夫的乳腺文章也没有标化。我觉得是不是如果大都是分类变量，则不用考虑标化？

　　11. Logistic模型的曲线下面积：非常好算！！勾选save里的"predicred value"里的"probilities和group membership"，则会发现spss原始数据里新增了两列，一列为预测的P值，另一列是按照预测P值对该病例的诊断。 12. 还可做做logistic回归模型拟合情况散点图，在散点图里将纵坐标选为"预测P值"，set markers by "病理良恶性"，就可以看到大多数病例都被正确诊断了。 13. Correct percentage里默认的预测P值的cutoff值是0.5，然后得出的诊断敏感性和特异性。事实上，可以根据自己不同的需求建立cutoff值，在option里可以改。根据ROC曲线计算Youden指数（即敏感性+特异性-1）后，得出的最佳阈值可能不是0.5，而且诊断准确性可能还会提高。（但是大多数文献都没有再重新建立cutoff值，有两篇文献重新建立了。）

　　14. 统计语言的描述：logistic的应用：乳腺ca：以病理结果良恶性作为应变量，将上述超声特征作为自变量进行向前似然比法回归分析，建议logistic模型（纳入标准P<0.05，排除标准P>0.1））对回归参数估计值采用wald 卡方检验，对整个模型的拟合情况采用似然比检验，并用ROC曲线法评价LOGISTIC模型的预报能力，P<0.05认为差异具有统计学意义。

　　15. β是方程里的参数，eβ即exp（B）是OR。

　　16. 自变量之间的相关性可以看"关系表"，在option里可选择列出。

　　总结：

　　还不会的内容： 1. 如果设立了哑变量，如何写公式？

　　2. OR的标化。

　　3. 是否一定要求各自变量互相独立？似乎不需要。