引言 空格回归分析中,P值与95%置信区间(CI)的结果矛盾,即P<0.05,但95%置信区间却包括0或1(β包括0或者OR包括1等);或者P>0.05,但95%置信区间却不包括0或1。上述情况,你们遇到过吗?没见过的朋友不用担心,科研的道路还长着呢~ 举例 空格小编就不幸遇到过一回,下面是某研究中Logistic回归多因素回归分析的结果。大家可能都注意到了,B因素的P值是小于0.05的,而95%置信区间却又包括了1(本来不应该包括1的)。会不会是统计软件有漏洞?还是其他原因呢?
空格对于上面矛盾的结果,如果不希望作太大的改变,若在R软件中,选择近似正态的估计方法(asymptotic normality)计算置信区间,此时应该不会出现矛盾的情况。而一般情况下,软件采用的是边际似然估计方法(profile likelihood),可能出现矛盾的情况。代码分别为confint.default(fit)和confint(fit)。 可能的原因 空格当然,矛盾情况的出现,不是软件的问题,因为在我们统计界,P值是有争议的,所以出现这种情况也为正常情况。但是P值的地位也不应该毁在我这个简单的例子中,那么出现矛盾的原因是什么呢? 空格在单因素和多因素回归中都可能出现矛盾的情况,但一般情况下,它很难发生,因为P值和95%置信区间一直都是模范夫妻(两者具有一致性)。以Logistic回归为例,可能的原因如下: 1. 分类不均衡 空格自变量为分类变量时,可能存在病例组或对照组该分类变量某一类的例数特别少的情况,如婚姻状况:未婚100人、已婚89人、离异1人。此时,很有可能会出现95%置信区间特别宽而包括1,而P值却<0.05。这是最容易出现矛盾情况原因。针对这个情况,我们可以合并例数少的类别,如本例中可以将未婚和离异合并成一类。如果因为只有两类、所有类别例数都较少、专业判断等情况无法合并时,对于Logistic回归,我们可以尝试精确Logistic回归进行估计。需要注意的是,精确估计的方法有时会出现95%置信区间无穷小或无穷大的情况,此时不建议使用该方法或者想办法增大例数。下面提供SAS和R代码: SAS代码: proc logistic data=data; model y/n=A B C D E F; exact B/estimate; run; R代码: library(elrm) model=elrm(y/n~A B C D E F), interest=~B, iter=22000, burnIn=2000, data=data) summary(model) 2. 多重共线性 空格多重共线性会产生较大的标准误,导致回归分析中P值增大,通常会出现P>0.05,虽然标准误的增大,也会使OR的95%置信区间变宽,区间上限或下限特别接近1,但却不包括1。针对这个情况,逐步回归筛选变量的方法一般都能避免。此外,我们还可以设法将彼此高度相关的自变量先综合成新的自变量,再纳入回归方程。 3. 样本量太小 空格如果上述两种方法都进行了尝试,还是存在矛盾的情况,很有可能就是样本量太小引起的。样本量太小导致估计结果不稳定,产生大的标准误,使本来可能有意义的变量变得无统计学意义。那么,在Logistic回归中,到底多大的样本才算合适呢?根据统计咨询的经验,一般是每一个自变量至少需要10例的结局。注意,这里说的结局例数不是整个样本的例数。例如,Logistic回归中自变量总共有5个,若因变量是幸福与否(1=幸福,0=不幸福),那么研究中需要有至少50个人是幸福的。 其他原因我们有待我们共同探讨! 仅供参考! |
|