分享

95%置信区间与P值结果竟然矛盾?

 zpdeng 2016-06-12

 引言 

空格回归分析中,P值与95%置信区间(CI)的结果矛盾,即P<0.05,但95%置信区间却包括0或1(β包括0或者OR包括1等);或者P>0.05,但95%置信区间却不包括0或1。上述情况,你们遇到过吗?没见过的朋友不用担心,科研的道路还长着呢~


 举例 

空格小编就不幸遇到过一回,下面是某研究中Logistic回归多因素回归分析的结果。大家可能都注意到了,B因素的P值是小于0.05的,而95%置信区间却又包括了1(本来不应该包括1的)。会不会是统计软件有漏洞?还是其他原因呢?

因素

OR

95%置信区间

P值

A

0.08

0.004, 0.403

0.015

B

5.42

0.786, 23.052

0.039

C

2.17

0.749, 5.833

0.133

D

11.91

0.408, 213.866

0.095

E

1.00

0.997, 1.000

0.121

F

0.56

0.301, 1.049

0.065

空格对于上面矛盾的结果,如果不希望作太大的改变,若在R软件中,选择近似正态的估计方法(asymptotic normality)计算置信区间,此时应该不会出现矛盾的情况。而一般情况下,软件采用的是边际似然估计方法(profile likelihood),可能出现矛盾的情况。代码分别为confint.default(fit)和confint(fit)。


 可能的原因 

空格当然,矛盾情况的出现,不是软件的问题,因为在我们统计界,P值是有争议的,所以出现这种情况也为正常情况。但是P值的地位也不应该毁在我这个简单的例子中,那么出现矛盾的原因是什么呢?

空格在单因素和多因素回归中都可能出现矛盾的情况,但一般情况下,它很难发生,因为P值和95%置信区间一直都是模范夫妻(两者具有一致性)。以Logistic回归为例,可能的原因如下:


1. 分类不均衡

空格自变量为分类变量时,可能存在病例组或对照组该分类变量某一类的例数特别少的情况,如婚姻状况:未婚100人、已婚89人、离异1人。此时,很有可能会出现95%置信区间特别宽而包括1,而P值却<0.05。这是最容易出现矛盾情况原因。针对这个情况,我们可以合并例数少的类别,如本例中可以将未婚和离异合并成一类。如果因为只有两类、所有类别例数都较少、专业判断等情况无法合并时,对于Logistic回归,我们可以尝试精确Logistic回归进行估计。需要注意的是,精确估计的方法有时会出现95%置信区间无穷小或无穷大的情况,此时不建议使用该方法或者想办法增大例数。下面提供SAS和R代码:

SAS代码:

proc logistic data=data;

  model y/n=A B C D E F;

  exact B/estimate;

run;


R代码:

library(elrm)

model=elrm(y/n~A B C D E F), interest=~B, iter=22000, burnIn=2000, data=data)

summary(model)


2. 多重共线性

空格多重共线性会产生较大的标准误,导致回归分析中P值增大,通常会出现P>0.05,虽然标准误的增大,也会使OR的95%置信区间变宽,区间上限或下限特别接近1,但却不包括1。针对这个情况,逐步回归筛选变量的方法一般都能避免。此外,我们还可以设法将彼此高度相关的自变量先综合成新的自变量,再纳入回归方程。


3. 样本量太小

空格如果上述两种方法都进行了尝试,还是存在矛盾的情况,很有可能就是样本量太小引起的。样本量太小导致估计结果不稳定,产生大的标准误,使本来可能有意义的变量变得无统计学意义。那么,在Logistic回归中,到底多大的样本才算合适呢?根据统计咨询的经验,一般是每一个自变量至少需要10例的结局。注意,这里说的结局例数不是整个样本的例数。例如,Logistic回归中自变量总共有5个,若因变量是幸福与否(1=幸福,0=不幸福),那么研究中需要有至少50个人是幸福的。


其他原因我们有待我们共同探讨!


仅供参考!


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多