很多人在做多因素分析的时候,往往都按这种方式:首先把所有因素挨个做个单因素分析,然后单因素分析有意义的变量,再放到多因素分析中,最后得到一个多因素分析模型。然后完事,发表文章。当然,在单因素分析的那一步,有的人用0.05作为水准,P小于0.05的变量纳入多因素;有的则以0.1或0.15、0.2等为水准,P小于0.1或0.15、0.2的变量才纳入多因素分析。 无数人都曾问过我这个问题:我先做单因素分析,再做多因素分析,这种做法对吗?或者说:别人发表的文章,全都是这么做的,所以我也这么做。 那么,这种方式到底对不对?我们今天就来讨论一下。 首先,公布答案:没有所谓对不对。也可以说对,也可以说不对。注意这里我不是打禅机,也不是卖关子,而是确实如此。其实,严谨的说法就是:具体问题具体分析,有时这么做没问题,有时会有问题。但有一点是很明确的:决不能死板地完全按这一规则来分析。 可能你现在还不是很明白,我们通过一个例子来说明。 有1个因变量y,4个自变量a、b、c、lx,假定我们更关注lx这个变量,但其他变量也关心(我想临床医生应该明白我在说什么。很多情况下,临床医生虽然说是筛选危险因素,其实心里还是有倾向性的,更希望自己心目中的变量有意义)。先看单因素分析结果如下: 看到这里,估计有的人心里就得咯噔一下,心里最希望的变量lx,偏偏没有统计学意义。如果按常规的思路,单因素分析的P值这么大,无论如何也入选不了多因素分析。通常我们会在单因素分析中把检验水准稍微设的宽松一些,但除非这里设到0.3,否则即使在0.25的检验水准上,依然无统计学意义。 那是不是说,我们后面就把a、b、c三个变量纳入多因素分析,不管lx这个变量了呢? 先别着急,我们先不管单因素分析结果,直接把4个变量都放入多因素分析,看看结果什么样子: 是不是有点震惊和意外之喜?本来都不抱希望的变量lx,在多因素分析中竟然有统计学意义了!世界观都要塌了是不是?老师教我们的“先做单因素,有意义的再做多因素”这条规则到底靠不靠谱了? 本例中,如果按我们传统的思维,“先做单因素,有意义的再做多因素”,变量lx根本连进入多因素分析的资格都没有,更谈不上有没有什么统计学意义了。然而,如果抛开这个规则,全部都纳入,结果lx变得有统计学意义了。 那问题来了,到底要不要遵循这一默认的规则(是不是有效,那是另一回事,但确实非常多的人都在遵循这一规则)?关键是,这是不是意味着:以往我们发表的文章,里面也可能有这种情况存在呢?那到底有多少数据因为完全遵循这一规则而没有发现本来应该有意义(却没有发现有意义)的变量呢?多少的变量因为在单因素分析中没有统计学意义(有可能在多因素分析中有意义)而被无情地抛弃了? 所以,统计分析是没有什么太多规则的,决不可墨守成规,如果真要说一个规则,那只有一个,就是:具体问题具体分析。每一份数据都有自己的独特性,都有自己的结构和特点,即使研究目的、研究变量完全一样,也不见得采用的方法应该都一样。如果你实在搞不懂,而这份数据的分析又很重要,那一定要去找统计学家合作。 往往很多人觉得,回归分析嘛,很简单,软件里面一放,就出来结果了。然而,这也是软件带来的最大弊端,能给你结果,但不保证给你真实的结果。那怎么办呢?如果一项研究前期花了你很多精力、金钱、时间,那千万不要吝啬最后的一点时间、金钱,一定要去找统计学家合作,让他来帮你仔细分析。否则,往往你觉得结果已经出来了,实际上只是一个错误的结果。 可能很多人想了解的是:为什么会这样?我到底应该怎么注意?实际中什么时候可以按”先做单因素,有意义的再做多因素“这种思路来分析,什么时候不应该按这种思路来分析?这个问题,我先卖一个关子,留到下一篇文章中详细解释。为什么呢?我希望大家先思考一下,而不是简单地看答案。 当然,为了让感兴趣的读者能够仔细考虑这一问题,我把数据放在后面,下面这5个变量,依次是a、b、c、lx、y。有兴趣的朋友可以copy下来自己分析一下试试。
|
|