统计小食系列 1 t检验一定要求正态分布吗? 对于成组设计的t检验,一般存在着两种观念。第一,各组样本均来自于正态分布的总体。一般可通过正态性检验来进行判断,比如采用Shapiro-Wilk检验方法,如果至少一组P<0.05,则被认为正态性不符合,差异性比较采用秩和检验;第二,根据中心极限定理,无论样本来自何种分布,只要样本量足够大(一般认为样本量大于50即为足够大),其样本均值均近似服从正态分布。因此样本量较大时,完全可以忽视正态性问题,仍然可以采用参数检验方法。上述两个观念相互矛盾,令统计分析人员非常困惑。 郑老师认为在统计实践中,可以采用更灵活的办法来应对正态性问题。 若数据正态性检验显示是偏态分布,就不能用t检验吗?不见得。Shapiro-Wilk 正态性检验同其他方法料相似,P值受样本量影响较大。即使数据几乎呈完美的正态分布,若样本量较大,P值仍然可能<0.05,反之若样本量较小,则很容易得到P>0.05结果。因此,统计分析不能完全依赖正态性检验结果。另一方面,大样本数据是否可以忽略正态性问题?这种观念是不正确的。大样本数据,虽然样本均数仍呈现正态分布,t检验本身方法学没有问题,但由于该t检验是基于样本均数开展的统计推断,而严重偏态分布的数据采用均数描述非常不严谨,因此t检验的结论也无法反映两组数据总体分布的差异性。 真实世界中严格的正态分布数据几乎不存在,由于t检验以及统计描述时的均数和标准差的结果更为普通大众熟识,一般情况下,一定程度的偏态分布(甚至P<0.05),t检验结果仍然可以被接受,其检验效能仍然不低于秩和检验。 2 正态性判断的统计实践方法 郑老师认为,在实践中,正态性检验的方法是一种参考的方法,但它并不能扮演决定性角色,应结合直方图或者Q-Q图进一步的分析。两者方法结合,可以将数据分为正态、近似正态与严重偏态三种形态。 若正态性检验P>0.05,且直方图或Q-Q图显示正态分布形态者,可采用参数检验方法。若数据大致呈现中心多、两边少的,左右大致对称分布者(近似正态分布),即使假设检验P<0.05,t检验和F检验仍然可以使用。当然,需要注意的是,虽然呈现近正态分布,但是当该指标(例如肿瘤患者生存时间)理论上呈明显偏态分布时,不推荐使用t检验,应采用非参数检验方法。若数据分布是严重的偏态分布,必须使用非参数检验方法。 不过,很多人提出一旦呈偏态分布,是否就可以采用非参数秩和检验?没有错,从方法严谨性是没有任何问题,不过统计分析没有所谓100%正确的方法,只有适合的统计策略。对于近似正态分布的资料,选择非参数与参数均可,统计分析时可以考虑何种方法更具有可行性。 3 医学数据分析t检验的个人分析习惯 是否采用t检验,要看其指标理论上是何分布,直方图形态是否大致中间多或者两边少,观其是否极端异常值;正态性检验是辅助的作用。 以下本人的分析习惯,仅供参考:
系列撰写者:郑卫军,浙江中医药大学医学统计学教研室主任。这里不妨广而告之,如果您有一个临床试验项目,正处于设计阶段,并且已经或者将要过医院伦理委员会审核,不妨联系郑老师统计团队,我们可以帮助您更好的改善临床试验。支持郑老师, |
|