正态性检验与判断 数据分析时需要执行的关键步骤之一是判断数据的正态性(Normality)。
统计分析拿到数据后,首先,研究者找到研究的目标变量,特别是主要结局指标(Primary outcome)。接着,评价结局指标是何种类型的(定量还是定性或者等级)。如果是定量数据,正态性则是接下来需要研判的内容了。数据可根据变量的属性分为正态分布数据和偏态分布数据。此外,在实际分析中,我们往往会将数据其分为正态分布数据、近似正态分布数据和严重偏态分布数据。正态分布还是非正态分布的研判非常重要。统计分析时,如果变量值呈正态分布,统计描述采用均数±标准差,假设检验可采用t检验、F检验;如果变量值呈偏态分布,则要采用中位数(四分位数间距)[M(IQR),或M(P25,P75)], 假设检验方法上,非参数检验更合适。 将出生28天的20只大鼠随机分成两组,分别饲以高蛋白和低蛋白饲料,8周后观察其体重(g)。问两种不同饲料组别的大鼠体重正态性情况如何?数据见数据库weight.sav.
高蛋白组:133,145,112,138,99,157,126,121,139,106,115低蛋白组:118,75,106,87,94,110,102,124,130本案例由几个变量组成?研究的关键变量是什么?是什么类型的数据?本案例包括2个变量,一个是大鼠体重(g),另外一个是分组变量(高蛋白组和低蛋白组)。主要研究的结局指标是大鼠体重,定量数据。 数据的正态性问题,可从两个层面来探讨。第一个层面是所有大鼠体重值放在一起的整体正态性,另外一个层面是高蛋白组和低蛋白组两组数据各自正态性。前者我称为单样本正态性,后者为两样本正态性。 
① 因变量列表(dependent variable):这一选框选入检验变量、或者结局变量(是希望去探讨的目标变量) ② 图:见下图: 
① 茎叶图和直方图,两者都√上。特别是直方图,可以直观地看出数据的分布形态。 ② 含检验的正态图:这一选项即进行正态性检验。 SPSS提供两种正态性检验结果,分别是柯尔莫戈洛夫-斯米诺夫(Kolmogorow-Smironov,KS)检验,另外一个是夏皮洛-威尔克(Shapiro-wilk,SW)。中文翻译起来非常别扭,建议用英文和缩写区别二者。二者结果均有统计量(statistic),df(自由度),显著性(sig., P值)。 划重点:一般小样本(2000以下)选择SW的方法,本例亦是如此。事实上,可能大部分研究正态性检验选择SW检验方法。正态性检验最重要的是看“显著性”。第一,这是我们全课程第一次出现“显著性”字样,英文为significance,缩写sig.。第二,显著性的值即为P值。P值是统计分析最重要的结果之一。第三,如果P值<0.05,不能叙述为“具有显著性意义”,而是“具有统计学意义”。本例P值=1.000,>0.05,没有统计学意义。什么意思?P值是关于H0的论证。本例H0是“该样本所在的总体为正态分布”。P值是在H0成立的情况下,得到本样本以及更极端样本的概率。这话说起来拗口,一种通俗(虽不严谨)理解是,P值代表H0成立的可能性。P=1.000,代表“该样本所在总体是正态分布的可能性为100%”,表明,该样本总体分布特征与正态分布的差异没有统计学意义(P>0.05)。因此,本例结论是,P=1.000>0.05,差异没有统计学意义,还不能说明该样本的总体分布是偏态分布,可以认为该体重正态性是符合的。此外,直方图能够较直观判断数据分布特征。可以看出,体重大致属于中间多两边少的正态分布。 多样本正态性与单样本正态性检验相似,但“探索”界面稍有不同。① 因子列表(Factor variable):这一选框选入分组变量、或者原因变量。本研究分组变量为group(饲料类型),可以分为2组。 ② 图:见单样本正态性检验,此处略 经SW检验,结果为:高蛋白组体重P=0.977,低蛋白组体重P=0.974,没有统计学意义,两组数据正态性均符合。 
正态性检验,特别是SW检验,是统计分析基础的工作,任何时候拿到定量数据,第一反应应是考虑数据的分布,进行探索性的分析,看是否符合正态性。 不过,值得注意的是,正态性检验虽然严谨,实际应用上,可能并不是作为数据正态性判断的唯一依据。特别是较大样本时,P<0.05的正态性检验结果并不能认为就是偏态分布而采用非参数检验的方法。经常有同学问“我的数据正态性检验P<0.05,就不能用均数和标准差描述,不能用t检验和F检验了吗”。其实,也没有不那么绝对。实际统计策略方面,诸位可以将数据分布分为三类:正态分布、近似正态分布数据和严重偏态分布数据。第2类:正态分布不符合,P<0.05,但直方图还是呈现大致的中间多两边少,无严重极端值;第3类:正态分布不符合,P<0.05,数据严重偏态,或者存在明显极端异常值
 第3类数据的正态图:存在严重极端值(左)、严重偏态分布(右)一般情况下,前两类仍然可以用均数及标准差描述,用t检验和F检验进行统计推断,后者须用非参数检验。此外,判断数据正态性的另外一种主观性的思路是,直接看数据的均数和标准差大小。如果一组正态分布的数据观察值全部是正值,一般来说,均数要远远大于标准差。总结来说,判断数据正态性,需要结合直方图和正态性检验,将数据分布分为三大类,在此基础上分别选择不同的统计方法进行统计描述和统计推断。  https://evod./category.html?stationID=1&resourceMode=1&resourceAttr=1&categoryId=183
|