分享

SAS系列21:SAS统计推断(六)

 松哥精鼎统计 2020-10-23
导读

     系列20我们已经介绍了重复测量资料的方差分析,今天接着介绍定量数据的非参数秩和检验及其SAS实现。实际上很多统计书是按照方法来进行讲解,通常在定性数据的卡方检验之后介绍非参数秩和检验,因为非参数秩和检验不仅适用于不适用于参数检验条件的定量数据,还适用于一些定性数据的分析。在此,我们结合数据分析的实操,就按照定量数据分析的检验方法讲解完成后,再讲解定性数据的检验方法。

二、单变量数据的假设检验





图9-4 定量数据假设检验方法选择

(一)定量数据的假设检验

3.定量数据的非参数秩和检验
       非参数统计(NonparametricStatistics)是数理统计的一个分支,顾名思义,非参数是与参数相比较而存在的,看一个统计问题是参数的还是非参数的,主要看数据所涉及的分布问题。若根据经验或某种理论我们能在推断之前就对总体作一些假设,则这些假设无疑有助于提高统计推断的效率,这种情况下的统计方法称为参数统计(ParametricStatistics)。前面我们介绍的t检验、方差分析就是参数统计方法,或参数检验(Parametric Test)。如果我们所知甚少,导致在推断之前不能对总体作任何假设,或仅能作一些非常一般性(例如连续分布、对称分布等)的假设,这时如果仍然使用参数统计方法,其统计推断的结果是不可信的,甚至有可能是错的,在对总体的分布不作假设或仅作非常一般性假设条件下的统计方法称为非参数统计。

    非参数统计对总体分布不作严格假设,又称为任意分布检验(Distribution-free Test),直接对总体分布进行假设。非参数统计的优点是不受总体分布的限制,适用范围广。非参数统计问题中对总体分布的假定要求的条件很宽,针对这种问题而构造的非参数统计方法,不会因为对总体分布的假定不当而导致重大的错误,因此它往往有较好的稳健性,这是一个非常重要的特点。但因为非参数统计方法需要照顾范围很广的分布,在某些情况下会导致其效率的降低。

近代理论也证明了:一些重要的非参数统计方法,当与相应的参数方法比较时,即使在最有利于后者的情况下,效率上的损失也很小。相对而言,非参数统计的推断方法简单,仅应用样本观察值中一些非常直观(如秩次)的信息,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。对于大样本,如不采用适当的近似,计算可能变得十分复杂。

       非参数统计可以分为两个范畴,一个是比较经典的基于秩、以检验为主的非参数统计推断,也是我们今天要介绍的非参数秩和检验;另一个是近二三十年来发展的非参数回归、非参数密度估计等现代非参数统计方法,这些我们会在后期一一给大家介绍。
       对于定量数据不满足参数检验条件的假设检验方法,一是可尝试变量变换使其满足参数检验条件,但有时达不到目的;二是用非参数秩和检验。定量数据若不满足正态和方差齐性条件,这时小样本资料选t检验和F检验是不妥的,可选择非参数秩和检验;对于分布不知是否正态的小样本资料,为保险起见,可选择非参数秩和检验;对于开口资料(一端或两端是不确定数值),不管是否服从正态分布,只能选择非参数秩和检验。

在此要强调的是,对于满足参数检验条件的定量数据(或近似满足),首先参数检验(t检验或F检验),如果选择了非参数秩和检验会降低检验效能。几种常见数据类型的非参数秩检验的SAS实现可通过PROC NPAR1WAY过程步、PROC UNIVARIATE过程步、PROC FREQ过程步、PROC RANK和PROC GLM过程步完成,PROC FREQ过程步将在下期的定性数据分析中详细介绍,今天主要介绍PROC NPAR1WAY过程步,其语法如下:

3.1单样本的Wilcoxon秩和检验 

*===单样本非参数秩和检验;PROC UNIVARIATE DATA=NPAR1 MU0=5.12 NORMAL; VAR SMI;RUN;

图9-41 单样本非参数检验数据的正态性检验结果

图9-42 单样本非参数检验结果

    图9-41的正态性检验结果显示:W=0.818032,P=0.0002;D=0.192744,P<0.0100,按α=0.10水准拒绝H0,即不服从正态分布。图9-42的单样本非参数检验结果显示:S=210.5,P<0.0001,拒绝H0,该样本所来自总体的SMI测量值与已知总体的SMI测量值的差异有统计学意义。

3.2配对样本比较的Wilcoxon秩和检验

*===配对样本非参数秩和检验;PROC UNIVARIATE DATA=NPAR2 NORMAL; VAR D;RUN;

图9-43 配对样本差值正态性检验结果

图9-44 配对样本非参数检验结果

    图9-43的正态性检验结果显示:W=0.875074,P=0.0758;D=0.23347,P=0.0706,按α=0.10水准拒绝H0,即数据不服从正态分布。图9-44的单样本非参数检验结果显示:S=-21.5,P=0.00566,按α=0.05水准不拒绝H0,还不能认为两各方法的测量结果有差异。

3.3两独立样本比较的Wilcoxon秩和检验

*====两组独立样本非参数秩和检验;*===正态性检验;PROC UNIVARIATE DATA=NPAR3 NORMAL; CLASS GROUP; VAR SMI;RUN;*===两独立样本非参数秩和检验;PROC NPAR1WAY DATA=NPAR3 WILCOXON; CLASS GROUP; VAR SMI;RUN;

图9-45 两独立样本非参数检验结果

图9-46 两独立样本非参数检验Wilcoxon结果

图9-47 两独立样本非参数检验Kruskal-Wallis结果

图9-48 两独立样本非参数检验结果

       正态性检验仅给出SAS过程步,结果在此不呈现,主要是为了强调大家在进行数据统计分析时不要忘了各种方法应用的前提条件。

       PROC NPAR1WAY过程步首先给出各组样本的得分情况(图9-45),图9-46是PROC NPAR1WAY过程步给出的Wilcoxon秩和检验结果,目标统计量990.0000,两个假设检验结果分别为通过正态分布近似与t分布近似所得的结果,其中分别经出单侧和双侧检验概率值。

两种方法的结果是完全相同的,P>0.05,按α=0.05水准不拒绝H0,还不能认为两总体的SMI测量结果有差异。“Z includes a continuity correctionof 0.5”表示正态分布近似检验的Z值是经过连续性校正所得的值。图9-47是Kruskal-Wallis检验结果,这是两组或多组样本比较时都能使用的方法。PROC NPAR1WAY过程步还给出了两样本的箱式图(图9-48)。
 
3.4完全随机设计多个样本比较的Kruskal-Wallis H检验
       由于各个样本的总体呈偏态分布或方差不齐,无法使用方差分析中的两两比较,检验其总体分布是否相同,常用的非参数秩和检验方法是Kruskal-Wallis 法。SAS实现主要通过PROCNPAR1WAY 过程、PROC RANK 和PROC ANOVA 过程步的结合来完成,样本间两两比较是通过PROC RANK 和PROC ANOVA 两过程的结合,采用MEANS 语句来实现,即先对原始数据进行排序,求相应的秩次,然后对秩进行参数的多重比较。

*===完全随机设计多样本非参数秩检验;*===正态性检验;PROC UNIVARIATE DATA=NPAR4 NORMAL; CLASS GROUP; VAR RD;RUN;*===非参数秩和检验;PROC NPAR1WAY DATA=NPAR4 WILCOXON; CLASS GROUP; VAR RD;RUN;

图9-49完全随机设计多样本Wilcoxon得分结果

图9-50 完全随机设计多样本Kruskal-Wallis检验结果

图9-51 完全随机设计多样本数据箱式图

       PROC NPAR1WAY过程步首先给出各组样本的得分情况(图9-49),然后是多个样本比较的Kruskal-Wallis检验结果(χ2=9.9405,P=0.0069),按α=0.05水准拒绝H0,可认为三组不同伤寒杆菌的存活日数有差别,至于哪两个组之间有差异,还需要进一步两两比较。最后给出了多个样本的箱式图(图9-51)。
*===两两比较;PROC RANK DATA=NPAR4 OUT=RESULT; VAR RD; RANKS R;PROC ANOVA DATA=RESULT; CLASS GROUP; MODEL R=GROUP; MEANS GROUP/LSD;RUN;

图9-52 完全随机设计多样本两两比较结果

       图9-52的两两比较结果显示:DSC和11C组间的差异无统计学意义,其他组间均的差异均有统计学意义。
3.5随机区组设计多个样本比较的Freidman M检验
       随机区组设计的各个样本的总体呈偏态分布或方差不齐,检验其总体分布是否相同,常用的非参数秩和检验方法是Friedman M方法。SAS实现可能过PROC FREQ 、或者PROC RANK和PROC ANOVA过程步的结合来完成。各个样本两两比较可通过PROC RANK和PROC ANOVA过程结合, 采用LSMEANS 语句来实现。
*====随机区组设计的非参数秩检验;*===第一种方法:PROC FREQ过程步实现;PROC FREQ DATA=NPAR5; TABLES BLOCK*GROUP*RATE / SCORES=RANK CMH2 NOPRINT;RUN;

图9-53 随机区组设计多样本数据非参数检验结果

*===第二种方法:PROC RANK和PROC GLM过程步实现,及两两比较结果;PROC SORT DATA=NPAR5 OUT=RE1; BY BLOCK;RUN;PROC RANK DATA=RE1 OUT=RE2; VAR RATE; BY BLOCK; RANKS R;RUN;PROC GLM DATA=RE2; CLASS GROUP BLOCK; MODEL R=GROUP BLOCK; LSMEANS GROUP/STDERR PDIFF;RUN;QUIT;

图9-54 随机区组设计多样本数据非参数检验结果(二)

图9-55 随机区组设计多样本数据非参数检验两两比较结果

       PROC GLM 过程产生的R2 与(υ总-υ区组)之积,即为Friedman 检验结果,图9-54给出R2 =0.631329,υ总-υ区组=31-7=24,0.631329×24= 15.151896≈15.1519,通过计算与PROC FREQ过程步给出的统计量是一致的。图9-55是LSMEANS语句给出的两两结果,图中两要红色线显示A与B组、C与D组间的差异没有统计学意义。

     整理不易,欢迎点亮再看哦!

参考文献:

[1] 陈希孺, 柴根象. 非参数统计教程[M].上海:华东师范大学出版社,1993.

[2] L.沃塞曼著, 吴喜之译. 现代非参数统计[M]. 北京: 科学出版社,2008.

[3] Marfio F. Triola. ElementaryStatistics[M]. New York: Christine Stavrou, 2010.

[4] 夏庄坤, 徐唯 , 潘红莲, 等. 深入解析SAS——数据处理、分析优化与商业应用[M]. 

整理不易,欢迎点亮再看!
【赠人玫瑰,手留余香】

----------------------------------------------

SAS系列20:SAS统计推断(五)

SAS系列19:SAS统计推断(四)

SAS系列18:SAS统计推断(三)

SAS系列17:SAS统计推断(二)

SAS系列16:SAS统计推断(一)

SAS系列15:SAS数据可视化结果输出

SAS系列14:SAS数据可视化(三)

SAS系列13:SAS数据可视化(二)

SAS系列12:SAS数据可视化(一)

SAS系列11:SAS基础统计过程(三)

SAS系列10:SAS基础统计过程(二)

SAS系列09:SAS 基础统计计算过程

SAS系列08:SAS函数

SAS系列07:SAS数据整理(三)

SAS系列06:SAS数据整理(二)

SAS系列05:SAS数据整理(一)

SAS系列04:SAS数据导入

SAS系列03:SAS入门(二)之SAS编程语言基础

SAS系列02:SAS入门(一)

SAS系列01:统计分析航空母舰-SAS简介

----------------------------------------------

精鼎特邀


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多