今天介绍单向有序列联表资料的假设检验方法及其SAS实现。 图9-56 定性数据假设检验方法选择
3.列联表资料的假设检验
3.1 双向无序列联表资料的假设检验
3.2 单向有序列联表资料的假设检验 对于单向有序列联表资料,如果列联表中的分组变量是有序的,而结果变量是无序,这类单向有序资料可以用上期介绍的列联表资料χ2检验方法进行分析;如果列联表中的分组变量是无序的,而结果变量是有序的,这类单向有序资料宜用秩转换的非参数检验分析。 (1)单向有序资料的两样本比较 表9-9 吸烟工人与不吸烟工人的HbCO(%)含量比较 *===单向有序资料的两样本比较; DATA HBCO; DO GROUP=1 TO 2; DO HB=1 TO 5; INPUT FREQ @@; OUTPUT; END; END; DATALINES; 1 8 16 10 4 2 23 11 4 0 ; RUN;
PROC NPAR1WAY DATA=HBCO WILCOXON; CLASS GROUP; VAR HB; FREQ FREQ; RUN; 图9-70 单向有序列联表资料两样本比较表结果 图9-70结果显示:Z=3.6971,P=0.0002,按检验水准α=0.05,还不能认为吸烟工人与不吸烟工人的HbCO的含量相同。 (2)单向有序资料的多个样本比较 表9-10 4种疾病患者痰液内的嗜酸性粒细胞比较 *===单向有序资料的多样本比较; DATA WBC; DO GROUP=1 TO 4; DO RESULT=1 TO 4; INPUT FREQ @@; OUTPUT; END; END; DATALINES; 0 2 9 6 3 5 5 2 5 7 3 2 3 5 3 0 ; RUN; PROC NPAR1WAY DATA=WBC WILCOXON; CLASS GROUP; VAR RESULT; FREQ FREQ; RUN; 图9-71 单向有序列联表资料多样本比较结果 图9-71结果显示:χ2=15.5058,P=0.0014,按检验水准α=0.05,还不能认为4种疾病患者痰液的嗜酸性粒细胞相同。接下还要进行两两比较,多个独立样本两两比较通常用Nemenyi法检验。这个SAS实现过程要复杂一点,没有直接利用的SAS过程步。 *====两两比较; *===生成两两比较的数据集; DATA WBC1; SET WBC; DO F=1 TO FREQ; OUTPUT; END; RUN; *===编秩; PROC RANK DATA=WBC1 OUT=RESULT; VAR RESULT; RANKS R; RUN; PROC SORT DATA=RESULT; BY GROUP ; RUN; DATA RESULT1; SET RESULT; BY GROUP; IF FIRST.GROUP THEN NUMBER=0; NUMBER+1; IF FIRST.GROUP THEN SUM_R=R; ELSE SUM_R+R; IF LAST.GROUP THEN OUTPUT; DROP RESULT FREQ F R; MEAN_R=SUM_R/NUMBER; RUN; DATA RESULT11; SET RESULT1; MEAN_R=SUM_R/NUMBER; RUN; 图9-72 编秩结果 *===计算校正值C; DATA C; SET RESULT; BY RESULT; IF FIRST.RESULT THEN NUM=0; NUM+1; IF LAST.RESULT THEN OUTPUT; DROP GROUP FREQ F R; RUN; PROC TRANSPOSE DATA=C OUT=C1 PREFIX=C; VAR NUM; RUN; DATA C1; SET C1; C=1-((C1**3-C1)+(C2**3-C2)+(C3**3-C3)+(C4**3-C4))/((C1+C2+C3+C4)**3-(C1+C2+C3+C4)); RUN; 图9-73 校正值C计算结果 接下来,我们可以用很多方法来整理进行两两比较统计量计算的数据集,如宏程序、PROC SQL过程步等,也可以导出之前生成的数据集在EXCEL上完成整理,这对于新手很容易理解和上手,把数据集导出在EXCEL中整理,然后导入。不过对于数据量大,比较复杂的建议用宏程序或PROC SQL过程步来完成,这两种方法将在后期做专题介绍。 PROC EXPORT DATA=RESULT11 OUTFILE="E:\Jindingtongji\SAS\DATA\RESULT11.CSV" DBMS=CSV REPLACE; RUN; *===整理两两比较统计量计算的数据集; PROC IMPORT DATAFILE="E:\Jindingtongji\SAS\DATA\RESULT11.CSV" OUT=RESULT11 DBMS=CSV REPLACE; RUN; 图9-74 两两比较统计量计算数据集
DATA CHISQ_P; SET RESULT11; CHISQ=(MEAN_R1-MEAN_R2)**2/((N*(N+1)/12)*(1/NUMBER1+1/NUMBER2)*C); P=1-PROBCHI(CHISQ,K-1); KEEP NAME CHISQ P; RUN; 图9-75 两两比较结果 图9-75结果显示,组1与组3、组1与组4间的差异有统计学意义,其他组间的差异无统计学意义。 整理不易,欢迎点亮再看哦!
参考文献: [1] Marfio F. Triola. ElementaryStatistics[M]. New York: Christine Stavrou, 2010. [2] 夏庄坤, 徐唯 , 潘红莲, 等. 深入解析SAS——数据处理、分析优化与商业应用[M]. [3] 高惠璇. SAS系统Base SAS软件使用手册[M]. 北京:中国统计出版社, 1997. [4] 孙振球, 徐勇勇. 医学统计学(第4版)[M]. 北京: 人民卫生出版社, 2014.
|