系列17-22我们已经介绍了四格表卡方检验方法及其SAS实现,今天开始介绍列联表资料的假设检验方法及其SAS实现。 列联表(Contingency Tables)是观测数据两个或更多个属性分类时所列出的频数表,又称交互分类表,交互分类的目的是为了将两个变量分组,然后比较各组的分布状况,从而分析变量间的关系。一般,总体中的个体按属性A与B分类,A有R(A1,A2,…,AR)个等级,B有C个等级,从总体中抽取大小为n的样本设有nij个属于等级Ai和Bj,nij称为频数,将R×C个nij(i=1,2,…,R;j=1,2,…,C)排列为一个R行C列的二维列联表(表2),简称R×C表。若考虑的属性多于两个,也可按这种方式做出列联表,即多维列联表,多维列联表分析属于离散多元分析的范畴,列联表分析在医学、生物学及社会科学中,有重要的应用。列联表看似简单,做起来却是有一定的难度,在做这类数据分析时我们一定要注意列联表中的逻辑关系,在做这一类资料时,我会把相应列联表数据呈现出现,大家可以细细分析双向无序、单向有序、双向有序资料。*===多个样本率的卡方检验; DATA THERAPY; DO R=1 TO 3; DO C=1 TO 2; INPUT FREQ @@; OUTPUT; END; END; DATALINES; 199 7 164 18 118 26 ; PROC FREQ; TABLES R*C/CHISQ NOROW NOPERCENT NOCOL; WEIGHT FREQ; RUN; 图9-65 PROC FREQ过程步的列联表χ2检验结果 图9-65是PROC FREQ过程步的列联表χ2检验结果,χ2=21.0377,P<0.0001,按α=0.05的检验水准,可认为三种疗法的有效率有差别,至于是哪两组间有差别,还需要进一步帮两两比较。两两比较结果可以通过PROC FREQ和PROC GENMOD过程步来实现。*====两两比较; *===PROC FREQ的两两比较; PROC FREQ DATA=THERAPY; WHERE R IN (1,2); TABLE R*C/CHISQ NOROW NOPERCENT NOCOL; WEIGHT FREQ; RUN; PROC FREQ DATA=THERAPY; WHERE R IN (1,3); TABLE R*C/CHISQ NOROW NOPERCENT NOCOL; WEIGHT FREQ; RUN; PROC FREQ DATA=THERAPY; WHERE R IN (2,3); TABLE R*C/CHISQ NOROW NOPERCENT NOCOL; WEIGHT FREQ; RUN; *===PROC GENMOD的两两比较; PROC GENMOD DATA=THERAPY; CLASS R C; MODEL FREQ=R C R*C /DIST=POISSON TYPE3; CONTRAST "COMPARISON1:R1 VS R2" R*C 1 -1 -1 1; CONTRAST "COMPARISON2:R1 VS R3" R*C 1 -1 0 0 -1 1; CONTRAST "COMPARISON3:R2 VS R3" R*C 0 0 1 -1 -1 1; RUN; 图9-66 PROC FREQ过程步的两两比较结果图9-67 PROC GENMOD过程步的两两比较结果列联表资料两两比较时,从R*C列联表中行变量中任取两个不同的行组成新2*C的列联表,共有次,分别计算各子表的χ2值,最后根据比较次数做Bonferroni adjustment。PROC FREQ和PROC GENMOD过程步的两两比较结果一致,物理疗法组分别与药物疗法组、外用膏药组的差别有统计学意义,药物疗法组与外用膏药组的差别无统计学意义。表9-7 DN组与无DN组2型糖尿病患者ACE基因型分布的比较*===样本构成比的卡方检验; DATA DIABET; DO R=1 TO 2; DO C=1 TO 3; INPUT FREQ @@; OUTPUT; END; END; DATALINES; 42 48 21 30 72 36 ; PROC FREQ; TABLES R*C/CHISQ NOPERCENT NOCOL; WEIGHT FREQ; RUN; 图9-67 PROC FREQ过程步的χ2检验结果 图9-67结果显示:χ2=7.9127,P=0.0191,按α=0.05的检验水准,可认为两组的2型糖尿病患者的ACE基因型分布不同。对于双向无序资料,研究者常常更关心两个分类变量之间有无关联?关系的密切程序如何?列表资料的χ2检验可用来推断两个分类变量间有无关联,如果有关联,可计算Pearson列联系数(Contingency Coefficient),列联系数聚取值在0~1之间,0表示无关联,1表示完全相关;越接近0,关系越不密切;越接近1,关系越密切。表9-8 DN组与无DN组2型糖尿病患者ACE基因型分布的比较*===双向无序资料的关联性检验; DATA BLOOD; DO R=1 TO 4; DO C=1 TO 3; INPUT FREQ @@; OUTPUT; END; END; DATALINES; 431 490 902 388 410 800 495 587 950 137 179 32 ; PROC FREQ; TABLES R*C/CHISQ NOROW NOPERCENT NOCOL; WEIGHT FREQ; RUN; 图9-69 PROC FREQ过程步的χ2检验结果图9-69结果显示:χ2=213.1616,P<0.0001,按α=0.05的检验水准,可认为两种血型间有关联,其关联系数为0.1883,由关联系数可知两血型的关联程度不太密切。[1] Marfio F. Triola. ElementaryStatistics[M]. New York: Christine Stavrou, 2010.[2] 夏庄坤, 徐唯 , 潘红莲, 等. 深入解析SAS——数据处理、分析优化与商业应用[M]. [3] 高惠璇. SAS系统Base SAS软件使用手册[M]. 北京:中国统计出版社, 1997.[4] 孙振球, 徐勇勇. 医学统计学(第4版)[M]. 北京: 人民卫生出版社, 2014.
|