【原】SAS系列23：列联表资料假设检验方法

松哥精鼎统计 2020-10-23

展开全文

导读

系列17-22我们已经介绍了四格表卡方检验方法及其SAS实现，今天开始介绍列联表资料的假设检验方法及其SAS实现。

二、单变量数据的假设检验

图9-56 定性数据假设检验方法选择

（二）定性数据的假设检验

3.列联表资料的假设检验

列联表（Contingency Tables）是观测数据两个或更多个属性分类时所列出的频数表，又称交互分类表，交互分类的目的是为了将两个变量分组，然后比较各组的分布状况，从而分析变量间的关系。一般，总体中的个体按属性A与B分类，A有R（A1,A2,…,AR）个等级，B有C个等级，从总体中抽取大小为n的样本设有nij个属于等级Ai和Bj，nij称为频数，将R×C个nij(i=1,2,…,R；j=1,2,…,C)排列为一个R行C列的二维列联表(表2)，简称R×C表。

若考虑的属性多于两个，也可按这种方式做出列联表，即多维列联表，多维列联表分析属于离散多元分析的范畴，列联表分析在医学、生物学及社会科学中，有重要的应用。列联表看似简单，做起来却是有一定的难度，在做这类数据分析时我们一定要注意列联表中的逻辑关系，在做这一类资料时，我会把相应列联表数据呈现出现，大家可以细细分析双向无序、单向有序、双向有序资料。

3.1 双向无序列联表资料的假设检验

（1）多个样本率的比较

表9-6 3种疗法有效率的比较

*===多个样本率的卡方检验;DATA THERAPY;DO R=1 TO 3;DO C=1 TO 2;INPUT FREQ @@;OUTPUT;END;END;DATALINES;199 7 164 18 118 26;PROC FREQ;TABLES R*C/CHISQ NOROW NOPERCENT NOCOL;WEIGHT FREQ;RUN;

图9-64 PROC FREQ过程步的列联表结果

图9-65 PROC FREQ过程步的列联表χ²检验结果

图9-65是PROC FREQ过程步的列联表χ²检验结果，χ²=21.0377，P<0.0001，按α=0.05的检验水准，可认为三种疗法的有效率有差别，至于是哪两组间有差别，还需要进一步帮两两比较。两两比较结果可以通过PROC FREQ和PROC GENMOD过程步来实现。

*====两两比较;*===PROC FREQ的两两比较;PROC FREQ DATA=THERAPY;WHERE R IN (1,2);TABLE R*C/CHISQ NOROW NOPERCENT NOCOL;WEIGHT FREQ;RUN;PROC FREQ DATA=THERAPY;WHERE R IN (1,3);TABLE R*C/CHISQ NOROW NOPERCENT NOCOL;WEIGHT FREQ;RUN;PROC FREQ DATA=THERAPY;WHERE R IN (2,3);TABLE R*C/CHISQ NOROW NOPERCENT NOCOL;WEIGHT FREQ;RUN;*===PROC GENMOD的两两比较;PROC GENMOD DATA=THERAPY;CLASS R C;MODEL FREQ=R C R*C /DIST=POISSON TYPE3;CONTRAST "COMPARISON1:R1 VS R2"R*C 1 -1 -1 1;CONTRAST "COMPARISON2:R1 VS R3"R*C 1 -1 0 0 -1 1;CONTRAST "COMPARISON3:R2 VS R3"R*C 0 0 1 -1 -1 1;RUN;

图9-66 PROC FREQ过程步的两两比较结果

图9-67 PROC GENMOD过程步的两两比较结果

列联表资料两两比较时，从R*C列联表中行变量中任取两个不同的行组成新2*C的列联表，共有次，分别计算各子表的χ²值，最后根据比较次数做Bonferroni adjustment。PROC FREQ和PROC GENMOD过程步的两两比较结果一致，物理疗法组分别与药物疗法组、外用膏药组的差别有统计学意义，药物疗法组与外用膏药组的差别无统计学意义。

（2）多个构成比的比较

表9-7 DN组与无DN组2型糖尿病患者ACE基因型分布的比较

*===样本构成比的卡方检验;DATA DIABET;DO R=1 TO 2;DO C=1 TO 3;INPUT FREQ @@;OUTPUT;END;END;DATALINES;42 48 21 30 72 36;PROC FREQ;TABLES R*C/CHISQ NOPERCENT NOCOL;WEIGHT FREQ;RUN;

图9-67 PROC FREQ过程步的列联表结果

图9-67 PROC FREQ过程步的χ²检验结果

图9-67结果显示：χ²=7.9127，P=0.0191，按α=0.05的检验水准，可认为两组的2型糖尿病患者的ACE基因型分布不同。

（3）关联性检验

对于双向无序资料，研究者常常更关心两个分类变量之间有无关联？关系的密切程序如何？列表资料的χ²检验可用来推断两个分类变量间有无关联，如果有关联，可计算Pearson列联系数（Contingency Coefficient），列联系数聚取值在0~1之间，0表示无关联，1表示完全相关；越接近0，关系越不密切；越接近1，关系越密切。

表9-8 DN组与无DN组2型糖尿病患者ACE基因型分布的比较

*===双向无序资料的关联性检验;DATA BLOOD;DO R=1 TO 4;DO C=1 TO 3;INPUT FREQ @@;OUTPUT;END;END;DATALINES;431 490 902 388 410 800495 587 950 137 179 32;PROC FREQ;TABLES R*C/CHISQ NOROW NOPERCENT NOCOL;WEIGHT FREQ;RUN;