当我们要比较两组或者多组之间的分类型变量是否有显著性差异,需要使用专门用于分类变量比较的卡方检验。接下来我们从以下几点谈一谈卡方检验的用途。 1、Pearson卡方检验Pearson卡方检验是最有名的卡方检验之一,主要是比较定类变量与定类变量之间的差异性。可用于两种情境的变项比较:适配度检验和独立性检验。当提及卡方检验而没有特别指明类型时,通常即指皮尔森卡方检验。
独立性检验步骤: (1)计算卡方检验的统计值 (2)计算 (3)依据研究者设定的置信水准,查出自由度为 df 的卡方分配临界值,比较它与第 1 步骤得出的 案例:分析班级(定类变量)与分科意向(定类变量)是否有显著性差异。 Pearson 卡方检验结果 Pearson 卡方检验分析的结果显示,显著性 P 值为 0.080*,水平上不呈现显著性,不能拒绝原假设,因此班级和分科意向数据不存在显著性差异。 注意:
2、卡方拟合优度检验卡方拟合优度检验是用来检验观测数与依照某种假设或分布模型计算得到的理论数之间一致性的一种统计假设检验,以便判断该假设或模型是否与实际观测数相吻合。 拟合卡方检验就是检验这两列数据是否呈现差异,通常应用于问卷的多重响应频率分析里面的响应率与普及率分析。 步骤 1)将观测值分为 K 组 。
案例:调查某行业从业人员学历水平程度,预计本科与硕士的学历比例为 9:1,实际收集到本科学历个数 87 人,硕士 13 人,判断收集的数据分布与预期是否呈显著性差异。 1)卡方检验分析结果
2)期望频数图
3、Yates校正卡方检验当用皮尔森卡方检验做独立性检验时,若任何一个字段的期望次数小于 5,会使“近似于卡方分配”的假设不可信,统计值会系统性地偏高,导致过度地拒绝虚无假设。此时可以做叶氏连续性校正(Yates's correction for continuity)。 校正 在满足 Yates 校正的条件下,将每个观察值的离差减去 0.5 之后再做平方,如下: 校正的目的:是在小样本情况下,降低将离散型频数数据近似到连续性卡方统计量的过程中的误差。 案例:从某高中学随机抽取两班级,调查考试成绩是否有显著差异。 Yates 校正卡方检验结果 Yates 校正卡方检验分析的结果显示,显著性 P 值为 0.057*,水平上不呈现显著性,不能拒绝原假设,因此班级和是否及格数据不存在显著性差异。 注意:
4、Fisher精确检验样本总量小于 40,或任何格子出现期望频数 T<1,或检验所得的 P 值接近于检验水准a,更适合使用 Fisher 精确检验。 Fisher 精确检验没有统计量,更没有繁琐的统计量的表格,它算出来的就是 p 值,但是它在大样本情况下手算几乎是不可能的,因为它涉及到阶乘运算。 原理 同是固定边际频数不变,与 Pearson 的思想不同,Fisher 考虑的是超几何分布:固定边际频数不变后,每次抽样就相当于从边际频数中抽取数字填进四格表中,从而得到样本的情形服从超几何分布。 例如上表 A,B 两个科室检查癌症的情况的例子。 第一个分式表示的是从n个样本中抽取a+c个患者,其中a个是科室 A 检测、c个是科室 B 检测的概率。 第二个分式表示的是从n个样本中抽取b+d个患者,其中b个是科室 A 检测、d个是科室 B 检测的概率。 这里比较的是正常人的科室 A,B 比和患者的科室 A,B 比的差异,由于总频数和边际频数都是固定的,因此它们两个计算出来的结果相等。 Fisher 给出的这样的概率就是p值,是精确的。但不能只计算当前样本情形的p值,因为假设检验的p值都是累积概率值,还需要计算其它情形的概率的和。 计算过程 为了简化起见,我把样本量设得很小,倘若实际抽样得到的结果是这样的: 分析
案例:从某高中学随机抽取两班级(总样本量为 36,小于 40),调查考试成绩是否有显著差异。 Fisher 精确检验结果 Fisher 精确检验分析的结果显示,显著性 P 值为 0.149,水平上不呈现显著性,不能拒绝原假设,因此班级和成绩数据不存在显著性差异。 5、分层卡方分析分层卡方检验,也称为 CMH 检验,是在卡方检验基础上进一步考虑分层项的干扰(混杂因素),主要用于分层或匹配分类数据的分析。比如想要调查某一地区接种疫苗(X) 对感染病毒 (Y) 的影响,由此来判断疫苗的有效性;但考虑到男性、女性体质的不同,疫苗可能会造成不一样的抵抗病毒能力,因此将性别 (Z) 作为混杂因素来进行分析。 SPSSPRO 仅支持 2×2×K 表格的数据结构(即 X 和 Y 均为有 2 个分类水平,k 是指混杂因素 Z 的 k 个水平),通过用分层的思想对混杂因素进行调整,把研究对象分解成不同层次,按各层对象来进行行变量与列变量的独立性研究,以消除由于资料内部的不均一性所造成的偏倚,使资料分析的结果能够更正确地反映所研究变量之间的相关关系,可在去除阶层因素下,更准确地对行列变量的独立性进行研究。 通常情况下,首先查看'比值比齐性检验’,如果其呈现出显著性(p 值小于 0.05),则说明具有混杂因素,即需要考虑分层项,即分别查看不同分层项下的数据结果(即输出结果 3)。反之如果没有通过'比值比齐性检验’,即说明没有混杂因素不需要考虑分层项,报告整体的结果即可(即输出结果 4)。 案例:某地区有一项关于是否接种疫苗(X)对于感染病毒 (Y) 风险的影响,将性别 (Z) 作为混杂因素来建立分层卡方检验来进行分析。 1)数据汇总 2)比值比齐性检验结果 比值比齐性检验的显著性 P 值为 0.970,不存在显著性,说明混杂因素各分类之间同质,并不存在混杂作用,并不需要分别报告混杂因素各分类对应的值(比如 OR 值),而需要整体计算 OR 值,可关注输出结果 4 的 CMH 条件独立性检验结果。 3)分层卡方分析结果
但是,由于输出结果 2 的证明了混杂因素各分类之间同质,并不存在混杂作用,所以不需要过多地关注该结果。 4)CMH 条件独立性检验 OR 值(Odds Ratio 优势比): CMH 条件独立性检验的显著性 P 值为 0.000***,存在显著性,说明去除混杂因素影响后,是否感染病毒和是否接种疫苗之间存在显著差异。并且 OR 值为 0.53,可以认为分类变量 X1(已接种疫苗)导致 Y1(感染病毒)发生的概率比 X2(未接种疫苗)导致 Y1(感染病毒)发生的概率低了 47%,这说明接种疫苗是有用的,能减少感染病毒的概率。 6、配对卡方检验配对卡方检验用于分析配对定类变量X1与定类变量X2之间的差异性。它要求数据是配对的,即变量X1、X2是一个事物的同一属性,例如分别采用甲、乙两种方法对同一批病人进行检查,比较此两种方法的结果是否有本质不同,此时要用配对卡方检验。 需要满足的假设:
案例:想要研究戒烟干预效果,使所有研究对象均观看吸烟导致癌症的视频,两周后,询问研究对象是否还在抽烟。 Pearson卡方检验结果 配对卡方检验的结果显示,显著性P值为0.000***,水平上呈现显著性,拒绝原假设,因此观看视频前是否抽烟和观看视频后是否抽烟数据存在显著性差异。 总结介绍了这么多种卡方检验,如果大家不知道该如何选择,可以使用SPSSPRO的卡方检验(自动选取最优求解器),根据输入的数据,自动选取合适的卡方检验方法。 |
|