分享

卡方独立性检验

 咚宝鱼 2023-04-02 发布于上海

涨知识

享生活

我们来考虑一个案例,如下表所示,假设我们收集了在电影院观影的600名观众。而且我们知道每名观众观看的电影类型,以及他们是否购买了零食。我们想知道电影类型和观众购买零食之间是否有关联,如何分析?

表1 不同电影类型下消费者购买零食情况

这时候,可以利用卡方独立性检验的方法。首先,我们先假设电影类型和是否购买零食之间是彼此独立的。根据统计独立性的特点,那表1中每个单元格对应的事件发生概率可以通过下面公式计算:

其中:

表1中每个单元格发生的概率如下所示:

表2 每个单元格发生的概率

而每个单元格人数的期望值,可以通过下方公式计算:

则表2中每一个单元格对应的期望值如下所示:

表3每个单元格的期望值

执行检验

计算检验统计量的基本思路是:在已知数据总行数和总列数的情况下,将实际值与期望值进行比较。

首先,计算每一个“电影-零食”组合的实际值与期望值之间的差异。接下来,计算该差异的平方(平方的话,可以避免负数),然后,再除以组合的期望值。最后,将每个“电影-零食”组合的值相加,就得到了检验统计量。具体而言,检验统计量的计算公式:

下表就是计算出来的检验统计量:

最后,为了得到检验统计量,我们将每个单元格最后一行的数字相加3.29+3.52+5.81+6.21+12.65+13.52+9.68+10.35=65.03

为了做出决策,将检验统计量与来自卡方分布的临界值进行比较。此操作包括5个步骤:

1.设置显著性水平,也就是愿意为得出错误结论(即,两个变量实际上是独立的,但检验得出的结论是不独立的)而承担的风险。我们将显著性水平设置为5%。

2.计算检验统计量。如上文所示,检验统计量是 65.03。

3.根据自由度和显著性水平,从卡方分布中找到临界值。这是两个变量相互独立时我们期望的值。

4.自由度取决于我们有多少行和多少列。自由度 (df) 的计算方法是:

在这个公式中,r 是列联表中的行数,c 是列数。在我们的示例中,将“电影类型”作为行,将“购买零食”作为列,因此可以得到:自由度=(4−1)×(2−1)=3×1=3

在Excel中,输入函数公式=CHISQ.INV.RT(0.05,3) 即可计算得出显著性水平0.05下,3个自由度的卡方检验值是7.815(注意:Excel函数公式中选择的是单一右侧检验,是因为卡方分布是一个大于0的分布,如果假设成立,也就是抽样值接近于期望值,则检验统计量会接近于0。相反,则是在另一侧)

5.将检验统计量的值 (65.03) 与卡方临界值相比较。由于 65.03 > 7.815,将拒绝电影类型与购买零食无关的假设。(5%的小概率事件发生,说明原假设不成立)

因此可以得出结论:电影类型与购买零食之间有某种关系。必须注意的是,我们无法得出电影类型是顾客购买零食的原因这样的结论。独立性检验只是告诉我们是否存在联系,它并不能说明一个变量和另一个变量的因果关系。

点赞 分享 在看,都是我们继续进步的动力

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多