分享

戏说统计学习笔记(6)——卡方检验

 心理諮商張老師 2019-02-08

我们已经发出了李连江教授的《戏说统计》课程中的五篇学习笔记:相关分析、显著性检验、回归分析、多元回归分析、因子分析与量表构造。今天,我们将发出第六篇学习笔记:卡方检验。希望我们的整理可以继续供大家讨论学习。

卡方检验

提纲:

1.卡方值的计算

卡方,是指平方值的总和,即(观察值—期待值)2除以期待值之后加总。

2.期待值是根据零假设预测的

 

3.自由度就是任意度

自由度是行数减一乘上列数减一

正文:

1.卡方值的计算

一个定类变量的变化如性别的变化与另外一个变量的变化(定类或定序)好像有关系,这个时候要判断到底有没有关系,需要做一个显著性检验,但是这个时候的显著性检验没办法做T检验,因为这两个变量没有整体分布,无法计算T值,因此要计算卡方值。

以下以大学环境为例:

设想一种情况:学生投诉某个老师在给分的时候不公平,这种不公平是向着某个性别。提出这个指控之后,为了说服领导,需要去检验它。假设老师教过一万个学生,而这一万个学生里面男生和女生各个方面都相同,如智商,入学之前的知识背景,上课时候的用功程度,最后考试的时候答题的分数。再假设每次考试的时候老师给分都是及格和不及格,而且每次都是一半及格一半不及格。


2、期待值是根据零假设预测的

根据这些条件,我们可以做检验了,而我们没有办法一一去看那一万个学生的情况。上面所说的都是假定的总体的情况,但是我们可以去抽样。设计一个抽样程序,每次只抽二十个人,抽到如图所示的情况——男生10个,女生10个,及格10个,不及格10个。我们现在可以做一个研究假设和一个零假设。研究假设:老师给分及格与否与性别有关系。零假设是无关。我们需要注意的是,这个时候的指控与零假设都是指的整体。学生说这个老师有歧视,肯定不是说歧视了自己,而是歧视了所有的男生,讲的是总体的情况。但是总体我们不知道,我们做一个零假设就是假设总体里面这两个变量之间的关系为零。如果关系为零的话,我们去抽样,抽到二十个人,10个男生,10个女生,10个及格,10个不及格。如果性别与成绩没有任何关系,而其他条件都相同的情况下,及格与否就完全是靠运气。这个时候我们根据零假设,就能够做一个期待,算出期待值。即10×10除以20,得出期望数5。这个数就是根据零假设看到的,如果10个男生,10个女生,10个及格,10个不及格,那么男生里面及格的应该有几个人呢,应该有5个人,不及格的当然也是5个人,女生也是。这里有一个问题,在交叉列表中,有一个向度是性别,另外一个向度是成绩,行和列交叉在一起,但为什么这个时候我们不说行和列构成一个信息点呢?不是构成一个信息点,而是构成一个信息面,因为这一条线又一条线交叉在一起是一个面。面上的一个格子里面讲的是一个关系,只看观察数和期望数都会发现表中只有四个格子。


3、自由度就是任意度

讲到交叉列表,经常会听到自由度这个词,自由度其实是任意度,即一个格子取任意数的程度。例如我们在界定了边数之后,这个是10,这个也是10,那么他们相对应的期望数的那个格子里可以取多少个数呢?它可以取0到10之间任意一个数。问题是,一旦这个格子取了一个数之后,另外三个格子的数就被确定了。二乘二表里面的自由度是1,就是只有一个格子可以取边数限定的任意一个数。我们现在来看性别与成绩是否有显著的关系,根据前面所知,期望数是根据零假设得到的,而零假设是假定性别和成绩没有关系,那么说明,至少在这个问题上面,这个老师是公平的。如果我们抽到的20个同学,观看他们的成绩单之后发现观察数与期望的情况完全相同,那么就说明这个老师是公平的,此时观察数与期望数的误差是零。我们之前说到用平均值做预测,误差在加总之前要先平方,这个地方也是一样的,卡方,即平方值的一个总和。

 怎么样来衡量这个误差的程度呢?这里有一个公式。(观察值—期待值)2除以期待值之后加总。卡方值越大,意味着预测的情况跟实际的情况差距越大,而预测是根据零假设做出来的,零假设是说:性别与成绩没有关系。那么如果零假设成立的话,我们抽到这么如下图这样的样本有多大。

根据计算卡方值的公式可以得出以下结果。

这里比较复杂的是,只有一个自由度,那么就意味着二乘二表里只有一个格子是可以自由变化的。在这种情况下,卡方值为0.455的概率是50%。(50%为什么那么重要呢?因为50%是社会科学里面约定的,可以放弃零假设的一个标准)0.02概率对应的卡方值是5.414,0.01概率对应的卡方值是6.635,0.001对应的卡方值是10.827。意味着什么呢?卡方值越大,出现的概率越小。当然有一个前提是在给定自由度的情况下。如果卡方值已经等于10或者大于10了,那么就是说假如零假设成立,抽出这么一个样本的概率是千分之一。

根据上图,一个接近10的卡方值,在自由度为1的情况下,意味着什么?它的概率是介于百分之一到千分之一之间,也就是说如果零假设成立,我们抽到这么一个概率的可能性是小于百分之一大于千分之一的。那如果我们愿意冒百分之五的弃真的风险,这个时候的决定就很清楚,我们要放弃零假设。放弃零假设就等于变相的来说这个老师有严重的性别歧视的嫌疑。这里需要提醒大家的是,做卡方值检验的时候要注意两个方面的东西,既要看卡方值的大小,又要看自由度的多少。所谓自由度,刚才举的例子,一个表里面如果有四个格子,那么只有一个格子是可以取任意数的。(自由度是行数减一乘上列数减一)为什么自由度越多,需要的卡方值就越大呢?(需要的卡方值是指自由度越多,我们愿意冒一类风险的卡方值就越大。)自由度越多,格子就越多,格子里面偶然出现差异的可能性就越大,即卡方值就越大。

这一节,大家需要了解的是,我们做线性分析或者定比变量的变异的时候,我们用平均值做参照。如果是遇到定类变量和定序变量的时候,平均值是没有意义的。但是这个时候我们预测也要有一个依据,这个依据就是假定零关系。而且是总体里面两个变量的变异是零关系。在卡方检验的时候,零关系就是卡方值等于零。如果不等于零,我们就要看这个不等于零的数,值不值得被你关注,即它是不是显著的。如果是做显著性检验,最后发现不能放弃零假设,因为它是显著的。那么我们就要继续分析它背后的原因,继续分析的时候就遇到一个问题了。比如说要解释一个学生到底及格还是不及格。我们前面假定的情况是说他们用功程度一样,最后表现也是一样的。现实世界中不是那么简单的,总是有人成功有人不大成功,有人能当经理,有人当不了经理。那么我们就要分析是什么原因使这些人当上了经理,而另外一些人没有当上经理呢?这个时候我们分析的因变量 是单纯的0和1,但是背后的因素有很多。我们做交叉列表的局限性就很大,比如说我们可以做当经理与否的二乘二表,但是有人会质疑说这是跟教育程度有关的。但是如果把教育程度放进去,就很难看明白了。这个时候我们既要解释从0到1的变化,又要考虑到从0到1的变化背后有很多的原因,很多的原因是不能用列表的方式显示的,因为这个列表会很复杂。下一节我们会学到如何来解决这个问题。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多