戏说统计学习笔记（6）——卡方检验

心理諮商張老師 2019-02-08

展开全文

我们已经发出了李连江教授的《戏说统计》课程中的五篇学习笔记：相关分析、显著性检验、回归分析、多元回归分析、因子分析与量表构造。今天，我们将发出第六篇学习笔记：卡方检验。希望我们的整理可以继续供大家讨论学习。

卡方检验

提纲：

1.卡方值的计算

卡方，是指平方值的总和，即（观察值—期待值）2除以期待值之后加总。

2.期待值是根据零假设预测的

3.自由度就是任意度

自由度是行数减一乘上列数减一

正文：

1.卡方值的计算

一个定类变量的变化如性别的变化与另外一个变量的变化（定类或定序）好像有关系，这个时候要判断到底有没有关系，需要做一个显著性检验，但是这个时候的显著性检验没办法做T检验，因为这两个变量没有整体分布，无法计算T值，因此要计算卡方值。

以下以大学环境为例:

设想一种情况：学生投诉某个老师在给分的时候不公平，这种不公平是向着某个性别。提出这个指控之后，为了说服领导，需要去检验它。假设老师教过一万个学生，而这一万个学生里面男生和女生各个方面都相同，如智商，入学之前的知识背景，上课时候的用功程度，最后考试的时候答题的分数。再假设每次考试的时候老师给分都是及格和不及格，而且每次都是一半及格一半不及格。

2、期待值是根据零假设预测的

根据这些条件，我们可以做检验了，而我们没有办法一一去看那一万个学生的情况。上面所说的都是假定的总体的情况，但是我们可以去抽样。设计一个抽样程序，每次只抽二十个人，抽到如图所示的情况——男生10个，女生10个，及格10个，不及格10个。我们现在可以做一个研究假设和一个零假设。研究假设：老师给分及格与否与性别有关系。零假设是无关。我们需要注意的是，这个时候的指控与零假设都是指的整体。学生说这个老师有歧视，肯定不是说歧视了自己，而是歧视了所有的男生，讲的是总体的情况。但是总体我们不知道，我们做一个零假设就是假设总体里面这两个变量之间的关系为零。如果关系为零的话，我们去抽样，抽到二十个人，10个男生，10个女生，10个及格，10个不及格。如果性别与成绩没有任何关系，而其他条件都相同的情况下，及格与否就完全是靠运气。这个时候我们根据零假设，就能够做一个期待，算出期待值。即10×10除以20，得出期望数5。这个数就是根据零假设看到的，如果10个男生，10个女生，10个及格，10个不及格，那么男生里面及格的应该有几个人呢，应该有5个人，不及格的当然也是5个人，女生也是。这里有一个问题，在交叉列表中，有一个向度是性别，另外一个向度是成绩，行和列交叉在一起，但为什么这个时候我们不说行和列构成一个信息点呢？不是构成一个信息点，而是构成一个信息面，因为这一条线又一条线交叉在一起是一个面。面上的一个格子里面讲的是一个关系，只看观察数和期望数都会发现表中只有四个格子。

3、自由度就是任意度

讲到交叉列表，经常会听到自由度这个词，自由度其实是任意度，即一个格子取任意数的程度。例如我们在界定了边数之后，这个是10，这个也是10，那么他们相对应的期望数的那个格子里可以取多少个数呢？它可以取0到10之间任意一个数。问题是，一旦这个格子取了一个数之后，另外三个格子的数就被确定了。二乘二表里面的自由度是1，就是只有一个格子可以取边数限定的任意一个数。我们现在来看性别与成绩是否有显著的关系，根据前面所知，期望数是根据零假设得到的，而零假设是假定性别和成绩没有关系，那么说明，至少在这个问题上面，这个老师是公平的。如果我们抽到的20个同学，观看他们的成绩单之后发现观察数与期望的情况完全相同，那么就说明这个老师是公平的，此时观察数与期望数的误差是零。我们之前说到用平均值做预测，误差在加总之前要先平方，这个地方也是一样的，卡方，即平方值的一个总和。

怎么样来衡量这个误差的程度呢？这里有一个公式。（观察值—期待值）2除以期待值之后加总。卡方值越大，意味着预测的情况跟实际的情况差距越大，而预测是根据零假设做出来的，零假设是说：性别与成绩没有关系。那么如果零假设成立的话，我们抽到这么如下图这样的样本有多大。

根据计算卡方值的公式可以得出以下结果。

这里比较复杂的是，只有一个自由度，那么就意味着二乘二表里只有一个格子是可以自由变化的。在这种情况下，卡方值为0.455的概率是50%。（50%为什么那么重要呢？因为50%是社会科学里面约定的，可以放弃零假设的一个标准）0.02概率对应的卡方值是5.414，0.01概率对应的卡方值是6.635，0.001对应的卡方值是10.827。意味着什么呢？卡方值越大，出现的概率越小。当然有一个前提是在给定自由度的情况下。如果卡方值已经等于10或者大于10了，那么就是说假如零假设成立，抽出这么一个样本的概率是千分之一。

根据上图，一个接近10的卡方值，在自由度为1的情况下，意味着什么？它的概率是介于百分之一到千分之一之间，也就是说如果零假设成立，我们抽到这么一个概率的可能性是小于百分之一大于千分之一的。那如果我们愿意冒百分之五的弃真的风险，这个时候的决定就很清楚，我们要放弃零假设。放弃零假设就等于变相的来说这个老师有严重的性别歧视的嫌疑。这里需要提醒大家的是，做卡方值检验的时候要注意两个方面的东西，既要看卡方值的大小，又要看自由度的多少。所谓自由度，刚才举的例子，一个表里面如果有四个格子，那么只有一个格子是可以取任意数的。（自由度是行数减一乘上列数减一）为什么自由度越多，需要的卡方值就越大呢？（需要的卡方值是指自由度越多，我们愿意冒一类风险的卡方值就越大。）自由度越多，格子就越多，格子里面偶然出现差异的可能性就越大，即卡方值就越大。

这一节，大家需要了解的是，我们做线性分析或者定比变量的变异的时候，我们用平均值做参照。如果是遇到定类变量和定序变量的时候，平均值是没有意义的。但是这个时候我们预测也要有一个依据，这个依据就是假定零关系。而且是总体里面两个变量的变异是零关系。在卡方检验的时候，零关系就是卡方值等于零。如果不等于零，我们就要看这个不等于零的数，值不值得被你关注，即它是不是显著的。如果是做显著性检验，最后发现不能放弃零假设，因为它是显著的。那么我们就要继续分析它背后的原因，继续分析的时候就遇到一个问题了。比如说要解释一个学生到底及格还是不及格。我们前面假定的情况是说他们用功程度一样，最后表现也是一样的。现实世界中不是那么简单的，总是有人成功有人不大成功，有人能当经理，有人当不了经理。那么我们就要分析是什么原因使这些人当上了经理，而另外一些人没有当上经理呢？这个时候我们分析的因变量是单纯的0和1，但是背后的因素有很多。我们做交叉列表的局限性就很大，比如说我们可以做当经理与否的二乘二表，但是有人会质疑说这是跟教育程度有关的。但是如果把教育程度放进去，就很难看明白了。这个时候我们既要解释从0到1的变化，又要考虑到从0到1的变化背后有很多的原因，很多的原因是不能用列表的方式显示的，因为这个列表会很复杂。下一节我们会学到如何来解决这个问题。