χ2 检验（卡方检验）

hercules028 2023-02-08 发布于四川

展开全文

分类数据

数据按照测量尺度不同可以分为 3 种数据，如表 10-2 所示。

数值型数据最常见，如收入 10 000 元，身高 170cm，手机 4000 元，企业一年销售额100 万元，等等。

如果数据按分类结果表现，就是分类数据，大多是文字表述的。例如，人可以分为男性和女性，企业可以分为国企和民企，国家可以分成发展中国家和发达国家。也有用数字表示的分类数据，尤其在大数据时代，很多统计算法要通过计算机完成，经常会用数字表示类别，如 0、1、2 等分别代表某一类事物，这里的数字本质上已经不是数值了，只是代表事物类型，本质上是文字。

数值型和分类数据也可以转换。例如，手机价格是数值型数据，如果要对手机按价格分档，可分“入门手机”“中档手机”“高档手机”等。

顺序数据也是分类的，但是是有顺序的分类，如一等产品、二等产品、三等产品。考试成绩可以分为 A+、A、A-、B+、B、B-、C+、C、C- 等。

分类数据和顺序数据是定性数据，数值型数据是定量数据。

了解分类数据很重要，因为 χ2 检验就是为分类数据服务的。

列联表（双向表）

一个超市认为方便面在冬天比夏天卖得好，于是对上一年度的方便面销量做了统计，是按照季节和包装两个属性交叉得到的统计数据，如图 10-14 所示。

图 10-14　超市上一年度方便面销量

销售季节和包装都是表示类别的变量，在图 10-14中，销售季节是“行变量”，每一行代表一个季节，包装是“列变量”，每一列代表一种包装方式。数字对应每一个季节卖掉相应包装的数量。

列联表可以直观地展示每个变量的分布。最右侧的总数列下的每一行代表每个季节的销量，最底部的总数行右侧的每一列代表每个包装的销量。可以很容易地计算类别百分比：

通过表中的总数数据很方便对照比较，例如可以看出袋装比碗装销售的好，冬季比夏季销售得好。但这是真实情况还是偶然的，显著性检验可以回答这个问题。

χ2 检验（卡方检验）

某互联网金融平台将借贷人分成 A、B、C 3 类，A是评分最高的，B 中等，C 最低。平台想了解逾期情况是否和借贷人等级有关，分别从 3 类客户中抽取 30 个借贷人，这些借贷人的逾期还款统计，如图10-15所示。

图 10-15　借贷人类别和还款情况

χ2 检验也是假设检验，χ2 读音“卡方”，和 t 检验的思路是相同的，差别在于 χ2 统计量和 t 统计量的计算方法不同，查询的分布表也不同。

第一步，建立假设。

零假设：在该平台所有的借贷人中，逾期情况和借贷人的等级没有关系。

对立假设：逾期和借贷人等级确实存在相关关系。

第二步，设置零假设的显著水平。平台认为这次的检验结果十分重要，要显著水平很高才可以接受，所以设定为 1%。

第三步，选择合适的统计量。分类数据的检验用 χ2 检验。

第四步，计算统计量。

统计量都是用零假设下的预期值和观测值作对比，现在已知观测值，如图 10-15 所示，3 类人总人数还是 90 人，正常还款总人数是 72 人，逾期未还款总人数是 18 人，如果零假设的预期值是 3类人的还款人数和逾期人数都相等，那 72/3=24 人，每一类的逾期人数应该是 18/3=6 人。零假设下的逾期如图 10-16 所示。

　图 10-16　零假设下每组人的逾期人数相同

χ2 统计量的计算公式如下。

∑是指列联表中每个数字的加总。

χ2 统计量对应 A 类借贷人中正常还款的数字为：

将表格中计算的所有数字相加。

现在，可以确定 χ2 值是 9.375。

χ2 分布的自由度是（列数 -1）*（行数 -1）=（2-1）（3-1）=2

第五步，使用对应的分布表确定推翻零假设的临界值。

卡方分布曲线和 t 分布曲线一样，都是一簇曲线，随着自由度的变化而变化，如图 10-17 所示。当自由度越大，越趋向于正态分布曲线。

图 10-17 χ2 分布自由度为 1、4、12 的曲线

和 t 分布一样，χ2 分布也有临界值表，同样也可以用 Excel 生成临界值表，操作步骤如下。A1 单元格中的 df 指的是自由度，α 是置信水平的临界点，B1:H1 单元格区域是置信水平临界点，可以预先输入常用的显著水平。A2:A31 单元格区域是自由度。

在B2单元格输入以下公式，并向下向右复制填充到B2:H31单元格区域，如图10-18所示。

=CHISQ.INV.RT(B$1,$A2)

本例中的自由度是 2，置信水平是 0.01，在图 10-18 中可以找到临界值是 9.21，χ2 值是 9.375，大于临界点，可以推翻零假设。逾期情况和借贷人的等级是相关的。

图 10-18 χ2 分布临界值表

用 Excel 做 χ2 检验

Excel 的数据分析工具中没有 χ2 检验，需要用函数来完成 χ2 值和 p 值的计算。如 10.2.3节中借款逾期的例子，在确定了零假设的期望值后，即可用函数计算 p 值和 χ2 值，如图 10-19 所示。

图 10-19　计算 p 值和 χ2 值

在 K2 单元格的公式如下。

=CHISQ.TEST(B2:C4,G2:H4)

在 L2 单元格的公式如下。

=CHISQ.INV(1-K2,2)

CHISQ.TEST 函数可以计算真实值和预期值之间的差距并得到 p 值，这要求真实值和预期值的表的行和列要完全相等，也就是表格形状完全一样，如果行列不等，结果会返回错误值。

由于 CHISQ.TEST 直接得到了 p 值，并未展现中间过程，所以求 χ2 值可以在已知 p 值后，通过 CHISQ.INV 函数得出。

可以看到用 Excel 可以得出和之前一样的 χ2 值 9.375，但是该值是否足够推翻零假设，依然需要查询图 10-18 的 χ2 分布临界值表。在 Excel 中，相比 t 检验和 z 检验有方便的数据分析工具完成全部分析，χ2 检验只能完成部分分析，最后的临界值对比依然要查表操作。

如果将该例中的置信水平调的更严格一些，为 0.005，那么临界值就是 10.06，χ2 值 9.375是小于临界值的，这样就不能推翻零假设。在实际工作中，有分析师认为该变量不显著而将其去掉，就必须要说明该变量的显著水平和 χ2 值是多少，是否和业务逻辑相符，如果不关注显著水平和 χ2 值，而直接剔除某些变量，则会出现较大的数据偏差。

END

京东，ExcelHome畅销书全场5折！