分享

χ2 检验(卡方检验)

 hercules028 2023-02-08 发布于四川


分类数据

数据按照测量尺度不同可以分为 3 种数据,如表 10-2 所示。
图片
数值型数据最常见,如收入 10 000 元,身高 170cm,手机 4000 元,企业一年销售额100 万元,等等。
如果数据按分类结果表现,就是分类数据,大多是文字表述的。例如,人可以分为男性和女性,企业可以分为国企和民企,国家可以分成发展中国家和发达国家。也有用数字表示的分类数据,尤其在大数据时代,很多统计算法要通过计算机完成,经常会用数字表示类别,如 0、1、2 等分别代表某一类事物,这里的数字本质上已经不是数值了,只是代表事物类型,本质上是文字。
数值型和分类数据也可以转换。例如,手机价格是数值型数据,如果要对手机按价格分档,可分“入门手机”“中档手机”“高档手机”等。
顺序数据也是分类的,但是是有顺序的分类,如一等产品、二等产品、三等产品。考试成绩可以分为 A+、A、A-、B+、B、B-、C+、C、C- 等。
分类数据和顺序数据是定性数据,数值型数据是定量数据。
了解分类数据很重要,因为 χ2 检验就是为分类数据服务的。

列联表(双向表)
一个超市认为方便面在冬天比夏天卖得好,于是对上一年度的方便面销量做了统计,是按照季节和包装两个属性交叉得到的统计数据,如图 10-14 所示。
图片
图 10-14 超市上一年度方便面销量 
销售季节和包装都是表示类别的变量,在图 10-14中,销售季节是“行变量”,每一行代表一个季节,包装是“列变量”,每一列代表一种包装方式。数字对应每一个季节卖掉相应包装的数量。
列联表可以直观地展示每个变量的分布。最右侧的总数列下的每一行代表每个季节的销量,最底部的总数行右侧的每一列代表每个包装的销量。可以很容易地计算类别百分比:
图片
通过表中的总数数据很方便对照比较,例如可以看出袋装比碗装销售的好,冬季比夏季销售得好。但这是真实情况还是偶然的,显著性检验可以回答这个问题。

χ2 检验(卡方检验)
某互联网金融平台将借贷人分成 A、B、C 3 类,A是评分最高的,B 中等,C 最低。平台想了解逾期情况是否和借贷人等级有关,分别从 3 类客户中抽取 30 个借贷人,这些借贷人的逾期还款统计,如图10-15所示。
图片
图 10-15 借贷人类别和还款情况
χ2 检验也是假设检验,χ2 读音“卡方”,和 t 检验的思路是相同的,差别在于 χ2 统计量和 t 统计量的计算方法不同,查询的分布表也不同。
第一步,建立假设。
零假设:在该平台所有的借贷人中,逾期情况和借贷人的等级没有关系。
对立假设:逾期和借贷人等级确实存在相关关系。
第二步,设置零假设的显著水平。平台认为这次的检验结果十分重要,要显著水平很高才可以接受,所以设定为 1%。
第三步,选择合适的统计量。分类数据的检验用 χ2 检验。
第四步,计算统计量。
统计量都是用零假设下的预期值和观测值作对比,现在已知观测值,如图 10-15 所示,3 类人总人数还是 90 人,正常还款总人数是 72 人,逾期未还款总人数是 18 人,如果零假设的预期值是 3类人的还款人数和逾期人数都相等,那 72/3=24 人,每一类的逾期人数应该是 18/3=6 人。零假设下的逾期如图 10-16 所示。
图片
 图 10-16 零假设下每组人的逾期人数相同
χ2 统计量的计算公式如下。
图片
∑是指列联表中每个数字的加总。
χ2 统计量对应 A 类借贷人中正常还款的数字为:
图片
将表格中计算的所有数字相加。
图片
现在,可以确定 χ2 值是 9.375。
χ2 分布的自由度是(列数 -1)*(行数 -1)=(2-1)(3-1)=2
第五步,使用对应的分布表确定推翻零假设的临界值。
卡方分布曲线和 t 分布曲线一样,都是一簇曲线,随着自由度的变化而变化,如图 10-17 所示。当自由度越大,越趋向于正态分布曲线。
图片
图 10-17 χ2 分布自由度为 1、4、12 的曲线
和 t 分布一样,χ2 分布也有临界值表,同样也可以用 Excel 生成临界值表,操作步骤如下。A1 单元格中的 df 指的是自由度,α 是置信水平的临界点,B1:H1 单元格区域是置信水平临界点,可以预先输入常用的显著水平。A2:A31 单元格区域是自由度。
在B2单元格输入以下公式,并向下向右复制填充到B2:H31单元格区域,如图10-18所示。
=CHISQ.INV.RT(B$1,$A2)
本例中的自由度是 2,置信水平是 0.01,在图 10-18 中可以找到临界值是 9.21,χ2 值 是 9.375,大于临界点,可以推翻零假设。逾期情况和借贷人的等级是相关的。
图片
图 10-18 χ2 分布临界值表
用 Excel 做 χ2 检验
Excel 的数据分析工具中没有 χ2 检验,需要用函数来完成 χ2 值和 p 值的计算。如 10.2.3节中借款逾期的例子,在确定了零假设的期望值后,即可用函数计算 p 值和 χ2 值,如图 10-19 所示。
图片
图 10-19 计算 p 值和 χ2 值 
在 K2 单元格的公式如下。
=CHISQ.TEST(B2:C4,G2:H4)
在 L2 单元格的公式如下。
=CHISQ.INV(1-K2,2)
CHISQ.TEST 函数可以计算真实值和预期值之间的差距并得到 p 值,这要求真实值和预期值的表的行和列要完全相等,也就是表格形状完全一样,如果行列不等,结果会返回错误值。
由于 CHISQ.TEST 直接得到了 p 值,并未展现中间过程,所以求 χ2 值可以在已知 p 值后,通过 CHISQ.INV 函数得出。
可以看到用 Excel 可以得出和之前一样的 χ2 值 9.375,但是该值是否足够推翻零假设,依然需要查询图 10-18 的 χ2 分布临界值表。在 Excel 中,相比 t 检验和 z 检验有方便的数据分析工具完成全部分析,χ2 检验只能完成部分分析,最后的临界值对比依然要查表操作。
如果将该例中的置信水平调的更严格一些,为 0.005,那么临界值就是 10.06,χ2 值 9.375是小于临界值的,这样就不能推翻零假设。在实际工作中,有分析师认为该变量不显著而将其去掉,就必须要说明该变量的显著水平和 χ2 值是多少,是否和业务逻辑相符,如果不关注显著水平和 χ2 值,而直接剔除某些变量,则会出现较大的数据偏差。

图片
END

京东,ExcelHome畅销书全场5折!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多