如果你在数据科学领域还只是个新手,那么建议你先看看《五本书带你入门数据科学》,入门之后,再看《R语言案例实战》系列。 辛普森悖论 当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。 该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。 辛普森悖论案例 一所美国高校的两个学院,分别是法学院和商学院。新学期招生,人们怀疑这两个学院有性别歧视。现作如下统计: 法学院: 商学院: 根据上面两个表格来看,女生在两个学院都被优先录取,即女生的录取比率较高。现在将两学院的数据汇总: 在总评中,女生的录取比率反而比男生低。 辛普森悖论原因分析 辛普森悖论出现的原因,可以使用下面这幅图来进行解答。 在上面这个图形中,X 轴代表申请的总人数,Y 轴代表录取的人数,那么 Y/X,也就是直线的斜率,和录取率正相关。 (a1, a2) 代表法学院的男生,(A1, A2) 代表法学院的女生。可以看到,法学院女生的斜率比法学院男生的斜率要高,代表法学院女生的录取率比法学院的男生的录取率要大。 同理,(b1, b2) 代表商学院的男生,(B1, B2) 代表商学院的女生。可以看到,商学院女生的斜率比商学院男生的斜率要高,代表商学院女生的录取率比商学院的男生的录取率要大。 尽管如此,来看总体直线的斜率,总体男生的斜率 (A1+B1, A2+B2) 的斜率,比总体女生的斜率 (a1+b1, a2+b2) 的斜率,还要大。 这个就是辛普森悖论的图形化解释,非常直观清晰。 如何避免辛普森悖论 为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时,我们必需清楚了解情况,以综合考虑是否存在造成此悖论的潜在因素。 |
|
来自: 昵称41082923 > 《科学》