分享

如果不懂统计,你会被骗的很幸福!

 松哥精鼎统计 2020-10-23
导读

对于集中趋势(或者平均水平)的描述,很多的时候,我们很喜欢用均数(mean),如果你资料符合对称分布,这本身没有错,关键您要明白均数背后的含义!

平均数和你个人没有半毛钱的关系!平均数只对描述的整体数据集有意义!

平均数和你没有半毛钱的关系

比如你们同学聚会,先到了9人,人均资产100万元/人,马云也是你们同学(百度了一下,福布斯2018调查,马云资产390亿美元),算上马云,则你们同学10人平均资产约3.9亿,按照平均数算,各个都是亿万富翁了。可是是的嘛?那个3.9亿和您有半毛钱的关系吗?

某市调查,该市人均住房面积达到75平方米,你达到了吗,如果富人再多买几套,人均住房面积还会增加,你是更加幸福了呢,还是更加痛苦了呢?

平均数

平均数是利用某数据集中所有数据之和,然后除以样本量。平均数的计算全员参与,代表性较好。但是平均数计算只适用于对称分布,并且不能有极端值的时候,如果存在极端值,则会对平均数影响巨大。

中位数应运而生

中位数是一组数据按照数值大小排列,然后位次居中的数。中位数的计算,不会受到极端值的影响,相对于平均数比较稳定。比如5、4、3、6、7。这5个数的中位数5,如果再加1个10000,那么中位数是(5+6)/2=5.5,比前面的中位数也就大0.5.而如果计算均数的话,不用说,你也知道会增大多少。

中位数

只要你的数据能够按照大小排出顺序,就可以用中位数进行统计集中趋势描述(平均水平);虽然很好,但一般常用于偏态分布的时候。而对于对称分布,无极端值的时候,我们会优选平均数(mean)。

敲黑板:当数据符合对称分布或者正态分布的时候,平均数=中位数。

花絮

有个快餐店的老板很注重数据分析,请了个数据分析师,对该店的客流进行分析,并提出指导性的建议。

该统计师分析发现,该店客流的进店的中位数时间为下午3-4点时间段。写了数据分析报告,向快餐店老板建议,在下午3-4点,加大快餐店服务员的数量,因为数据显示下午3-4点是客流中位数。

老板当时就哭了,我滴个神啊,下午3-4点,饭店根本就没有人啊,我还加大服务员的数量。

可见,只懂统计皮毛,不懂统计,不进行专业理解的统计师,是多么的可怕。

原因分析

快餐店一般早餐没生意,主要做中午和晚餐的生意,中午一般11点到1点人流高峰,晚上一般5点-7点人流高峰。因此该分析师分析出中位数进店时间为下午3-4点左右。

对于这种类型 都分析需求,我们是不要算中位数的。

众数的诞生

众数是一组数据中,出现频次最多的数,上例分析中,如果采用众数,就可以发现中午和晚上为该店客流的众数时间段,就恶意发现该店的客流规律。

我们怎么办

当您想知道,某一个数据集的平均水平,可以考虑均数和中位数。

均数:对称分布或正态分布,并且无极端值。

中位数:常用于均数不能用的时候,作为补充。如对称分布有极端值,或者本身就是偏态分布;

众数:您想知道,一个数据集中,那种数据出现的次数最多或者次多。

另:均数只适用于数值变量资料;中位数适用于数值变量、等级变量;众数适用于数值变量、等级变量以及分类变量。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多