分享

探索分析箱式图的胡须为什么是1.5Q,凭啥呢?

 松哥精鼎统计 2020-10-23
缘起

我们在对数值变量进行探索性分析时,可以采用箱式图进行可疑值或异常值的发现。然而很多人问,为什么箱式图的触须是1.5倍的Q(四分位数间距)呢?

如下图所示:

SPSS中如此解释:盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线为上下四分位数;按照SPSS默认选项,如果所有样本中的数目都在离四分位点1.5倍盒子长度之内,则线的端点为最大和最小值,否则线长就是1.5倍盒子长度(盒子长度称为四分位间距),在其外的度量单独点出(1.5圆圈,3倍*号)。

松哥统计说

    意思是,如果有值超过1.5Q的话,那胡须就是1.5Q的位置,如果没有超过1.5Q的数据,那么该胡须的位置就是最大值或者最小值。

   可是为啥规定是1.5Q呢,以前很多人问我,我说那是SPSS规定的呀。其实松哥也没有细想是咋回事!

    按照死磕统计的精神,松哥查到这么一张图,才豁然开朗。如果数据是正态分布的话。Q3+1.5Q约等于2.698σ。而我们知道,均数±2.58σ所占面积为曲线下面积的95%。1.5Q与对应2.698σ与2.58标准差非常接近。1.5倍比较好计算或者记忆罢了,也是近似,不是绝对精准。但对描述数据分布已经是足够。

   这种近似的精神在统计中常常存在,均数±1.96σ占曲线下95%,但1.96不容易记忆,实际应用直接是±2σ;2.58σ实际应用就是±3σ,也就是所谓的3σ原则。


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多