分享

你能读懂箱线图的异常点吗?「标杆精益」

 hyjohnnie 2022-02-20

全文总计1783字,需阅读5分钟,以下为今天的益者原创:

箱线图(Box plot)也叫箱须图(Box- Whisker plot),是一种统计学工具。与分布曲线类似,它也表示数据分布,常用于直观观察统计量分布,以及样本之间对比。

1977年,美国数学家John W. Tukey首先在他的著作《Exploratory Data Analysis》中介绍了箱形图。箱线图结构简单容易理解,既可以反映位置参数如中位数,又可以反映数据波动。因为箱线图简洁、直观的特点,所以从试验数据研究,到人力资源分析,到股市等领域都有很广泛的应用。

01. 箱线图结构

文章图片1

如图中所示意,箱线图涉及到5个统计量,分别是:上限、下限、第一分位数Q1(下四分位数)、第二分位数Q2(中位数)、第三分位数Q3(上四分位数)

02. 什么是异常值

箱线图中除了箱体和上下限之外,我们经常还会看到一些异常点。要读懂异常值我们需要首先理解下面几个概念:

△ 四分位距IQR:我们知道三个分位数Q1,Q2,Q3,那么四分位距就是Q3-Q1,也就是说上下四分位数的差值。

△ 上下限:上下限并不是整个数据样本的最大值和最小值,而是Q3 1.5IQR(上限)和Q1-1.5IQR(下限),在上下限这里分别划出两条线段作为异常值的分界点。

那么在箱线图中,上下限之间就是数据样本的正常分布区间,超出上下限就定义为异常值。而异常值又可以细分为温和异常值和极端异常值,如果在Q3 3IQR和Q1-3IQR处再画两条线段:

△ 温和异常值(Mild outliers):介于Q3 1.5IQR与Q3 3IQR之间,或Q1-3IQR 与Q1-1.5IQR之间的异常点,通常用圆圈●或○表示。

△ 极端异常值(Extreme outliers)超出Q3 3IQR或Q1-3IQR之外的异常点,通常用星号*表示。

△ 需要说明的是异常点的符号并没有固定的标准,比如在Minitab中的箱线图就使用了星号表示, 见下图(Minitab采用1.5IQR)。

文章图片2

03. 箱线图的模型意义

如果我们对比箱线图与正态分布模型,就不难看出箱线图的模型意义。

与正态分布图大致对应。我们知道正态分布图包含信息丰富,其相关的分析方法和应用也很广泛,比如常见的3σ法则、Z分数方法,但是其重要的前提是数据本身统计受控或正态分布。

而实际当中数据不一定服从正态分布(非正态或者未知分布),那么有没有一个简单的模型,既方便反映数据分布状态,又能与正态分布有大概的对应关系?箱线图就为我们提供了这样的机会。

按照3σ法则,正态分布的±3σ的区间涵盖了99.73%的数据。而箱线图中四分位距IQR(Q3-Q1)包含了50%的数据,大致对应±0.67σ,上下限之间包含了99.3%的数据,大致对应±2.7σ。

那么就可以简单地用三个四分位数和上下限去体现一个分布,异常点的个数约为总数的0.7%,虽然箱线图模型基于经验,与正态分布的对应关系也比较粗略,但是它简单直观实用,这就是箱线图的模型意义。

耐抗性好,异常值客观。正态分布基于均值和标准差进行模型计算,但是均值和标准差的耐抗性不好,异常值本身(尤其是极端异常值)也会对其产生影响。对于非正态分布,这种影响会更大。


而箱形图判断异常值是基于四分位数和IQR,耐抗性就强很多,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值的识别就比较客观,这也是箱形图的一个优越性。

文章图片3

04. 对异常值的分析与处理

我们了解了箱线图的结构,以及异常值的计算逻辑,那么异常值对我们分析数据有何影响?又该更深层地理解和处理数据样本中的异常值呢?

首先不要轻易地剔除异常值。箱线图是实际数据的呈现,因此从客观性的角度出发,原则上不要去人为去除一些数据。

接下来要明确异常值的来源。异常点可能是因为数据记录错误,比如以m为单位的身高数据中出现了185这种数据点(这种情况可以直接改正);有些是来源于记录过程中的过程波动;也有的可能是因为数据分布特点,比如偏态分布等。

了解异常值来自哪里,接下来才能正确分析处理。过程波动造成的异常点可以帮助识别波动源查找问题,偏态分布的异常点可以识别正偏还是负偏,自由度和尾重情况。

另外,在许多应用场景下,箱线图其实是为我们总览分布、分析波动、对比样本提供参考。有异常点并不代表样本本身异常,所以很多时候异常值的存在并不影响这些分析研究。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多