分享

离群值是取是舍,这是一个哲学问题?

 松哥精鼎统计 2020-10-23

当我们辛辛苦苦,终于拿到研究数据,以为即将大功告成,可是数据预分析发现,出现为数不少的离群值,是咬牙忍痛舍去,还是强行挽留分析?这是一个非常现实的问题!

离群值可能是异常值,还可能是极值。不能看到离群值就当做异常值,残忍杀之!

那怎样判断离群值到底是极值还是异常值呢?
极值的极端

极值是指测量值的随机波动的极端表现,它虽然与其他值相差甚远,但仍然处于统计学上所容许的合理的误差范围之内,与其余数据属于同一总体,是局内值。

异常值的解读

离群值也可能是与其余数据不属于同一总体的局外值,也就是异常值。如果分析数据时混有局外值,必然会歪曲试验的结果。此时若能将异常值舍去,必然提高分析结果的正确性。但若将本来不是异常值的测量值当做异常值舍去,虽然得到的数据分散性较小,精度较高,而此时的结果实质上也是虚假的,并不是客观的反映。

对待离群值应该谨慎处理,有时离群值可能导致意外的发现,这在近代科学中有着很多的例子啦!。

离群值的处理方法
1

周密实验数据            

如果实验是在周密的实验设计与指导下获得的实验数据,一般不应该随意舍去。

2

一旦发现,谨慎处置            

一旦发现离群值,应该认真核查、溯源,确认数据确实错误而无法纠正,可以直接删除,如高校大学生调查,发现某个学生年龄130岁。明显不符合逻辑,核查数据没法找到该学生获取准确数据,则可以删除。

3

无因可查,怎么办?            

若离群值核查找不到原因,可以考虑将离群值做删除前后两次分析,若结果矛盾,则保留,若结果一致则删除。

4

如何判断离群值呢?            

离群值的判定方法,3S法,Grubbs和Dixson法,我们常用的是3S法。但3s一般只适用于正态分布,且样本量较大(n大于等于60),n小时,此法不适用。至少大于10,因为n小于10,无论可疑值多大,均不会超过3S。

5

软件识别法            

常规软件都可以做,这里简单介绍SPSS异常值判定的方法。SPSS可以利用箱式图去发现异常值。随便找了组数据,分析身高是否有异常值。

步骤1:探索分析

步骤2:设置因变量与分组因子(若不设置因子,则分析的就是整体)

步骤3:统计按钮设置,勾选离群值。

步骤4:做箱式图。

步骤5:结果,给出5个极值,注意哦!SPSS里面此处的极值,其实就是步骤3里面的离群值。(这就是SPSS的Bug啦,熟悉的你会发现,SPSS汉化过程中,很多地方不一致的哦!)

步骤6:结果箱式图:注意SPSS里面把*标记的定义为异常值,O标记的表示为可疑值。

步骤7:根据图中发现的个案,回溯原始数据,结合上述的原则,进行异常值与极值的取舍。


松哥:离群值存在是个不可回避的事实,离群值包含极值(真正的试验效应结果)与异常值(试验误差导致);极值留而异常值舍。但是如的和判断是极值还是异常值,除了统计识别的方法之外,还要依据自己的专业!统计永远是为专业服务的。前期我们推送过利用回归方法处理异常值,感兴趣的继续学习哦!(异常值的处理只有删除?);OK,这期就掰到这里啦!


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多