分享

找到数据中的异常值

 吴敬锐 2019-12-03

偏离了原来数据的变化轨迹,就可以视为异常值。

判断业务异常值的标准大致有以下几个。

(1)特别大(小)

如果在业务值中出现了特别大或特别小的值,那么就可以认为是异常值。什么叫特别大或者特别小呢?一般以数据的平均值作为比较的标准,如果超出平均值的50%以上或者小于平均值50%以上,就可以视为平均值了。

(2)脱离箱体

“箱体”本来是一个金融术语,特指股票价格在一个近似矩形的范围内波动,股价运行到箱体的上沿,基本上就会下跌,股票运行到箱体的下沿,基本上就会反弹上涨。

(3)趋势改变

如果本来一个值是上升的,现在下降了,或者反过来,本来是下降的,现在不降反升了,那么这就代表趋势发生了改变。

(4)变化率的变化

从严格意义上讲,变化率的变化也属于趋势变化的范畴,也就是说原来增长得很快,现在增长率下降了,这就属于变化率的变化,实际上也算是趋势变化的一个变种吧。

用绘图技巧找到异常值

绘图法在数据分析中扮演着重要的作用,不仅直观,而且简单。

散点图

下图是针对B列冰箱和C列彩电绘制的散点图。

找到数据中的异常值

1)这两个系列的数据,大部分在10万~80万;

2)蓝色的冰箱系列的数据要大于红色的彩电系列;

3)80万以上的数据可以视为异常值。

面板图

通过散点图可以比较有效地观察数据的情况,在散点图的基础上发展起来的面板图则功能更加强大。

在SPSS中绘制面板图

找到数据中的异常值

进入“散点/点状”界面后,选择简单分布,如图所示。

找到数据中的异常值

然后会弹出图所示的界面。

找到数据中的异常值

上图是实现SPSS面板图的主界面,相对于普通的EXCEL绘图,SPSS绘图提供了更多的选项,可在“设置标记”中填入性别,在“面板依据”中的“行”中填入“推荐”这个字段,“列”中填入“教育程度”这个字段。看看下图所示的效果吧!

找到数据中的异常值

上图就是典型的面板图,实际上就是用“性别”、“教育程度”、“推荐”来做成一个个像小格子一样的散点图,这样就可以一目了然地观察数据啦!例如从“推荐”的角度看,1和2的数据是比较密集的,因此要重点关注数据密集的区域的数据的分布规律。

三倍标准差法

现在来系统地看看“三倍标准差法”,先来看数据的移动平均,对于下面的数组序列:

3,4,4.2,5,5.6,6,6.1,7,7.5,6.4

如果计算其移动平均,按照周期为3计算,那么第一个移动平均值的计算方法如下:

(3+4+4.2)/3=3.73

按此方法,可类推计算出后续的移动平均值。

从统计的角度看,这一连串计算得到的移动平均值反映了数据“应该是什么”,也就是说数据变化的中轴是什么。在EXCEL中计算移动平均很简单,就是average函数。

再来看数据的波动情况,通常用标准差来反映数据的波动情况,EXCEL中的函数是STDEV,那么三倍标准差的含义是:

1)如果数据在平均值的正负一倍标准差范围之内波动,则视为正常波动;

2)如果数据在平均值的正负一倍标准差范围之外,并且在两倍标准差的范围内波动,则视为普通告警;

3)如果数据在平均值的正负二倍标准差范围之外,并且在三倍标准差的范围内波动,则视为较严重告警;

4)如果数据在平均值的正负三倍标准差范围之外,则视为严重告警。

下图可以更加清晰地看到数据的波动和告警情况。

找到数据中的异常值

另外一个重要的规则是:数据波动超过三倍标准差的概率不超过5%。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多