大家好啊,今天承接上篇给大家介绍一下数据异常值相关知识,在原理这块需要点数学基础。 上篇文章传送门 异常值概念最早的定义由 Hawkins 提出:“异常是在数据集中与众不同的数据,使人们怀疑这些数据并非随机产生的,而是产生于完全不同的机制;常见称呼由孤立点、离群点、噪音等。 以我近期操作的气象数据为例(见下图) 在日降雨量中出现32766数值,结合数据自带相关特征值说明,很容易理解32766不可能代表实际意义; 除说明外,还需从数据整体上判断数值是否存在异常(如x地x年x天出现百年一遇暴雨事件,会让该值偏离其他数据,但此时数据是真实的,这时需对数据进行异常值检测。)
异常值检测常用方法统计分析该方法需要一定经验,可通过简单查看最值判断是否在合理方法(亦有帖子写为:业务经验) 3σ原则/拉依达准则(三倍标准差)
3σ原理
利用excel计算数据平均值,标准差,3倍标准差等,判断数据范围是否在值域即可;可先判最值是否在该值域,从而快速筛选异常值 在Excel中使用3σ原则
Z-score(同n倍标准差法则)前提:服从正态分布(也称高斯分布),公式为 xi是一个数据点,μ是所有点xi的平均值,δ是所有点xi的标准偏差
Zthr值一般设置为2.5、3.0和3.5
Spss操作示意图 Spss结果图 箱型图/箱式图
|
|