分享

数据分析前的数据清理--异常值检测

 新用户1036Sd8h 2021-06-09

对数据的处理是进行数据分析的基础,为保证分析结果的可靠性和正确性,对数据的处理需要考虑三点:

首先,数据录入的准确性以及异常值的处理;

其次,缺失值的处理;

最后,数据是否符合所使用的的分析方法的使用条件。

一、异常值

1.异常值的定义

异常值(outlier)有单变量异常值(univariate outlier)与多变量异常值(multivariate outlier)两种。

2.异常值的来源

(1)过程型错误。如录入、编码或者缺失值定义错误。

(2)异常事件。此时视情况与研究目的进行保留或删除。

(3)异常观测。研究者无法解释的观测值。

(4)各变量都正常,组合起来很异常,即多变量异常值。此情况视分析方法决定是否保留。

3.异常值的检测

A.单变量异常值的检测

(1)标准分检测异常值

样本量<=80,标准分>=2.5 & <=2.5视为异常值;

样本量>80,可提高标准分的临界值,最高为4。

spss操作:

分析>描述统计>描述>将标准化值另存为变量

(2)盒式图

小于下四分位数减去1.5倍四分位距(Q1-1.5*IQR)或大于上四分位数加1.5倍四分位距(Q3+1.5*IQR)的即为异常值。

1.5-3倍四分位距之间的异常值为温和异常值(mild outliers);

3倍四分位距之外的异常值为极端异常值(extreme outliers)。

在非异常值区间内,最值处画横线,即为箱线图的触须。

spss操作:

图形>图标构建器>选择箱图>双击第一个箱图>将变量从左侧拖动到纵轴

B.双变量异常值的检测

(1)双变量异常值一般通过散点图进行检测。

通过散点图可以初步判断两变量之间是否存在相关关系、相关趋势、是线性相关还是非线性相关以及是否存在异常值。

从下图可初步判断两变量存在线性相关,并且存在异常值。要通过置信区间新型判断,还需要借助其他软件,后续会进行介绍。

C.多变量异常值的检测

(1)马氏距离

多变量异常值可通过计算观测点的马氏距离(Mahalanobis D2)进行检测。

根据经验,小样本时把D2/df的临界值设为2.5,大样本时设为3或4,超过临界值的观测点识别为潜在异常值。

spss操作:

分析>回归>线性>放入变量>保存>标准化>马氏距离

马氏距离的结果:

(2)标识异常个案

spss操作:

数据>标识异常个案>变量>放入变量>

结果:

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多