搜索

分享

QQ空间 QQ好友新浪微博微信

【原】数据分析前的数据清理--异常值检测

新用户1036Sd8h 2021-06-09

展开全文

对数据的处理是进行数据分析的基础，为保证分析结果的可靠性和正确性，对数据的处理需要考虑三点：

首先，数据录入的准确性以及异常值的处理；

其次，缺失值的处理；

最后，数据是否符合所使用的的分析方法的使用条件。

一、异常值

1.异常值的定义

异常值（outlier）有单变量异常值（univariate outlier）与多变量异常值（multivariate outlier）两种。

2.异常值的来源

（1）过程型错误。如录入、编码或者缺失值定义错误。

（2）异常事件。此时视情况与研究目的进行保留或删除。

（3）异常观测。研究者无法解释的观测值。

（4）各变量都正常，组合起来很异常，即多变量异常值。此情况视分析方法决定是否保留。

3.异常值的检测

A.单变量异常值的检测

（1）标准分检测异常值

样本量<=80，标准分>=2.5 & <=2.5视为异常值；

样本量>80，可提高标准分的临界值，最高为4。

spss操作：

分析>描述统计>描述>将标准化值另存为变量

（2）盒式图

小于下四分位数减去1.5倍四分位距（Q1-1.5*IQR）或大于上四分位数加1.5倍四分位距（Q3+1.5*IQR）的即为异常值。

1.5-3倍四分位距之间的异常值为温和异常值（mild outliers）；

3倍四分位距之外的异常值为极端异常值（extreme outliers）。

在非异常值区间内，最值处画横线，即为箱线图的触须。

spss操作：

图形>图标构建器>选择箱图>双击第一个箱图>将变量从左侧拖动到纵轴

B.双变量异常值的检测

（1）双变量异常值一般通过散点图进行检测。

通过散点图可以初步判断两变量之间是否存在相关关系、相关趋势、是线性相关还是非线性相关以及是否存在异常值。

从下图可初步判断两变量存在线性相关，并且存在异常值。要通过置信区间新型判断，还需要借助其他软件，后续会进行介绍。

C.多变量异常值的检测

（1）马氏距离

多变量异常值可通过计算观测点的马氏距离（Mahalanobis D2）进行检测。

根据经验，小样本时把D2/df的临界值设为2.5，大样本时设为3或4，超过临界值的观测点识别为潜在异常值。

spss操作：

分析>回归>线性>放入变量>保存>标准化>马氏距离

马氏距离的结果：

（2）标识异常个案

spss操作：

数据>标识异常个案>变量>放入变量>

结果：

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：新用户1036Sd8h > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

新用户1036Sd8h

关注对话

TA的最新馆藏

配对样本的非参检验-- 符号检验法（sign test）与符号等级检验法（Wilcoxon test）
中位数检验法
独立样本四格表卡方检验
三因素完全随机实验的方差分析
两因素完全随机嵌套实验设计的方差分析
两因素混合实验的方差分析

喜欢该文的人也喜欢更多

热门阅读换一换