R语言︱异常值检验、离群点分析、异常值处理

宋娃娃姓宋 2017-12-12

展开全文

笔者寄语：异常值处理一般分为以下几个步骤：异常值检测、异常值筛选、异常值处理。

其中异常值检测的方法主要有：箱型图、简单统计量（比如观察极值）

异常值处理方法主要有：删除法、插补法、替换法。

提到异常值不得不说一个词：鲁棒性。就是不受异常值影响，一般是鲁棒性高的数据，比较优质。

一、异常值检验

异常值大概包括缺失值、离群值、重复值,数据不一致。

summary可以显示每个变量的缺失值数量.

关于缺失值的检测应该包括：缺失值数量、缺失值比例、缺失值与完整值数据筛选。

[plain] view plain copy

箱型图的检测包括：四分位数检测（箱型图自带）+1δ标准差上下+异常值数据点。

箱型图有一个非常好的地方是，boxplot之后，结果中会自带异常值，就是下面代码中的sp$out，这个是做箱型图，按照上下边界之外为异常值进行判定的。

上下边界，分别是Q3+（Q3-Q1）、Q1-（Q3-Q1）。

[plain] view plain copy

sp=boxplot(saledata$"销量",boxwex=0.7)
title("销量异常值检测箱线图")
xi=1.1
sd.s=sd(saledata[complete.cases(saledata),]$"销量")
mn.s=mean(saledata[complete.cases(saledata),]$"销量")
points(xi,mn.s,col="red",pch=18)
arrows(xi, mn.s - sd.s, xi, mn.s + sd.s, code = 3, col = "pink", angle = 75, length = .1)
text(rep(c(1.05,1.05,0.95,0.95),length=length(sp$out)),labels=sp$out[order(sp$out)],
sp$out[order(sp$out)]+rep(c(150,-150,150,-150),length=length(sp$out)),col="red")

代码中text函数的格式为text(x,label,y,col)；points加入均值点；arrows加入均值上下1δ标准差范围箭头。

数据去重与数据分组合并存在一定区别，去重是纯粹的所有变量都是重复的，而数据分组合并可能是因为一些主键的重复。

数据去重包括重复检测（table、unique函数）以及重复数据处理（unique/duplicated）。

常见的有unique、数据框中duplicated函数，duplicated返回的是逻辑值。

常见的异常值处理办法是删除法、替代法（连续变量均值替代、离散变量用众数以及中位数替代）、插补法（回归插补、多重插补）

除了直接删除，可以先把异常值变成缺失值、然后进行后续缺失值补齐。

实践中，异常值处理，一般划分为NA缺失值或者返回公司进行数据修整（数据返修为主要方法）

利用图形——箱型图进行异常值检测。

[plain] view plain copy

代码来自《R语言数据分析与挖掘实战》第四节。

整行替换数据框里99%以上和1%以下的点，将99%以上的点值=99%的点值；小于1%的点值=1%的点值。

（本图来自CDA DSC，L2-R语言课程，常老师所述）

[html] view plain copy

#异常数据处理
q1<-quantile(result$tot_derog, 0.001) #取得时1%时的变量值
q99<-quantile(result$tot_derog, 0.999) #replacement has 1 row, data has 0 说明一个没换
result[result$tot_derog<q1,]$tot_derog<-q1
result[result$tot_derog>q99,]$tot_derog<-q99
summary(result$tot_derog) #盖帽法之后，查看数据情况
fix(inputfile)#表格形式呈现数据
which(inputfile$sales==6607.4)#可以找到极值点序号是啥

把缺失值数据集、非缺失值数据集分开。

[plain] view plain copy