数据挖掘 | 异常值检测实例

kieojk 2016-08-27

展开全文

小编用R语言结合实例，介绍异常检测的方法：

单变量异常检测

本部分展示了一个单变量异常检测的例子，并且演示了如何将这种方法应用在多元数据上。在该例中，单变量异常检测通过boxplot.stats()函数实现，并且返回产生箱线图的统计量。在返回的结果中，有一个部分是out，它给出了异常值的列表，即它列出了位于极值之外的胡须。参数coef可以控制胡须延伸到箱线图外的远近。在R中，运行?boxplot.stats可获取更详细的信息。例子如下：

> set.seed(521)

> x = rnorm(100)

> x[10] = 5

> x[20] = 6

> summary(x)

> outliers = boxplot.stats(x)$out

> outliers

[1] 5.000000 6.000000 -3.338937

> boxplot(x)

> for(i in outliers) points(i,col='red', pch='+', cex=2.5)

如上的单变量异常检测，通过简单搭配的方式可以用来发现多元数据中的异常值。在下例中，我们首先产生一个数据框df，它有两列x和y。之后，异常值分别从x和y检测出来。然后，我们获取两列都是异常值的数据作为异常数据。

> y = rnorm(100)

> df = data.frame(x, y)

> a = which(df$x %in%boxplot.stats(df$x)$out)

> a

> b = which(df$y %in%boxplot.stats(df$y)$out)

> b

> outliers = intersect(a, b)

> plot(df)

> points(df[outliers,], col='red',pch='+', cex=2.5)

类似的，我们也可以将x或y为异常值的数据标记为异常值。

> outliers = union(a, b)

> plot(df)

> points(df[outliers,], col='blue',pch='+', cex=2.5)

当有三个以上的变量时，最终的异常值需要考虑单变量异常检测结果的多数表决。当选择最佳方式在真实应用中进行搭配时，需要涉及领域知识。

LOF异常检测

LOF（local outlier factor，局部异常因子）是用于识别基于密度的局部异常值的算法。使用LOF，一个点的局部密度会与它的邻居进行比较。如果前者明显低于后者（有一个大于1 的LOF值），该点位于一个稀疏区域，对于它的邻居而言，这就表明，该点是一个异常值。LOF的缺点就是它只对数值数据有效。

lofactor()函数使用LOF算法计算局部异常因子，并且它在DMwR和dprep包中是可用的。下面将介绍一个使用LOF进行异常检测的例子，k是用于计算局部异常因子的邻居数量。下图呈现了一个异常值得分的密度图。

> library(DMwR)

> iris2 = iris[, 1:4]

> outlier_scores = lofactor(iris2, k=5)

> plot(density(outlier_scores))

# 将前5个作为异常值

> outliers = order(outlier_scores,decreasing=T)[1:5]

> outliers

> iris2[outliers,]

Sepal.Length Sepal.Width Petal.Length Petal.Width

42 4.5 2.3 1.3 0.3

107 4.9 2.5 4.5 1.7