配色: 字号:
异常值探测的相关理论与方法
2014-10-23 | 阅:  转:  |  分享 
  
数据挖掘篇之异常值

1



异常值探测的相关理论与方法

异常值是影响统计数据质量的一个非常重要的因素,一直以来,我国的

统计界以及社会各界均对此问题给予很高的关注。所以,近年来有关异

常值的理论探讨一直是个热点问题。但是目前研究的重点一直放在统计

法律制度的健全以及统计工作程序完善等方面。虽然这两点确实能提高

统计数据的质量,但对于已经形成的统计数据,在进行统计分析之前,

我们更关注的是统计数据的误差问题,即所提供的统计数据与客观的社

会经济现象实际的数量特征之间的差距问题。异常值的存在,使得统计

分析的误差大大增大,小则出现差错,大则可能发生事故,甚至可能会

导致严重的宏观决策失误。因此,在利用已得数据进行统计分析之前,

必须对异常值进行探测和检验。

一、概述

异常数据挖掘,又称为离群点分析或者孤立点挖掘。在人们对数据

进行分析处理的过程中,经常会遇到少量这样的数据,它们与数据一般

模式不一致,或者说与大多数样相比有些不一样。我们称这样的数据为

异常数据,对异常数据的处理在某些领域很有价值,例如在网络安全领

域,可以利用异常数据挖掘来分析网络中的异常行为;在金融领域异常

数据挖掘可以识别信用卡的欺诈交易、股市的操控行为、会计信息的虚

假报价、欺诈贷款等。

异常数据挖掘涉及两个基本问题。其一,在对一个给定的数据集分

析之前必须事先约定满足什么样的数据才是异常数据,也就是异常数据

定义的问题。其二,用什么方法来从给定的数据集中将异常数据提取出

来。

二、异常数据的定义

异常数据是少量的、与众不同的,与大多数数据相比是有偏差的,

而且产生这种偏差的原因不是随机的,而是有其更深层次的必然原因,

它产生于完全不同的机制。

为了从数据集中识别异常数据,就必须有一个明确的标准。这需要

找到数据的内在规律,在一个可接受的误差范围内,满足内在规律的数

据就是正常数据,而不满足内在规律的数据就是异常数据。这种数据间

的内在规律可以根据数据本身的特点从位置关系、函数关系、规则关系、

数据挖掘篇之异常值

2



序列关系等方面来考查。

(1)位置关系

位置关系是数据间的最常见的一种关系,大多数正常数据具有很大

的相似性而符合一个共同模式,在空间上表现在一起的趋势,团结在一

个或者多个核心的周围,而那些异常数据则表现得离群,他们总是离所

有的核心都很远。

(2)函数关系

函数关系也是一种常见的数据关系,即大多数数据都符合某个函数

模型,因此数据点大多分布在函数曲线附近,而那些异常数据则距离曲

线比较远。

(3)规则关系

如果数据集中某些符合某个规则条件,则称这些数据具有规则关系。

具有同一规则关系的正常数据一般会使该规则的结论成立,而如果某个

数据具有该规则关系但不能是该结论成立,那么他就是异常数据规则的

一般形式为A1&A2…&An—>C这里Ai和C都是对数据特征的描述。

(4)序列关系

序列关系是指数据集中的某些数据满足某种序列模式,而那些相同

条件下不满足序列模式的数据就是异常数据。

三、异常挖掘的常用方法

异常数据挖掘方法是数据挖掘的一个重要方向。许多研究人员从不

同角度及不同的应用领域出发,提出了不同类型的挖掘方法。从技术来

源看,这些方法可以划分为基于统计的方法、基于距离的方法、基于偏

离的方法和基于聚类的方法。

(1)基于统计的方法

基于统计的方法的基本思想是根据数据集的特性事先假定一个数

据分布的概率模型,然后根据模型的不一致性来确定异常。首先对给定

的数据集假设一个概率分布模型,然后在某个显著水平上,确定数据集

的拒绝域或者接受域,拒绝域是时出现概率很小的区间,如果数据落在

此区间,则判定为异常数据。

统计学的方法的优点是很明显的,它建立在成熟的统计学理论基础

上,只要给定概率模型,其他统计模型非常有效,异常点的含义也非常

数据挖掘篇之异常值

3



明确。

(2)基于距离的方法

基于距离的方法主要是基于数据点间的距离来发现异常点,由于它

具有比较明显的几何解释,是当前使用最普遍的方法。基于距离的方法

的基本思想是以距离的大小来检测小模式,异常点是那些被认为没有足

够的邻居的点。他可以述为数据集N中,至少有P个对象和对象O的

距离大于d,则对象O是一个带参数P和d的基于距离的异常点。

(3)基于密度的方法

基于距离的方法对全局各个聚类的数据提出了统一的P和d参数,

但是如果各个聚类本身密度的不同,则基于距离的方法会出现问题,因

此提出了基于密度模型的局部异常点挖掘算法。

在这种情况下,数据是否异常不仅取决于它与周围数据的距离得大

小,而且与邻域内的密度状况有关,一个邻域内的密度可以用包含固定

数据点个数的邻域半径或者指定半径邻域中包含的数据点数来描述。

(4)基于偏离的方法

基于偏离的方法的基本思想是通过检查一组对象的主要特性来确

定异常,如果一个对象的特性与给定的描述过分的偏离,则该数据被认

为是异常点。现有的基于偏离的方法主要有序列异常技术和OLAP数据

看立体方法。序列异常技术的核心是要构建一个相异度函数,对于一个

包含了很多样本的数据集,如果样本间的相似度较高,相异度函数的值

就比较小,反之,如果样本间的相异度越大,相异度函数的值就越大(例

如方差就是满足这种要求的函数)。OLAP数据立方体方法利用在大规

模的多维数据中采用数据立方体确定反常区域,如果一个立方体的单

元值显著不同于根据同居模型得到的期望值,则该单元值被认为是一个

异常点。

(5)基于聚类的方法

基于聚类的方法的基本思想是将异常挖掘的过程转换成聚类的过

程。首先是将数据集利用已经成熟的模型进行聚类分析,将数据集划分

为多个簇,然后选择那些离簇的质心比较远的样本作为异常点。





数据挖掘篇之异常值

4



四、基于统计的异常检测方法:检测一元正态分布中的异常点

假定用一个参数模型来描述数据的分布(如正态分布),应用基于统

计分布的异常点检测方法依赖于数据分布、参数分布(如均值或方差)、

期望异常点的数目及(置信度区间)

异常点的概率定义:异常点是一个对象,关于数据的概率分布模型,

它具有低概率,概率分布模型通过估计用户指定的分布的参数,由数据

创建。例如如果假定数据具有高斯分布,则基本分布的均值和标准差可

以通过计算数据的均值和标准差来估计,然后可以估计每个对象在该分

布下的概率。





Sure(转)

献花(0)
+1
(本文系babylls首藏)