异常值探测的相关理论与方法

来自：babylls > 馆藏分类

配色：

字号：大中小

异常值探测的相关理论与方法

2014-10-23 | 阅：转： | 分享

数据挖掘篇之异常值

1

异常值探测的相关理论与方法

异常值是影响统计数据质量的一个非常重要的因素，一直以来，我国的

统计界以及社会各界均对此问题给予很高的关注。所以，近年来有关异

常值的理论探讨一直是个热点问题。但是目前研究的重点一直放在统计

法律制度的健全以及统计工作程序完善等方面。虽然这两点确实能提高

统计数据的质量，但对于已经形成的统计数据，在进行统计分析之前，

我们更关注的是统计数据的误差问题，即所提供的统计数据与客观的社

会经济现象实际的数量特征之间的差距问题。异常值的存在，使得统计

分析的误差大大增大，小则出现差错，大则可能发生事故，甚至可能会

导致严重的宏观决策失误。因此，在利用已得数据进行统计分析之前，

必须对异常值进行探测和检验。

一、概述

异常数据挖掘，又称为离群点分析或者孤立点挖掘。在人们对数据

进行分析处理的过程中，经常会遇到少量这样的数据，它们与数据一般

模式不一致，或者说与大多数样相比有些不一样。我们称这样的数据为

异常数据，对异常数据的处理在某些领域很有价值，例如在网络安全领

域，可以利用异常数据挖掘来分析网络中的异常行为；在金融领域异常

数据挖掘可以识别信用卡的欺诈交易、股市的操控行为、会计信息的虚

假报价、欺诈贷款等。

异常数据挖掘涉及两个基本问题。其一，在对一个给定的数据集分

析之前必须事先约定满足什么样的数据才是异常数据，也就是异常数据

定义的问题。其二，用什么方法来从给定的数据集中将异常数据提取出

来。

二、异常数据的定义

异常数据是少量的、与众不同的，与大多数数据相比是有偏差的,

而且产生这种偏差的原因不是随机的，而是有其更深层次的必然原因，

它产生于完全不同的机制。

为了从数据集中识别异常数据，就必须有一个明确的标准。这需要

找到数据的内在规律，在一个可接受的误差范围内，满足内在规律的数

据就是正常数据，而不满足内在规律的数据就是异常数据。这种数据间

的内在规律可以根据数据本身的特点从位置关系、函数关系、规则关系、

数据挖掘篇之异常值

2

序列关系等方面来考查。

（1）位置关系

位置关系是数据间的最常见的一种关系，大多数正常数据具有很大

的相似性而符合一个共同模式，在空间上表现在一起的趋势，团结在一

个或者多个核心的周围，而那些异常数据则表现得离群，他们总是离所

有的核心都很远。

（2）函数关系

函数关系也是一种常见的数据关系，即大多数数据都符合某个函数

模型，因此数据点大多分布在函数曲线附近，而那些异常数据则距离曲

线比较远。

（3）规则关系

如果数据集中某些符合某个规则条件，则称这些数据具有规则关系。

具有同一规则关系的正常数据一般会使该规则的结论成立，而如果某个

数据具有该规则关系但不能是该结论成立，那么他就是异常数据规则的

一般形式为A1&A2…&An—>C这里Ai和C都是对数据特征的描述。

（4）序列关系

序列关系是指数据集中的某些数据满足某种序列模式，而那些相同

条件下不满足序列模式的数据就是异常数据。

三、异常挖掘的常用方法

异常数据挖掘方法是数据挖掘的一个重要方向。许多研究人员从不

同角度及不同的应用领域出发，提出了不同类型的挖掘方法。从技术来

源看，这些方法可以划分为基于统计的方法、基于距离的方法、基于偏

离的方法和基于聚类的方法。

（1）基于统计的方法

基于统计的方法的基本思想是根据数据集的特性事先假定一个数

据分布的概率模型，然后根据模型的不一致性来确定异常。首先对给定

的数据集假设一个概率分布模型，然后在某个显著水平上，确定数据集

的拒绝域或者接受域，拒绝域是时出现概率很小的区间，如果数据落在

此区间，则判定为异常数据。

统计学的方法的优点是很明显的，它建立在成熟的统计学理论基础

上，只要给定概率模型，其他统计模型非常有效，异常点的含义也非常

数据挖掘篇之异常值

3

明确。

（2）基于距离的方法

基于距离的方法主要是基于数据点间的距离来发现异常点，由于它

具有比较明显的几何解释，是当前使用最普遍的方法。基于距离的方法

的基本思想是以距离的大小来检测小模式，异常点是那些被认为没有足

够的邻居的点。他可以述为数据集N中，至少有P个对象和对象O的

距离大于d，则对象O是一个带参数P和d的基于距离的异常点。

（3）基于密度的方法

基于距离的方法对全局各个聚类的数据提出了统一的P和d参数，

但是如果各个聚类本身密度的不同，则基于距离的方法会出现问题，因

此提出了基于密度模型的局部异常点挖掘算法。

在这种情况下，数据是否异常不仅取决于它与周围数据的距离得大

小，而且与邻域内的密度状况有关，一个邻域内的密度可以用包含固定

数据点个数的邻域半径或者指定半径邻域中包含的数据点数来描述。

（4）基于偏离的方法

基于偏离的方法的基本思想是通过检查一组对象的主要特性来确

定异常，如果一个对象的特性与给定的描述过分的偏离，则该数据被认

为是异常点。现有的基于偏离的方法主要有序列异常技术和OLAP数据

看立体方法。序列异常技术的核心是要构建一个相异度函数，对于一个

包含了很多样本的数据集，如果样本间的相似度较高，相异度函数的值

就比较小，反之，如果样本间的相异度越大，相异度函数的值就越大（例

如方差就是满足这种要求的函数）。OLAP数据立方体方法利用在大规

模的多维数据中采用数据立方体确定反常区域，如果一个立方体的单

元值显著不同于根据同居模型得到的期望值，则该单元值被认为是一个

异常点。

（5）基于聚类的方法

基于聚类的方法的基本思想是将异常挖掘的过程转换成聚类的过

程。首先是将数据集利用已经成熟的模型进行聚类分析，将数据集划分

为多个簇，然后选择那些离簇的质心比较远的样本作为异常点。

数据挖掘篇之异常值

4

四、基于统计的异常检测方法：检测一元正态分布中的异常点

假定用一个参数模型来描述数据的分布(如正态分布),应用基于统

计分布的异常点检测方法依赖于数据分布、参数分布(如均值或方差)、

期望异常点的数目及(置信度区间)

异常点的概率定义：异常点是一个对象，关于数据的概率分布模型，

它具有低概率，概率分布模型通过估计用户指定的分布的参数，由数据

创建。例如如果假定数据具有高斯分布，则基本分布的均值和标准差可

以通过计算数据的均值和标准差来估计，然后可以估计每个对象在该分

布下的概率。

Sure(转)

献花(0)

(本文系babylls首藏)

类似文章 更多

发表评论：