数据挖掘篇之异常值
1
异常值探测的相关理论与方法
异常值是影响统计数据质量的一个非常重要的因素,一直以来,我国的
统计界以及社会各界均对此问题给予很高的关注。所以,近年来有关异
常值的理论探讨一直是个热点问题。但是目前研究的重点一直放在统计
法律制度的健全以及统计工作程序完善等方面。虽然这两点确实能提高
统计数据的质量,但对于已经形成的统计数据,在进行统计分析之前,
我们更关注的是统计数据的误差问题,即所提供的统计数据与客观的社
会经济现象实际的数量特征之间的差距问题。异常值的存在,使得统计
分析的误差大大增大,小则出现差错,大则可能发生事故,甚至可能会
导致严重的宏观决策失误。因此,在利用已得数据进行统计分析之前,
必须对异常值进行探测和检验。
一、概述
异常数据挖掘,又称为离群点分析或者孤立点挖掘。在人们对数据
进行分析处理的过程中,经常会遇到少量这样的数据,它们与数据一般
模式不一致,或者说与大多数样相比有些不一样。我们称这样的数据为
异常数据,对异常数据的处理在某些领域很有价值,例如在网络安全领
域,可以利用异常数据挖掘来分析网络中的异常行为;在金融领域异常
数据挖掘可以识别信用卡的欺诈交易、股市的操控行为、会计信息的虚
假报价、欺诈贷款等。
异常数据挖掘涉及两个基本问题。其一,在对一个给定的数据集分
析之前必须事先约定满足什么样的数据才是异常数据,也就是异常数据
定义的问题。其二,用什么方法来从给定的数据集中将异常数据提取出
来。
二、异常数据的定义
异常数据是少量的、与众不同的,与大多数数据相比是有偏差的,
而且产生这种偏差的原因不是随机的,而是有其更深层次的必然原因,
它产生于完全不同的机制。
为了从数据集中识别异常数据,就必须有一个明确的标准。这需要
找到数据的内在规律,在一个可接受的误差范围内,满足内在规律的数
据就是正常数据,而不满足内在规律的数据就是异常数据。这种数据间
的内在规律可以根据数据本身的特点从位置关系、函数关系、规则关系、
数据挖掘篇之异常值
2
序列关系等方面来考查。
(1)位置关系
位置关系是数据间的最常见的一种关系,大多数正常数据具有很大
的相似性而符合一个共同模式,在空间上表现在一起的趋势,团结在一
个或者多个核心的周围,而那些异常数据则表现得离群,他们总是离所
有的核心都很远。
(2)函数关系
函数关系也是一种常见的数据关系,即大多数数据都符合某个函数
模型,因此数据点大多分布在函数曲线附近,而那些异常数据则距离曲
线比较远。
(3)规则关系
如果数据集中某些符合某个规则条件,则称这些数据具有规则关系。
具有同一规则关系的正常数据一般会使该规则的结论成立,而如果某个
数据具有该规则关系但不能是该结论成立,那么他就是异常数据规则的
一般形式为A1&A2…&An—>C这里Ai和C都是对数据特征的描述。
(4)序列关系
序列关系是指数据集中的某些数据满足某种序列模式,而那些相同
条件下不满足序列模式的数据就是异常数据。
三、异常挖掘的常用方法
异常数据挖掘方法是数据挖掘的一个重要方向。许多研究人员从不
同角度及不同的应用领域出发,提出了不同类型的挖掘方法。从技术来
源看,这些方法可以划分为基于统计的方法、基于距离的方法、基于偏
离的方法和基于聚类的方法。
(1)基于统计的方法
基于统计的方法的基本思想是根据数据集的特性事先假定一个数
据分布的概率模型,然后根据模型的不一致性来确定异常。首先对给定
的数据集假设一个概率分布模型,然后在某个显著水平上,确定数据集
的拒绝域或者接受域,拒绝域是时出现概率很小的区间,如果数据落在
此区间,则判定为异常数据。
统计学的方法的优点是很明显的,它建立在成熟的统计学理论基础
上,只要给定概率模型,其他统计模型非常有效,异常点的含义也非常
数据挖掘篇之异常值
3
明确。
(2)基于距离的方法
基于距离的方法主要是基于数据点间的距离来发现异常点,由于它
具有比较明显的几何解释,是当前使用最普遍的方法。基于距离的方法
的基本思想是以距离的大小来检测小模式,异常点是那些被认为没有足
够的邻居的点。他可以述为数据集N中,至少有P个对象和对象O的
距离大于d,则对象O是一个带参数P和d的基于距离的异常点。
(3)基于密度的方法
基于距离的方法对全局各个聚类的数据提出了统一的P和d参数,
但是如果各个聚类本身密度的不同,则基于距离的方法会出现问题,因
此提出了基于密度模型的局部异常点挖掘算法。
在这种情况下,数据是否异常不仅取决于它与周围数据的距离得大
小,而且与邻域内的密度状况有关,一个邻域内的密度可以用包含固定
数据点个数的邻域半径或者指定半径邻域中包含的数据点数来描述。
(4)基于偏离的方法
基于偏离的方法的基本思想是通过检查一组对象的主要特性来确
定异常,如果一个对象的特性与给定的描述过分的偏离,则该数据被认
为是异常点。现有的基于偏离的方法主要有序列异常技术和OLAP数据
看立体方法。序列异常技术的核心是要构建一个相异度函数,对于一个
包含了很多样本的数据集,如果样本间的相似度较高,相异度函数的值
就比较小,反之,如果样本间的相异度越大,相异度函数的值就越大(例
如方差就是满足这种要求的函数)。OLAP数据立方体方法利用在大规
模的多维数据中采用数据立方体确定反常区域,如果一个立方体的单
元值显著不同于根据同居模型得到的期望值,则该单元值被认为是一个
异常点。
(5)基于聚类的方法
基于聚类的方法的基本思想是将异常挖掘的过程转换成聚类的过
程。首先是将数据集利用已经成熟的模型进行聚类分析,将数据集划分
为多个簇,然后选择那些离簇的质心比较远的样本作为异常点。
数据挖掘篇之异常值
4
四、基于统计的异常检测方法:检测一元正态分布中的异常点
假定用一个参数模型来描述数据的分布(如正态分布),应用基于统
计分布的异常点检测方法依赖于数据分布、参数分布(如均值或方差)、
期望异常点的数目及(置信度区间)
异常点的概率定义:异常点是一个对象,关于数据的概率分布模型,
它具有低概率,概率分布模型通过估计用户指定的分布的参数,由数据
创建。例如如果假定数据具有高斯分布,则基本分布的均值和标准差可
以通过计算数据的均值和标准差来估计,然后可以估计每个对象在该分
布下的概率。
Sure(转)
|
|