分享

绝对中位差

 脑系科数据科学 2019-04-28

 ,MAD定义为数据点到中位数的绝对偏差的中位数:

MAD=median(∣Xi−median(X)∣) MAD = median(|X_i-median(X)|)

MAD=median(∣X 

i

 −median(X)∣)

也就是说,先计算出数据与它们的中位数之间的残差(偏差),MAD就是这些偏差的绝对值的中位数。

示例

考虑数据集(1, 1, 2, 2, 4, 6, 9),它的中位数为2。数据点到2的绝对偏差为(1, 1, 0, 0, 2, 4, 7),该偏差列表的中位数为1(因为排序后的绝对偏差为(0, 0, 1, 1, 2, 4, 7))。所以该数据的绝对中位差为1。

用途

绝对中位差是一种统计离差的测量。而且,MAD是一种鲁棒统计量,比标准差更能适应数据集中的异常值。对于标准差,使用的是数据到均值的距离平方,所以大的偏差权重更大,异常值对结果也会产生重要影响。对于MAD,少量的异常值不会影响最终的结果。

由于MAD是一个比样本方差或者标准差更鲁棒的度量,它对于不存在均值或者方差的分布效果更好,比如柯西分布。

MAD与标准差的关系

为了能将MAD当作标准差σ \sigmaσ估计的一种一致估计量,使用

σˆ=k⋅MAD \hat\sigma = k \cdot MAD

σ

^

 =k⋅MAD

其中 k 为比例因子常量,值取决于分布类型。

对于正态分布数据,k的值为:

k=1/(Φ−1(3/4))≈1.4826 k = 1/(\Phi^{-1}(3/4)) \approx 1.4826

k=1/(Φ 

−1

 (3/4))≈1.4826

也就是标准正态分布Z=X/σ Z = X/\sigmaZ=X/σ的分位函数的倒数(也称为逆累积分布函数)。数值3/4是为了±MAD \pm MAD±MAD包含标准正态累积分布函数的50%(从1/4到3/4的范围值),也就是:

12=P(∣X−μ∣≤MAD)=P(∣X−μσ∣≤MADσ)=P(∣Z∣≤MADσ). {1 \over 2} = P(|X-\mu| \le MAD) = P(|{X-\mu \over \sigma}| \le {MAD \over \sigma}) = P(|Z| \le {MAD \over \sigma}).

2

1

 =P(∣X−μ∣≤MAD)=P(∣ 

σ

X−μ

 ∣≤ 

σ

MAD

 )=P(∣Z∣≤ 

σ

MAD

 ).

所以,必须有:

Φ(MAD/σ)−Φ(−MAD/σ)=1/2 \Phi(MAD/\sigma) - \Phi(-MAD/\sigma) = 1/2

Φ(MAD/σ)−Φ(−MAD/σ)=1/2

Φ(−MAD/σ)=1−Φ(MAD/σ) \Phi(-MAD/\sigma) = 1 - \Phi(MAD/\sigma)

Φ(−MAD/σ)=1−Φ(MAD/σ)

得到MAD/σ=Φ−1(3/4)=0.67449 MAD/\sigma = \Phi^{-1}(3/4) = 0.67449MAD/σ=Φ 

−1

 (3/4)=0.67449,从而比例因子k=1/Φ−1(3/4)=1.4826 k = 1/\Phi^{-1}(3/4) = 1.4826k=1/Φ 

−1

 (3/4)=1.4826。

另一种计算方法是MAD等于半正态分布的中位数:

MAD=σ2–√erf−1(1/2) MAD = \sigma \sqrt 2 erf^{-1}(1/2)

MAD=σ 

2

 erf 

−1

 (1/2)

这种形式可以用于概然误差的计算。

总体MAD

总体的MAD与样本MAD的定义类似,但是它是基于完全分布而不是样本执行的计算。对于均值为零的对称分布,总体MAD是分布的75%分位点。

均值有可能是无限值,或者不存在的值;然而总体MAD永远都是一个有限值。例如,标准柯西分布的方差不存在,但是它的MAD等于1。

已知最早提出MAD概念的是约翰·卡尔·弗里德里希·高斯。

--------------------- 

作者:董旭阳TonyDong 

来源:CSDN 

原文:https://blog.csdn.net/horses/article/details/78749485 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多