,MAD定义为数据点到中位数的绝对偏差的中位数: MAD=median(∣Xi−median(X)∣) MAD = median(|X_i-median(X)|) MAD=median(∣X i −median(X)∣) 也就是说,先计算出数据与它们的中位数之间的残差(偏差),MAD就是这些偏差的绝对值的中位数。 示例 考虑数据集(1, 1, 2, 2, 4, 6, 9),它的中位数为2。数据点到2的绝对偏差为(1, 1, 0, 0, 2, 4, 7),该偏差列表的中位数为1(因为排序后的绝对偏差为(0, 0, 1, 1, 2, 4, 7))。所以该数据的绝对中位差为1。 用途 绝对中位差是一种统计离差的测量。而且,MAD是一种鲁棒统计量,比标准差更能适应数据集中的异常值。对于标准差,使用的是数据到均值的距离平方,所以大的偏差权重更大,异常值对结果也会产生重要影响。对于MAD,少量的异常值不会影响最终的结果。 由于MAD是一个比样本方差或者标准差更鲁棒的度量,它对于不存在均值或者方差的分布效果更好,比如柯西分布。 MAD与标准差的关系 为了能将MAD当作标准差σ \sigmaσ估计的一种一致估计量,使用 σˆ=k⋅MAD \hat\sigma = k \cdot MAD σ ^ =k⋅MAD 其中 k 为比例因子常量,值取决于分布类型。 对于正态分布数据,k的值为: k=1/(Φ−1(3/4))≈1.4826 k = 1/(\Phi^{-1}(3/4)) \approx 1.4826 k=1/(Φ −1 (3/4))≈1.4826 也就是标准正态分布Z=X/σ Z = X/\sigmaZ=X/σ的分位函数的倒数(也称为逆累积分布函数)。数值3/4是为了±MAD \pm MAD±MAD包含标准正态累积分布函数的50%(从1/4到3/4的范围值),也就是: 12=P(∣X−μ∣≤MAD)=P(∣X−μσ∣≤MADσ)=P(∣Z∣≤MADσ). {1 \over 2} = P(|X-\mu| \le MAD) = P(|{X-\mu \over \sigma}| \le {MAD \over \sigma}) = P(|Z| \le {MAD \over \sigma}). 2 1 =P(∣X−μ∣≤MAD)=P(∣ σ X−μ ∣≤ σ MAD )=P(∣Z∣≤ σ MAD ). 所以,必须有: Φ(MAD/σ)−Φ(−MAD/σ)=1/2 \Phi(MAD/\sigma) - \Phi(-MAD/\sigma) = 1/2 Φ(MAD/σ)−Φ(−MAD/σ)=1/2 而 Φ(−MAD/σ)=1−Φ(MAD/σ) \Phi(-MAD/\sigma) = 1 - \Phi(MAD/\sigma) Φ(−MAD/σ)=1−Φ(MAD/σ) 得到MAD/σ=Φ−1(3/4)=0.67449 MAD/\sigma = \Phi^{-1}(3/4) = 0.67449MAD/σ=Φ −1 (3/4)=0.67449,从而比例因子k=1/Φ−1(3/4)=1.4826 k = 1/\Phi^{-1}(3/4) = 1.4826k=1/Φ −1 (3/4)=1.4826。 另一种计算方法是MAD等于半正态分布的中位数: MAD=σ2–√erf−1(1/2) MAD = \sigma \sqrt 2 erf^{-1}(1/2) MAD=σ 2 erf −1 (1/2) 这种形式可以用于概然误差的计算。 总体MAD 总体的MAD与样本MAD的定义类似,但是它是基于完全分布而不是样本执行的计算。对于均值为零的对称分布,总体MAD是分布的75%分位点。 均值有可能是无限值,或者不存在的值;然而总体MAD永远都是一个有限值。例如,标准柯西分布的方差不存在,但是它的MAD等于1。 已知最早提出MAD概念的是约翰·卡尔·弗里德里希·高斯。 --------------------- 作者:董旭阳TonyDong 来源:CSDN 原文:https://blog.csdn.net/horses/article/details/78749485 |
|