分享

不要被平均值忽悠了

 学习永远乐 2019-05-13

导语:每当有关部门统计的平均工资出炉后,总会看见类似“哭晕!23省份20XX年平均工资出炉,你拖后腿了吗?”的报道,底下评论区总免不了有大片网民高喊“被平均”。除了收入外,还有人均居住面积“被平均”,房价“被平均”等。

平均值作为一种最常见的数据分析方法,本意是代表被分析对象调研指标的中等水平,可是现实中却常常事与愿违。

一. 慎用平均值

为什么平均值不能代表真实的中等水平?

容我先介绍一个概念——偏态分布。

正态分布如雷贯耳,相信大家都不陌生,高中学过的若干个小球下落到格子上的频数分布就近似于正态分布。

那偏态分布呢?

其实从“偏”字就可以看出,偏态分布就是长歪了的正态分布,看看下图估计大家就能明白。

正态分布在自然界非常常见,例如人的身高分布、体重分布等。在理想正态分布的情形下,平均值、众数和中位数相同,都等于正态分布的峰值。

注意,正态分布只是在自然界非常常见,与社会活动相关的指标大多是偏态分布,例如:人车流量、银行存款等。偏态分布的特点是“偏”,所以偏态分布的平均值与峰值不重合,正偏态分布(图b左)的平均值比峰值高,负偏态分布的平均值(图b右)比峰值低。

本文一开始提到的工资水平分布是个典型的正偏态分布,根据15-20-65法则(细化的20-80法则),15%的人将会领到65%的工资收入,而剩下85%的人只领到另外35%的工资收入,大量的人(峰值)位于在较低的位置,所以假如对工资水平取平均值的话,平均值会比峰值高,因此大多数人感觉自己的工资赶不上平均水平。

所以,当分析对象属于偏态分布时,不妨考虑使用众数或者中位数来代表被分析对象的中等水平可能更合适。

二. 平均值的四种类型

虽说平均值要慎用,但是在实际工作中,平均值的使用还是十分广泛,接下来我们来谈谈平均值的几类算法:

1. 算术平均值:平均值中最简单粗暴的一种,业务中用到的客单价、单店产出、单人产出等指标都是算术平均值。

X算术=(X1 X2 X3 X4 …… Xn) / n

算术平均值的优点是简单易解,反应灵敏,缺点是容易受到极端值的影响。例如,思玛特超市八月前三周的销售额如下表,请大家预测第四周的销售额。

使用算术平均值预测的方法,思玛特超市八月第四周的销售额=(25,923 26,813 38,510)/3=30,415元。

但是,当我们仔细观察前三周的销额数据后可以发现,第三周的销售额数据明显比前两周的销售额高。作为一个老练的营销人,看到异常数据心里马上要问背后的业务原因是什么?原来,八月第三周是思玛特超市的店庆周,举办了大量促销活动吸引消费者。所以,在预测第四周销量时,假如简单地使用前三周销售额的算术平均值,预测值就会偏高。

2. 几何平均值:实际业务中使用相对较少,一般用于计算增长率上,例如销售额年复合增长率这个指标就是使用几何平均值方法计算。

X几何=(X1×X2×X3×……×Xn) ^ (1/n)

例如:思玛特超市2013-2016年的年销售额和同比增长率如下表:

求:2013-2016年复合增长率。

答:2013-2016年复合增长率=(1.06×1.10×1.02)^(1/3)-1=0.0595,也就是5.95%。

简单验算一下:

100×(1 5.95%)^3 =118.9万,

验算正确。

假如使用算术平均值计算平均增长率的话,得到的平均增长率=(6% 10% 2%)/3=9%,会比实际复合增长率更大,很多基金公司利用这一点算数游戏,对外宣传时用的是算术平均值计算的基金收益率,从而显得收益率数据更好看。

3. 加权平均值:平均值中最灵活的一种,使用情况千变万化。生活中常见的例子如学校录取分数取自笔试分数与面试分数的加权平均分,管理会计中常用的加权平均资本成本等。

X加权 = (X1×W1 X2×W2 X3×W3 …… Xn×Wn) / (W1 W2 W3 …… Wn)

W1、W2、W3……Wn分别表示X1、X2、X3……Xn的权重。

业务中接触最多的加权平均值算法应该是加权毛利率,我们提到XX公司的毛利率是XX%,一般指的就是加权毛利率。

例如,思玛特超市只卖以下三种产品,其毛利率和销售额如下表:

思玛特超市的加权毛利率=(16%×20% 17%×70% 15%×10%)/(20% 70% 10%)=16.6%。

使用加权平均值的关键在于权重的设定,权重的改动可能导致结论差别很大。例如,我们把思玛特超市的三个产品的销售额稍微改变一下,虽然产品的毛利率没有改变,思玛特超市的加权毛利率也会相差超过1%。

思玛特超市的加权毛利率=(16%×20% 17%×10% 15%×70%)/(20% 10% 70%)=15.4%。

加权平均值的用途还很多,由于篇幅关系,这里暂时不展开详述。有机会以后再聊。

4. 滚动平均值:也叫移动平均值,就是根据时间序列,逐项推移,依次计算包含n个项数的序时平均数,这种平均值算法最大的特点是滚动计算,每次滚动计算相同时间间隔的平均值,生活中最常见的就是股票市场中的3日均线、5日均线等。

X滚动=(X-1 X-2 X-3 …… X-n)/n

X-1、X-2、X-3……X-n分别表示前一期、前两期、前三期直至前n期的实际值。

滚动平均值适用于近期预测,用作预测未来一期或几期内公司产品的需求量、公司产能等,能有效地消除预测中的随机波动。但是滚动平均值是有使用条件的:要求产品需求量/产能既不快速增长也不快速下降,且不存在季节性因素。举个例子:

思玛特超市6月2日-6月10日的销售额与对应的3日滚动平均值如下表:

从表格可以看出,6月2日-6月5日,销售额波动较小时,3日滚动平均值与实际销售额相差很小,当6月6日销售额出现一个高峰后,3日滚动平均值与实际销售额的差额刚开始较大,后来随着滚动计算,波动的影响会逐渐减少至消失。

平均值的四类算法概述如上,不能说谁优谁劣,应用时往往根据实际情况应用其一。说到底,数据分析的前提是理解数据的业务背景,所有不考虑业务背景的数据分析都是耍流氓。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多