分享

你一定要读的极简统计学!人人都能看懂,读完秒变统计大神!

 书语人间 2020-01-03

与智者对话,10分钟读懂一本好书,

点击上方书语人间关注我们哟!


这是书语人间为你解读的第248本书

《写给所有人的极简统计学》

今天,灵遥将为你带来一本新书,书名叫做《写给所有人的极简统计学》。


什么?!
统计!!!


拜托,这不是只有在学校里才能够用得上的知识吗???再说,我已经毕业好多年了,你能别用数据来折磨我了么!!!

NoNoNo

如果你这样想统计学,那你就太低估它的价值的!统计,这可是一个当代人必须掌握的一门技能。

不信?

来试着回答下面一个问题吧:

你的一个老同学,给你打了一个电话,告诉你说他开了一个家常菜馆,因为店面扩张急需你的资金支持。

于是,你问道,「那你这家馆子的利润怎样呀?」这时,他自信满满地告诉你,「下个月稳赚个6万元,没有任何问题!

好了,你该相信他吗?


如果你有学过统计,知道平均值、标准差,和正态分布这三个值的关系,你多半会这样和他说,「行,那这样吧。你把去年12个月里每月的利润额发我,我看看情况!

结果,他发来的数据,除了前三个月的利润在5万元左右,后面的9个月,除了偶尔12个月有6万元,其它都不到3万元。

那么,这笔投资到底是否靠谱呢?凭感觉可不行,你得学点统计学。


01.

统计学究竟是什么?


现在,我们先来看一下统计学是什么。

首先,统计学是一门将收集到的数据(数值)进行整理,加以分析的学问,然后做出推论的学科。

我们现在先来看第一个关键词:数据的收集和整理。

比如,在你朋友开餐馆的例子里,我们已知这家餐馆去年每个月的利润分别是:

(单位:万元)

那么,这家馆子的表现到底如何呢?

首先,计算一下平均数将这些数据相加,得到一个总和,然后用这些数据的总和,除以个数,即,5+5+5.5+2+1+3+7+6+2+1+3+4/ 12 = 3.2 万元

图 | 《写给所有人的极简统计学》

但是,你有没有发现?

虽然这个月利润的平均值看着不错,但是,整体的表现并不是很稳定。比如,在3月的时候,利润有5万元,结果到了5月,利润就变成了1万元,波动还是挺大的。

因此,我们除了平均值,还得用其它方法,来考察这家馆子是否有值得投资的价值。

不过,先别着急,用图表的形式,来对这家馆子的经营情况有个更直观的理解吧。

在这里,有两幅图表会比较适合:

一个是柱状图,是用来比较数量大小的图标。比如,餐馆每月的经营数据,我们若是用柱状图来表示它,会得到下图。 

图 | 上一年度餐馆各月份利润 by 武灵遥

另一个则是折线图,是一种用来表示数据变化的图表,比如,餐馆每月的经营数据,我们若是用折线图来表示它,会得到下图。

 图 | 上一年度餐馆各月份利润 by 武灵遥

但是,在观察折线图的时候,有一个需要特别注意的地方,那就是,图表的绘制者可以从一定程度上改变读者对数据变化程度的印象。

比如,把纵坐标的最大值缩为8,横坐标的月份间隔缩窄以后,你会发现,餐馆的利润变化更加陡峭了。

图 | 上一年度餐馆各月份利润 by 武灵遥

因此,我们还需要一个更加科学的方法,来评估一下这家餐厅的经营究竟怎样。


02.

拨开数据的迷雾:方差与标准差


前些日子,灵遥在网上看到了一个新闻,说的是,2018年北京市平均月薪已经达到了10760元。

图 |  某求职招聘网

However,另一组数据却显示,2018年,全国纳税人口仅1.87亿人,不到全国总人数的20%

也就是说,按照2018年10月新《个税法》缴纳了五险一金后的满5000元才需缴纳个人所得税的标准,100个中国人里面,至少有80个人的工资在缴纳了五险一金后每月不到5000元。


怎么样?是不是和你看到的北京平均月薪10760元,有很大的出入?

其实,这两个数据展现的巨大差异,说的便是平均值在衡量一组数据质量的劣势 —— 任何一个极大或是极小值,都会严重影响到最终的计算结果。

因此,为了更加准确地说明一组数据的好坏,我们要引入两个新的概念:方差和标准差。

这个数据的共同特征都是以平均数为基准,来研究一组数据的离散程度。因此,它们反映的也是一组数据的变化情况(波动)。


我们先来看「方差」的求法:

第一步,计算出一组数据的平均值;第二步,求出每个数字到平均值的距离,即(各数值 - 平均值);第三步,求出每个数字到平均值的距离的平方;第四步,把第三步的数值加在一起,然后再求平均值。

图 | 《写给所有人的极简统计学》

比如,你朋友的餐馆利润,我们已知上一年餐馆的月利润平均值为 3.2万元,现在,我们来计算方差。

(单位:万元)

在计算出了方差以后,我们再开个根号,计算出标准差 = +/- 1.98

图 | 《写给所有人的极简统计学》

这个标准差表示的数据的离散程度,这个值越小,说明了数据波动越小,表现也越稳定(说白了就是,风险小)。


03.

投资的基础:排列、组合与概率


现在,我们已经知道了如何计算一组数据的平均值、标准差和方差,也能够大概看出一组数据的表现如何。

但是,这些数据只是告诉了你过去的一个情况,我们还得以此来推导在未来会发生什么,做出决定,比如,是否要给你老同学的餐厅投资。


这时,我们便需要知道「概率」,你可以把它看作是「一件事情发生的可能性」。比如,你向上抛一枚硬币,那么,正面和背面朝上的概率都是1/2


现在,我们来看一下这个1/2里的分子和分母都在说什么:

分子里的1,说的是满足你要求的情况,即「正面」,分母里的2,说的是可能出现的总的可能性,要么「正面」,要么「背面」。两个一除,便是向上抛硬币,出现的可能性了。

现在,我们来让问题变得复杂一点:已知一个口袋里有5个苹果 ,任意两个都不同,随机取3个出来吃,有多少种取法?


首先,第一个苹果,你可以有5个选择,第二个苹果,你可以有4个选择,第三个苹果,你可以有3个选择,总共有 5 x 4 x 3 = 60种选择。

然后,变成一个规律性的公式(下图),即,排列公式。

图 | 《写给所有人的极简统计学》:n = 5,  r = 3

好了,再变一下,现在不是5个苹果了,是一个五边形,任取3个点来画三角形,可以画出多少个不同的三角形?

图 | 《写给所有人的极简统计学》

在这个例子里,ABCACB是同一个三角形,因此,只能当做是一个三角形。

图 | 《写给所有人的极简统计学》

所以,只有6种情况,分别是:ABCABDABEBCDBCECDE,变成一个规律性的公式(下图),即,组合公式:

图 | 《写给所有人的极简统计学》:n = 5, r = 3

好了,现在结合排列组合来看概率:

上面的例子「画三角」叫做「试验」,而,三角形可能出现的情况(6种,即,ABCABDABEBCDBCECDE)则成为「样本空间」,我们要的ABC则被称为「现象」,画出三角形ABC的概率 = 1/6,

公式如下:

图 | 《写给所有人的极简统计学》

如果样本空间与现象恰好重合,那么概率为1,即100%会发生;若是完全没有重合(如,希望得到三角形EFG),则为0,一定不会发生。


04.

离散随机分布 vs 连续随机分布:

正态分布,与在投资学中的应用


说完了概率后,我们来看一下分布。

首先,在日常生活中,我们会发现有的数据是连续的,比如,一个地区温度的变化,从零下10度到零上40度都有可能出现,有的数据则是分散的,比如,某个商品的个数,便只可能是整数个 12345……

于是,我们便把前一种分布称为「连续性分布」,而把后一种分布称为「离散性分布」。

现在,我们先来看第一种,扔一次骰子。


这时,你若是将出现的数字以X来表示,那么,X = 123456的概率则分别为1/6

图 | 《写给所有人的极简统计学》

然后,我们用一张图来表示它(下图),可以得知,X1-6之间的整数时,P = 1/6,而,X落在1-6以外,或是为1-6之间的非整数时,P = 0


图 | 《写给所有人的极简统计学》

类似这样的,只取「间隔较大」值的随机变数则被称为「离散型随机变量概率分布」。

而,离散型随机变量概率分布中,最重要的一个就是「二项分布」了。它考查的是,成功概率为p的实现,独立重复n次后,成功次数为k的概率。

图 | 《写给所有人的极简统计学》

我举个例子,你和你的朋友玩一个只有输赢的游戏,你在胜利的概率为2/3,玩3次,随机变数是如何分布的呢?

先来理解一下题目,玩三次,那你赢的次数则可以是0123次,概率计算如下:

图 | 《写给所有人的极简统计学》,分别带入 k  = 0.1.2.3

图 | 《写给所有人的极简统计学》

现在,我们用柱状图表示它,得到下图;

图 | 《写给所有人的极简统计学》

如果你们玩的次数越来越多,趋近于无限次,那么,这个图将会有如下变化:


图 | 《写给所有人的极简统计学》n = 30, 100


当!当!当!

正态分布出现了!

图 | 《写给所有人的极简统计学》n趋向于无穷


不过,深入探讨正态分布,我们先来看看离散分布和连续分布的区别:如果说离散型概率分布讨论的某个特定值的概率,那么连续型概率分布讨论的则是处在某个范围以内的概率。

比如,你朋友开餐馆的例子,下个月收入是否会在6万元以上,就是一个连续型的概率分布。

所以,在正式研究正态分布前,来让我们看看一般的连续分布,是怎么画出来的吧。

不得不说,随着网购的兴起,物流公司也越来越给力了。除非遇上了交通管制,或是极端恶劣天气,一般都能够在指定的一段时间内,把货物送到你的手里。


现在,我们假设送货时间是在1200—1400,来一起探讨一下在1230-130030分钟内,你收到快递的概率。

首先,1200点后X分钟内送达快递的这一条件中,X的范围是0≤X≤120,因为快递小哥既有可能在60分送达,也有可能在605秒时送达,X是连续的。

现在,简化一下,假设在这2小时内,每小时送达的概率相同,那么,X的概率分布如下图所示:
图 | 《写给所有人的极简统计学》

这样,快递在1230-130030分钟内,把快递送来的概率为 = 30/120 = 1/4 = 25%,放到图里,变为:

图 | 《写给所有人的极简统计学》

但是,问题来了:如果每分钟送达的概率不相同,那该怎么办呢?答,上积分,引入密度函数,即,

图 | 《写给所有人的极简统计学》致那些年坑过我们的积分

图 | 《写给所有人的极简统计学》

好了,那么什么是正态分布呢?

其实,它是连续型概率分布中最常见,而且最重要的一种,是由数学家高斯发现的,在表示它的时候,概率密度函数可以借用自然对数的底,写做:

图 | 《写给所有人的极简统计学》

是不是很复杂?

看看就好了,我们继续来看看正态分布里的王者,标准正态分布吧这是一种随机数满足平均值为0,标准差为1的正态分布,长成下面这个样子:

图 | 《写给所有人的极简统计学》

那么,有了它以后,如何计算下图的阴影面积呢?

图 | 《写给所有人的极简统计学》

我们来查一下前辈们为我们准备好的表吧!

图 | 《写给所有人的极简统计学》

查表的时候,你有没有发现有95%的数据,都落在了Z±1.96之间?请牢牢记住这个数字,因为,你将在日后的投资中,无数次地用它来判断别人给出的预期收益,是否真的靠谱。

现在,我们终于可以来看看你这个老同学是否靠谱了:

假设满足正态分布,去年月均利润为3.2万元(μ = 3.2),标准差为3.94万元,有95%的概率,下月利润会落在-4.32万元到10.72万元之间,乍一看上去还是靠谱的,只是风险有点大。

以上,便是今天的内容。

在这篇文章里,我们聊到了人人都需要掌握的统计学常识,如,平均值、方差、标准差、离散型概率分布、连续型概率分布和正态分布等等。

而,这些知识,并不是只是用来考试用的,在生活中,你完全可以用上这些知识,来判断一个投资是否合理,或是给自己制定更加切合实际的目标。

比如,想要减肥的你,便可以先给你自己留出一段时间,来统计你体重的变化情况,并以此在作为设定你减肥目标的根据。

毕竟,那些落入到了95%置信区间以外的数据,即便你再渴望它,它也是异常值哟~

祝好!

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多