分享

【精】理解概率统计核心思维:概率分布——概率论与统计学的交汇点

 天下小粮仓 2019-03-15

打开数据分析的大门,从感性走向理性。

“概率统计”正确理解,才能正确应用

本专栏从最通俗易懂的角度,用最易于理解的方法,真正内化吸收概率统计的核心思想与算法,帮助您在工作生活中正确应用概率统计知识。

诡异的第一数字定理

先提一个问题,如果把我们全人类记录下来过的所有的数字的第一位非零数(0~9)统计出来做成条状图,你觉得会是什么样的?

第一反应肯定是每个数字出现的频率应该差不多,至少不会区别太大吧?

但是,美国物理学家本福特在对人口出生率、死亡率、物理和化学常数等数字进行统计后,得到了一个这样的图:

首位数字是1的概率达到了30.1%之多,而首位是2的概率为17.6%,数字越大出现的可能性就越小,9的概率仅为4.6%。

这个规律被称为“第一数字定理”,描述的是一大批相同性质的数字,在自然产生的条件下,不同数字出现的概率。(当然,不能有明显的能影响数字自然产生的限制)

从止图中我们能一眼看出哪些位置概率大,哪些位置概率小,我们就把这叫做——

“概率分布”

上图就是一张“概率分布图”。

其实我们最想问的是,有啥用?

因为这个概率分布,体现了自然产生的同质数字的规律,所以可以用它反过来检验一些数字是否是自然产生的。

一个公司的年度账目数据就满足这一定律,依据它,在上个世纪90年代,会计学家尼格里尼发现了数起会计造假、欺诈和逃税行为。

这是因为人脑在所谓“随机”编造数据时,与第一数字定理的规律不符。(会计们编造数据时不知道什么原因,往往比较青睐于5或6)

依据这一定律,统计学家曾发现三起重大的投票欺诈行为:美国总统选举佛罗里达选区(2004)/ 委内瑞拉投票欺诈(2004)/ 墨西哥投票欺诈(2006)。

概率分布:概率统计核心思维

概率分布体现的是:一个随机变量取值的概率规律

随机变量有两类:

  • 离散随机变量(硬币1或0;骰子1~6;数字1~9)
  • 连续随机变量(实数[0,1];同学们的身高;小鼠存活率)

掌握了一个随机变量的概率分布,就掌握了它的概率特性,再遇到它时,我们就可以对它进行预测了。

想得到一个量的概率分布,就需要试验并记录,然而我们不可能把所有试验都做一般,因此进行进行一定数量的随机试验,称为:

“随机抽样”

我们把样本的数据进行处理,比如得到平均值/标准差的这类数据信息,称为——

“统计量”

咱们得到的“统计量”是从一个随机样本中得到的,如果再随机选一套样本,得到的“统计量”又可能会不同了,所以这些统计量本身也是随机变量,它们也有概率分布,称为:

“抽样分布”

我们把样本研究的结果用来反应总体的特征,称为:

“统计推断”

统计推断包含两类问题:

  • 估计
  • 检验

上面这些概念我们后面会详细讲,这里是想说明的问题是:

概率论与统计学正是因为“概率分布”这一核心思维才紧紧联系在了一起,不可分割,所以统称为“概率统计”。

概率与统计不能分开讨论

概率分布的种类

概率分布无非就是随机变量的出现的可能性的分布,所以太多了——

可以看出有离散型和连续型两类

下面咱们从理解应用的角度,讲一讲最常用的8种分布:

离散型概率分布:

  • 均匀分布
  • 二项分布
  • 泊松分布
  • 几何分布

连续型随机分布:

  • 平均分布
  • 正态分布
  • 指数分布
  • t分布

离散均匀分布

即“等概率模型”(古典概型),最简单的概率分布:

抛硬币,扔骰子,抽扑克,共有n种选择,每种选择的概率为1/n。

使用前提:必须确定是“等可能性的”,避免走入直觉误区。

理解概率统计核心智慧:4类项反直觉问题&深解辛普森悖论

二项分布

假如我要抛20次硬币,那么会出现几次正面呢?

对于这类问题我们使用“二项分布”下图中蓝点即为n=20次独立试验,每次试验成功(如正面)的概率都为p=0.5,成功次数的概率分布:

从图中可以看到,20次试验最有可能出现10次成功,10=20*0.5,意义很明显,而出现9次成功/11次成功的可能性也很大。

总结:n次独立试验,每次试验成功概率为p,那么试验成功次数的概率分布即为二项分布。

“二项”一词的涵义是,每次试验,只有两种结果。

泊松分布

直接问一个具体的现实问题吧:

断网之后,网络中心会接到很多电话,按经验来说在1小时内会有L人打电话咨询,(总用户量为n),那么这1小时内,打电话的人次是怎么样的概率分布呢?

直观地想象一下,大家不太可能商量好都打电话,或都不打电话;而最有可能的,就是那个“按经验来说”的L人打电话。

这就是泊松分布——

图中为L=1 4 10 时的分布

L 是泊松分布中的惟一参数,表示“平均发生次数”,因此等于二项分布里的 np。

泊松分布描述的是:

知道一个事件在一段时间内,一般平均发生L次,想知道它在这段时间里,发生次数的概率分布。

几何分布

几何分布描述的是,得到一次成功所需要的试验次数X。

从图中看出,p=0.2时,1次试验就成功的概率就是0.2;而第二次才成功的概率显然是0.8*0.2。这就是几何分布的意义。

为什么叫“几何”分布?是不是感觉这个名字很突兀?其实很好理解,图中各处的概率呈等比数列,也称为“几何数列”,只不过国内很少这么叫罢了,国内倒时经常会说“几何级数”,其实就是几何数列构成的级数啊。

几何分布其实就是在研究,到底需要几次尝试,才能成功,这么一个问题。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多