诡异的第一数字定理先提一个问题,如果把我们全人类记录下来过的所有的数字的第一位非零数(0~9)统计出来做成条状图,你觉得会是什么样的? 第一反应肯定是每个数字出现的频率应该差不多,至少不会区别太大吧? 但是,美国物理学家本福特在对人口出生率、死亡率、物理和化学常数等数字进行统计后,得到了一个这样的图: 首位数字是1的概率达到了30.1%之多,而首位是2的概率为17.6%,数字越大出现的可能性就越小,9的概率仅为4.6%。 这个规律被称为“第一数字定理”,描述的是一大批相同性质的数字,在自然产生的条件下,不同数字出现的概率。(当然,不能有明显的能影响数字自然产生的限制) 从止图中我们能一眼看出哪些位置概率大,哪些位置概率小,我们就把这叫做—— “概率分布” 上图就是一张“概率分布图”。 其实我们最想问的是,有啥用? 因为这个概率分布,体现了自然产生的同质数字的规律,所以可以用它反过来检验一些数字是否是自然产生的。 一个公司的年度账目数据就满足这一定律,依据它,在上个世纪90年代,会计学家尼格里尼发现了数起会计造假、欺诈和逃税行为。 这是因为人脑在所谓“随机”编造数据时,与第一数字定理的规律不符。(会计们编造数据时不知道什么原因,往往比较青睐于5或6) 依据这一定律,统计学家曾发现三起重大的投票欺诈行为:美国总统选举佛罗里达选区(2004)/ 委内瑞拉投票欺诈(2004)/ 墨西哥投票欺诈(2006)。 概率分布:概率统计核心思维概率分布体现的是:一个随机变量取值的概率规律。 随机变量有两类:
掌握了一个随机变量的概率分布,就掌握了它的概率特性,再遇到它时,我们就可以对它进行预测了。 想得到一个量的概率分布,就需要试验并记录,然而我们不可能把所有试验都做一般,因此进行进行一定数量的随机试验,称为: “随机抽样” 我们把样本的数据进行处理,比如得到平均值/标准差的这类数据信息,称为—— “统计量” 咱们得到的“统计量”是从一个随机样本中得到的,如果再随机选一套样本,得到的“统计量”又可能会不同了,所以这些统计量本身也是随机变量,它们也有概率分布,称为: “抽样分布” 我们把样本研究的结果用来反应总体的特征,称为: “统计推断” 统计推断包含两类问题:
上面这些概念我们后面会详细讲,这里是想说明的问题是: 概率论与统计学正是因为“概率分布”这一核心思维才紧紧联系在了一起,不可分割,所以统称为“概率统计”。 概率与统计不能分开讨论 概率分布的种类概率分布无非就是随机变量的出现的可能性的分布,所以太多了—— 可以看出有离散型和连续型两类 下面咱们从理解应用的角度,讲一讲最常用的8种分布: 离散型概率分布:
连续型随机分布:
离散均匀分布即“等概率模型”(古典概型),最简单的概率分布: 抛硬币,扔骰子,抽扑克,共有n种选择,每种选择的概率为1/n。 使用前提:必须确定是“等可能性的”,避免走入直觉误区。 二项分布假如我要抛20次硬币,那么会出现几次正面呢? 对于这类问题我们使用“二项分布”下图中蓝点即为n=20次独立试验,每次试验成功(如正面)的概率都为p=0.5,成功次数的概率分布: 从图中可以看到,20次试验最有可能出现10次成功,10=20*0.5,意义很明显,而出现9次成功/11次成功的可能性也很大。 总结:n次独立试验,每次试验成功概率为p,那么试验成功次数的概率分布即为二项分布。 “二项”一词的涵义是,每次试验,只有两种结果。 泊松分布直接问一个具体的现实问题吧: 断网之后,网络中心会接到很多电话,按经验来说在1小时内会有L人打电话咨询,(总用户量为n),那么这1小时内,打电话的人次是怎么样的概率分布呢? 直观地想象一下,大家不太可能商量好都打电话,或都不打电话;而最有可能的,就是那个“按经验来说”的L人打电话。 这就是泊松分布—— 图中为L=1 4 10 时的分布 L 是泊松分布中的惟一参数,表示“平均发生次数”,因此等于二项分布里的 np。 泊松分布描述的是: 知道一个事件在一段时间内,一般平均发生L次,想知道它在这段时间里,发生次数的概率分布。 几何分布几何分布描述的是,得到一次成功所需要的试验次数X。 从图中看出,p=0.2时,1次试验就成功的概率就是0.2;而第二次才成功的概率显然是0.8*0.2。这就是几何分布的意义。 为什么叫“几何”分布?是不是感觉这个名字很突兀?其实很好理解,图中各处的概率呈等比数列,也称为“几何数列”,只不过国内很少这么叫罢了,国内倒时经常会说“几何级数”,其实就是几何数列构成的级数啊。 几何分布其实就是在研究,到底需要几次尝试,才能成功,这么一个问题。 |
|