分享

《模型思考者》3:三种分布模型

 图书馆收藏文库 2020-03-03

《模型思考者》3:三种分布模型

这里是斯科特·佩奇的《模型思考者》这本书的第三讲,咱们讲三个特别常用的统计模型,分别是“正态分布”、“对数正态分布”和“幂律分布”。

我敢打赌你至少听说过“正态分布”。我们专栏以前提到过正态分布 [1],这次是以模型的眼光把三个重要分布放在一起讲。佩奇的模型课完全不介意使用数学,这三个概念听起来就有强烈的数学味道……而我保证,在我们整个的系列解读中,你都不需要拿起笔来做数学计算。

但是你需要从这个系列中获得一点“数学感”。球迷自己不会踢,看别人踢球也会得到有一点“球感”,也能在一定程度上阅读比赛、甚至做出很好的预测判断,我说的数学感差不多也是这个意思。

这一讲说的数学感能带给你一个非常实用的判断力:什么时候应该担心发生极端事件,什么时候不应该担心。我们讲“蝴蝶效应”的时候说过 [2],就算你是个小心谨慎的人,你也不应该一天到晚对什么事情都提心吊胆。

有些天真的人认为极端事件随时都可能在任何领域发生,真正的学者不会这么看问题的 —— 我们的确见过很多身高超过两米的人,但是可没见过身高 15 米的人。而在另一些领域中,的确就是存在特别极端的例子,比如世界上有些特别有钱的人。这二者的区别是啥呢?

区别是人的身高服从正态分布,而财富不是。

1.正态分布

咱们先回到上一讲说的那个开餐馆的事儿。如果你的餐馆事业已经比较稳定了,你不会太担心顾客流量的波动。这种情况,就是正态分布。

假设你的餐馆平均每天有 100 个顾客,比较好的时候能到 115 人,比较差的时候也有 85 人,那么画出图来,就是下面这样的一条钟形曲线 ——

《模型思考者》3:三种分布模型

曲线的横坐标代表每天来的人数,纵坐标代表在比如说一个季度之中,来这么多人的时候有多少天。图中标记了正态分布的两个重要概念:平均值(μ),和标准差(σ)。对你这个餐馆来说,μ = 100,σ = 15,这意味着在 68%的日子里,你的顾客人数会在 85 和 115 之间 —— 这叫“一个标准差之内”。横轴上距离平均值越远的地方越是极端事件,而那些事件的纵坐标大小则代表它们发生的概率。

只要你知道餐馆人数符合正态分布,平均值和标准差就都可以用平时的流量数据统计出来。有了平均值和标准差你就可以大致估算各种事件发生的概率:95%的事情都发生在两个标准差之内,99.7% 的事情发生在三个标准差之内。有个极客说要找个美貌程度在两个标准差之外的女朋友,那就意味着她要比 97.5%的人都漂亮。

这些概念是一名现代大学生应该具备的常识,你在课堂上可能都学过。但是也许你有个疑问:

为什么餐馆人数满足正态分布?

并不是所有随机事件都满足正态分布。想要学会判断什么样的事件满足正态分布,你必须有一点数学感,你需要了解“中心极限定理”。中心极限定理说,如果一个事件满足下面这些条件,它的分布就是正态分布 ——

第一,它是由多个 —— 至少 20 个 —— 随机变量*相加*的结果;

第二,这众多的随机变量是互相“独立”的;

第三,每个随机变量的方差都只有有限大;

第四,每个随机变量对结果都要有一定的贡献,否则如果只是其中几个起到决定性的作用,那也不能算“多”。

简单地说,关键要求有两个:“相加”和“独立” —— 凡是多个独立随机变量相加的事件,结果就会是正态分布 [3]。

你的餐馆顾客满足这些条件。每个顾客来不来吃饭都是他自己的决定,是独立的;而你计算的是今天总共来了多少人,是这些人的和。

直观地说,中心极限定理说的是每个人来不来可能波动很大,但是因为人多,整体上来多少人,波动就不会有那么大,所以满足正态分布。

生物学家认为人的身高是由至少 180 个基因共同决定的。有的决定你的小腿有多长,有的决定你的脖子有多长 —— 而你的身高,是所有这些因素相加之和。作为一个很好的近似,决定身高的各个基因是比较互相独立的。所以身高满足正态分布。

你看这是不是有一种“冥冥之中自有定数”的感觉。虽然你不知道明天会有哪些顾客,但是你知道他们的总人数不会太离谱:三个标准差已经覆盖了 99.7%的可能性,来超过 145 或者低于 55 人的可能性只有千分之一。这意味着两三年都碰不到一次,所以你真的没有必要准备那么多桌椅。

正态分布能给人充分的掌控感。每个案例相差都不会很大,通常翻不了天。

好,现在回到正态分布的两个条件,“相加”和“独立”:如果局面不满足这两个条件,结果会是怎样的呢?那你就得做好准备迎接极端事件了。

2.对数正态分布

如果一个事件的结果不是由独立随机事件相加、而是由相乘决定的,它的分布将是“对数正态分布”。这个分布的形状就不是对称的钟形了,而是像下面这样 ——

《模型思考者》3:三种分布模型

它有一个比较长的尾巴。这意味着其中发生极端事件的可能性比正态分布高很多。

比如说涨工资吧。有个公司,本来员工之间工资相差不大。有一天老板宣布了一个涨工资计划,说以后每年业绩突出的员工,工资会增加 10%。你猜这个政策意味着什么?

意味着员工之间的工资差距将会变得越来越大。可能老王工资本来就比小李高,这次业绩又比小李好,那么老王涨 10%,小李没有,所以两人的差距将会变大。换一种情况,老王表现没有小李好,那么小李涨 10%,两人差距会缩小。但是,请注意,因为老王工资高,所以第一种情况导致的工资差距拉大,会超过第二种情况导致的工资差距缩小 —— 所以总体看来,全体员工的收入差距必然拉大。

这就是因为你使用了相乘的方法。换个方案,如果规定业绩好的员工,不论之前的工资是多少,一律涨一万块钱,那么员工之间的工资差距就不会拉大。

你喜欢让员工的收入差距拉大还是缩小呢?不管你喜欢哪种局面,你需要这个数学感。否则是你自己设计的模型,含着泪也得接受它的结果。

请注意,对数正态分布仍然假设每个随机变量的作用是互相独立的 —— 这意味着哪个员工今年能做出更好的业绩,跟他去年的工资没关系。而如果你认为员工工资代表了能力,那么工资越高的人就越有可能做出好业绩,那结果就不会是对数正态分布了,而是比这还要容易出极端事件的“幂律分布”。

3.幂律分布

幂律分布的“长尾”,比对数正态分布更长 ——

《模型思考者》3:三种分布模型

网页链接的幂律分布

《模型思考者》3:三种分布模型

对数坐标下,幂律分布(黑线)和对数正态分布(灰线)的比较

这意味着幂律分布中会有大量的极端事件。

幂律分布是*不独立*的随机变量作用的结果。科学家找到了很多个能带来幂律分布的模型,咱们这里说其中最常见的两个。

第一个模型是“马太效应”。比如你去书店买书,那么多本书选哪本呢?你会优先关注那些上了排行榜的“畅销书”。这是人之常情,但是这对那些没上榜的书是不公平的 —— 这等于说越畅销的书就会越容易被关注,而越容易被关注就让它进一步更畅销。这就成了一个富者愈富的局面。幂律分布使得图书市场中会出现少量特别畅销的书,而绝大多数书的销售成绩都很差。

而这一切都是因为你做决定的时候是在模仿别人。你看到别人都买这本书,所以你才关注它。你的买书行为不是独立的。

明星的粉丝数量、公司的大小、城市的大小,都是幂律分布。比如一个城市越大,其中人与人的互动就越多,就业机会和创新机会也会越多,就越能吸引到新人的加入。这就是为什么中国有那么多的超大城市。当然每个幂律分布中的那个幂律参数不见得是一样的,但是这一讲我们不关心具体的数学,只关心数学感。

如果一个局面中有很多极端事件,我们基本上可以猜测它满足某种某种幂律分布。佩奇做了个计算,说如果美国人的身高是幂律分布的,全美国就会至少有一个人比帝国大厦还要高,而且有一万人会比长颈鹿高……这就是幂律分布的威力。

另一种幂律分布模型来自于复杂系统的“自组织”现象。一个系统在变大、变复杂的过程中,它的各个部分互相依赖的程度将会增加。到了一个临界点,因为互相关联实在太紧密了,一部分出个小问题就会导致整个系统出大问题,那就是雪崩式的灾难。

核电站的安全性、地震、森林大火,这些事情中包含自组织,各个部分之间会有复杂的联动。而我们说过,所谓蝴蝶效应,罪过不在蝴蝶,恰恰就是因为系统中的复杂联动。这些系统可能平时什么事儿都没有,但是其中蕴含着大灾难的可能性。

可能一个地区每天都发生一万次以上的小地震,影响微不足道,但是你考虑到地震是幂律分布的事件,就必须对大地震做好防灾准备。

*

总而言之,如果这个事件代表多个独立随机变量之和,它就满足正态分布,你不用担心会有什么极端的情况发生。如果一个事件是独立随机变量的乘积,那就是对数正态分布,其中会有一些比较极端、但不是那么极端的事情发生。而如果一个事件中的随机变量不是互相独立的,有互相模仿或者达成了紧密的关联,那你就必须做好应对极端情况的准备。

如果你是一个管理者,这个数学感会让你希望建立一个“原子化”的组织。其中的个体都独立决定,不要互相模仿、不要有什么民间组织和派系,实现正态分布。这意味着你要打压那些所谓一呼百应的“社会凝结核”,你要把坏消息的传播控制在最低限度。

而作为个体,也许幂律分布对你有某种诱惑……咱们会专门说说这个。

《模型思考者》3:三种分布模型

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多