分享

秒懂本福特定律

 F2967527 2021-11-18
图片

本福特定律是个什么鬼?

本福特定律,是说一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成(30.1%)。各个首位数字的分布如下:

图片

举例来说,一份上市公司的财报数据,世界上所有楼房的高度数据,历史上不同时期的人口数量数据等数据基本上符合本福特定律。也就是把这些数字抽取出来,统计数字首位数的个数,基本上符合上图中的首位数字的分布。

为何如此神奇?

从常识上来讲,首位为1的数字占比是不是等于1/9更加合理?这种反常识的现象在某些特殊情况下是可以解释的,但是到目前为止并没有一个严格的证明过程适用于所有情况。其中呈指标变化的数列就是这么一个解释的特殊栗子。假设有一个数列以公比为2的指数增长,1,2,4,8,16,32,64,128,256,512,1024,2048,4096,8192,16384...

观察这个数据,由于数据呈现指数增长,这导致数据的首位变化并不连续。比如两个相邻的首位是1的数字中间间隔大概2到3个其他数字,这几个数字的首位呈现某种随机变化,假设是这种变化是均匀分布,那么上面这个数列首位为1 的数字占比依然大于首位为其他数字的占比,所以1的占比是大于1/9的。同样的方式可以继续观察相邻两个首位是其他的数字之间的数字变化,这样的话基本可以较为感性地感受到上图中的首位数变化规律。

再举一个更加直观指数变化的例子,假如一个数列呈现公比为10的指数变化,那么他的变化规律为1,10,100,1000...我们把它画在坐标轴上(曲线)来看看会发生什么神奇的事情。

图片

l1所在的区间为首位等于1的数据集合,l2所在区间为首位等于2的数据集合,依次类推,那么首位为1的概率为l1除以区间总长度,也就是l1,可以计算得到l1=lg20=30.1%,以此类推l2=lg30-lg20=17.6%,,,l9=4.6%。发现没有,这个概率完全与本福特定律拟合。

如果数据是线性增加的(如图中直线)那么各个首位数字分布将呈现均匀分布,也就是各个首位数字的占比均为1/9。看到这里有些同学应该可以总结出这种现象的原因:

数据的非线性变化与等距取样

证明如下:

  1. 假设指数函数的曲线n=n0*e^ct ;那么首位数字从n1变化到n2所用的时间t=c'*lg(n2/n1)(也就是首位数字n1的时长)

  2. 由步骤1得到t1=c'*lg(2/1);t2=c'*lg(3/2);.....tn=c'*lg(n+1/n)

  3. 约束条件如下:t1+t2+t3+...+t9=c'lg10=c'

  4. 由步骤2,3得到首位数据的概率:p1=t1/c'=lg(2/1);p2=lg(3/2)...以此类推

这样就证明了不管公比是多少的指数增长都是符合本福特定律的(通过第一步中将c变换成c'来调整公比)。从上述推导中也可以看出,首位数字的分布还跟进制相关(通常情况下为10进制),感兴趣的同学可以自行了解,在此就不做深入的探讨了。

除了指数增长的数列之外还有一些其他的数列也是符合本福特定律的,比如斐波那契额数列,在这里我们不给出详尽的证明,仅从一个小的方面来说明这个问题,斐波那契数列在取极限时第n-1项与n项的比值收敛于一个常数C(这个C正好等于黄金分割比:0.618),也就是说斐波那契数列在取极限时与指数函数情况相类似。

有个什么卵子用?

刚才也说了,并不是所有的现象都能解释,比如中国境内所有山峰的高度,宇宙中所有行星的质量等等,这或许也正这个定律的诡魅之处。那这玩意到底有啥用呢?百度来看常用的是比如检测企业财报是否造假,选举舞弊等等。有人统计了美国大选期间不同候选人的选票上选号的首位分布

图片

不同候选人的选号首位分布(顺序分别为拜登,川普,霍金斯)从上图中可以看出拜登的统计数据并不符合本福特定律,川普和霍金斯的统计分布基本符合本福特定律。

那美国大选就一定能造假么?站在个人立场,本福特定律本就是一个没有经过严格证明的定律,况且作为一个统计定律并不是像物理定律那样精确,它受到多种因素的影响,要拿着本福特定律说大选一定造假,那也是不严格的,所以看个热闹就好。

有些同学会说了:“ 讲这么多就为了看个笑话,那说了岂不是跟没说一样?”

“自然不是,本福特定律是发现问题的开始,而非问题的答案。它像是大自然赋予我们的一个异常监控指标,至于异常波动反应的业务问题有可能是假阳性的。例如发现一篇学术文章数据不符合本福特定律,就有理由去怀疑学术造假,再通过调查取证来落实猜想”

除了本福特定律,推荐看看辛普森悖论,也是统计学中一个非常有意思的现象

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多