别相信直觉：概率论帮助侦破“财务造假”

伟天英 2018-08-18

展开全文

法兰克·本福特（Frank Benford, 1883–1948）本来是一个美国电气工程师，也是一名物理学家，在美国通用电气公司（GE）实验室里工作多年直到退休。

这位工程师在50多岁的时候，却迷上了一个与概率有关的课题。课题得到的结论便是现在我们所说的“本福特定律”，事实上，本福特定律的最早发现者并不是本福特，而是美国天文学家西蒙·纽康。

别相信直觉：概率论帮助侦破“财务造假”

（西蒙·纽康。图片来自网络）

纽康于1877年成为美国航海天文历编制局局长，并组织同行们重新计算所有主要的天文常数，繁杂的天文计算经常需要用到对数表，但那个时代没有互联网，没有阿里云，对数表被印成书本，存于图书馆中。细心的纽康发现一个奇怪的现象：对数表中包含以1开头的数的那几页比其他页破烂得多，似乎表明计算所用的数值中，首位数是1的概率更高，因此他在1881年发表了一篇文章提到并分析了这个现象，但没有引起人们的注意，直到57年之后的1938年，本福特又重新发现这个现象。

说来令人奇怪，科学定律的发现有时候来自于一些毫不起眼，小得不能再小的现象，本福特的发现便是如此：以1开头的数字比较多，这也算是一个定律吗？本福特发现这种现象不仅仅存在于对数表中，也存在于其它多种数据中，于是，本福特检查了大量数据而证实了这点。

本福特定律是一个乍听起来有点奇怪并违反直觉的现象，我们举一个例子说明它。

设想某银行有1000多个储存账户，金额不等。比如说，张本有存款23587元、老李1345元、小何35670元、刘红9000元、王军450元……等等。奇怪的本福特定律不感兴趣存款金额本身，而感兴趣这些数值的开头第一位有效数字是什么，有效数字指的是这个数的第一个非零数字。

别相信直觉：概率论帮助侦破“财务造假”

（图片来自网络）

例如8.1、81、0.81的第一位有效数字都是8。比如说，刚才几个人存款数的第一位数字分别是2、1、3、9、4。所以，本福特定律也叫“首位数字定律”。

一个数的第一位（非零）数字可能是1到9之间的任何一个。现在，如果我问，在刚才那个银行的上千个存款数据中，第一位数字是1的概率是多大？

不需要经过很多思考，大部分人都会很快地回答：应该是1/9吧。因为从1-9，9个数字排在第一位的概率是相等的，每一个数字出现的概率都是1/9，大约11%左右。

别相信直觉：概率论帮助侦破“财务造假”

这听起来十分正常的思维方法却与许多自然得到的数据所遵循的规律不一样。人们发现，很多情况下，第一个数字是1的概率要比靠直觉预料的11%大得多。数字越大，出现在第一位的概率就越小，数字9出现于第一位的概率只有4.5%左右。各个数字出现在第一位的概率遵循如图1-4-1左图所示的概率分布。

本福德和纽康都从数据中总结出首位数字为n的概率公式是：P(n)=logd(1+1/n)，其中d取决于数据使用的进位制，对十进制数据而言，d=10。因此，根据本福德定律，首位数是1的概率最大，log102=0.301，十成中占了三成；首位数是2的概率log10(3/2) =0.1761；然后逐次减小，首位数是9的概率最小，只有4.6%。

图1-4-1右图所示的是符合本福德首位数法则的几个例子：人口统计、基本物理常数、斐波那契数、阶乘。

别相信直觉：概率论帮助侦破“财务造假”

（图片来自网络）

本福德收集并研究了20229个统计数据，分成20组，包括诸如河流面积、人口统计、分子及原子重量、物理常数等多种来源的资料。

数据来源虽然千差万别，却基本上符合本福德的对数法则，见图1-4-2所示的数据表。表中的最后一列数值，是根据本福特的对数规律公式计算得到的每个数字出现于首位的概率，读者可以将它与真实数据相比较。

本福特定律适用范围异常广泛，自然界和日常生活中获得的大多数数据都符合这个规律。尽管如此，但毕竟还是有其应用范围，主要是受限于如下几个因素：

1. 这些数据必须跨度足够大，样本数量足够多，数值大小相差几个数量级；

2. 人为规则的数据不满足本福特定律，比如说，按照某种人为规则设计选定的电话号码、身份证号码、发票编号，为造假而人工修改过的实验数据等，都不符合本福特法则。彩票上的随机数据也不符合第一数字定律。

别相信直觉：概率论帮助侦破“财务造假”

图1-4-2：本福德从大量数据中得到的首位数字概率表

如何理解本福德定律

尽管本福德和纽康都总结出了首位数字的对数规律，但并未给出证明，直到1995年美国学者Ted Hill才从理论上对该定律作出了解释，进行了严谨的数学证明。

虽然本福德定律在许多方面都得到了验证和应用，但对于这种数字奇异现象人们依旧是迷惑不解。到底应该如何直观理解本福德定律？为什么大多数数据的首位数字不是均匀分布而是对数分布的？

有人探求数“数”的方法，来直观理解本福德定律。他们的意思是说，当你计算数字时，顺序总是从1开始，1,2,3,...,9，如果到9就终结的话，所有数起首的机会都相同，但9之后的两位数10至19，以1起首的数则大大多于其他数字。之后，在9起首的数出现之前，必然会经过一堆以2,3,4,...,8起首的数。如果这样的数法有个终结点，然后又重新从1开始的话，以1起首的数的出现率一般都应该比较大。

可以用这种理解方法来解释街道号码（地址）一类的数据。一般来说，每条街道的号码都是从1算起，街道长度有限，号码排到某一个数就终止了。另一条街又有它自己的从1开始的号码排列，这样的话，看起来，1开头的号码是要多一些的。但这种解释也太不“数学”了！况且，这种理解无法说明另外一类数据为什么也符合本福德原则。比如说，“物理常数”的集合、出生率、死亡率等，就不是从1开始计算到有限长度就截止的那种数据了。

别相信直觉：概率论帮助侦破“财务造假”

（图片来自网络）

另一种解释是认为“首位数字定律”的根源是由于数据的指数增长。指数增长的序列，数值小的时候增长较慢，由最初的数字1增长到另一个数字2，需要更多时间，所以出现率就更高了。举个例子来深入说明这个道理，考虑你有100美元存到银行里，年利是10%，25年中，你每年的存款金额将是（$，只保留了整数部分）：

100、110、121、133、146、161、177、195、214、236、259、285、314、345、

380、418、459、505、556、612、673、740、814、895、985

这是一个指数增长的序列。在这组数据的25个数中，首位数字为1的有8个（32%）；2的4个；3的3个……9的只有1个（4%），那是因为从首位为1增加到首位为2，经过了更长的时间（8年），从首位为2，只经过4年就变成了首位为3，而首位为9的话，下一年就不是9了。所以，指数增长规律的数列的确符合本福德法则。

别相信直觉：概率论帮助侦破“财务造假”