「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

gdqylzz453 2017-12-24

展开全文

没有应用数学，只有数学的应用。概率论作为数学的一个重要分支，成功的让许多人望而却步。其实日常生活中有很多概率论的实际应用。想不想让随机迷茫的人生变得明朗可控？带着具体问题出发，让好奇心战胜恐惧感，尽情感受数学之美吧。

Too long; not read 版：

墨西哥公交车的间距
互联网连接模式
铀原子核能谱分布
冰层融化的模式
气候模型
骨质疏松检测
各国股票指数的交叉关联
随机矩阵的特征值分布
黎曼Zeta函数零点分布（与素数分布有关）
任何足够复杂的系统

这些看似无关的领域，其实有深刻的内在关联。在杂乱随机的表象之下，隐藏着普适的规律性。墨西哥公交车的间距这样的生活现象为什么会跟随机矩阵、黎曼Zeta函数这样的纯数学构造扯到一起？这些关联性是否预示着宇宙的终极规律？疑问越来越多，等待着好奇的人们去探索。

1999年，一位捷克物理学家Petr Šeba注意到，墨西哥的许多公交车站都有人跟公交司机用小纸条交换小费。经过一番调查，他发现这并非有组织的犯罪，而是另一种地下交易——司机们雇佣了这些“间谍”来记录上一趟公交车的离站时间。因为在墨西哥：

没有公交公司统一制定的发车时刻表
公交车是司机的私人财产
司机的收入来自于乘客的购票

每位司机为了最大化自己的收入，就会与其他司机产生一种竞争关系。司机需要知道前面一辆车离站的时间，以便：

尽量拉长与前车的间隔，以便当自己到达时，站台上积攒了更多的乘客
但车速也不能慢到让后车超过自己，否则就被别人收割了成果

Šeba费了一番精力才让“间谍”相信他不是便衣税务官，而只是一位疯狂的科学家，希望用龙舌兰酒来交换他们手中的数据（共27天的3500个班次的进站时间）。利用这些数据计算出车辆进站的时间间隔，归一化后（平均时间间隔为1）的直方图如下：

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

图1. 墨西哥公交车进站的时间间隔的PDF

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

图2. 墨西哥公交车进站的时间间隔的CDF

其中(+)是实际观测数据；实线则来自八竿子打不着随机矩阵理论，二者吻合得不错。实线是 2 x 2 阶高斯幺正系综（Gaussian Unitary Ensemble——简称GUE）的特征值（eigenvalue）间距分布：

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

式1.

（请自行验证此分布的期望值是1，它不是高斯分布，也不是左右对称的）额。。。这都是什么鬼东西？不管那么多，先回忆一下「生活概率论-1」中提到的公交时间间隔。那里的司机没有小纸条的帮助，也没有票务收入的压力，仅遵从公交公司要求的固定发车间隔，路上可能通畅可能拥堵，相当随机，进站时间间隔服从指数分布（等价于Poisson过程，见「生活概率论-2」）。换个角度，考虑在 [0, 1] 区间内按均匀分布抽样得到一系列实数，猜猜这些实数的间隔服从什么分布？

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

图3. 在 [0,1] 区间内按均匀分布随机采样50个点的图示

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

图4. 均匀抽样的样本间隔的PDF

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

图5. 均匀抽样的样本间隔的CDF

没错，也是指数分布！也就是说：

按单位平均间隔发车的公交，进站的间隔
按单位平均密度抽样后，样本的间隔

二者的分布是相同的，而图1 和图4 所表示的两种公交间隔分布却迥然不同。其原因就在于墨西哥的公交司机为了多挣钱，会尽量远离前后车，相当于车辆之间产生了排斥势能。令人意外的是，还有一些看似无关的体系，比如一维气体分子，通过库伦力互相作用，他们在给定温度下所在位置也服从这个分布。而这些统计性质就来自于随机矩阵系综。

现在该介绍一下已经两次出场的随机矩阵理论了，它来自被虐惨了的物理学家们。随着物理学的不断发展，人们引入越来越复杂的模型来刻画现实世界，虽然精度提高了，但计算的难度也大大增加，真正能靠数学公式严格求解的问题变得越来越少。比如中学里教的牛顿第二定律 F = ma，在高速时要考虑狭义相对论效应，公式变为了

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

再到广义相对论中，加速度和引力被等同为时空弯曲，公式变为了噩梦般的张量方程：「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

在牛顿引力理论中，二体问题是可以严格求解的。到广义相对论中，二体问题没戏了，只能对单体问题严格求解。到量子场论中，连单体问题都不行了。更何况真实环境中往往是多体问题，少则十几个，多则10²³以上。要精确刻画每个粒子的微观状态不仅是不可行，而且经常是没有必要的。于是人们发展出了统计物理的方法（见「生活概率论-7」）。尽管体系的微观状态纷繁复杂、变化多端，但往往满足一定的统计分布，而分布的平均值具有物理意义，比如温度就是微观粒子平均动能的体现。人们把满足一定宏观约束（如温度、体积）的体系的所有微观状态看作一个整体，叫做系综（Ensemble）。体系的宏观状态由系综的平均值给出。体系所处的具体微观状态是随机的，但它们具有相同的哈密顿量（Hamiltonian）。哈密顿量可以看作是个重要且特殊的矩阵，它的特征值决定了体系的能级。嗯，这种方法的确很有效。然而好景不长，随着研究的深入，一些连统计物理也没法处理的情况出现了，比如重原子核（含有大量质子中子）。这种体系可谓五毒俱全：多体、耦合强、非有心相互作用等。这下可好，连哈密顿量也没法确定了，所以干脆把它也随机化了，用随机哈密顿量——也就是随机矩阵——来描述系综。这种方法最早由美籍匈牙利物理学家 Eugene Wigner (1902-1995) 于 1955 年提出，不过早在1928年，苏格兰统计学家 John Wishart (1898-1956) 就开始研究随机矩阵了。那个时候是为了研究人群的统计属性，特别是两两属性之间的关联性（比如收入和身高），自然的使用了矩阵的形式。

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

Eugene Wigner（左），John Wishart（右）

这个理论于物理学界大放异彩，就是源于对重原子核的研究。拿 ²³⁸U 来说，它非常重，由92个质子和146个中子组成，每个粒子都在产生复杂的作用力与其他粒子互动。为了洞察其内部结构，人们用中子轰击重原子核，检测散射率与中子能量的关系（如下图）。

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

铀原子核中子共振谱

由于重原子核这个体系实在太复杂了，要想精确预测每条谱线是不可能的。50年代左右，Wigner和Dyson就提出一种革命性的办法，试图建立这些谱线的统计理论。这个理论不能给出任何原子核的具体能谱，但对于任何足够复杂的原子核，它都能用数学精确的描述谱线的一般形态及不规则的程度。原子核被视作一个“黑箱”。其中最典型的应用就是计算能谱间距的统计特性，而最大的意外就在于它与随机矩阵特征值的间距具有一致的分布形式。

来个具体的例子，看看随机矩阵长什么样。比如前文提到的GUE随机矩阵（也叫Wigner matrix），如下图，矩阵是个方阵，每个单元是随机的复数（服从高斯分布），同时关于对角线复共轭，学名叫厄米矩阵（Hermitian matrix）。比如第一行第三列和第三行第一列的元素，实部相同，虚部相反。在这种情况下，可以保证的矩阵特征值都是实数。

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

那么大量这样的随机矩阵，他们的特征值有什么分布特征吗？跑段程序看看十万个 2 x 2 阶随机厄密矩阵的情况：

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

图6. 特征值间距的分布

注意特征值的间距被均一化为均值为 1。图6 中的黄色直方图是这些矩阵的特征值间距的实际统计结果，而蓝线是理论结果，二者相当吻合（注意这段程序中 p[x] 的定义就是式1）。这么说来：

墨西哥公交车的间距
通过库伦相互作用的一维气体分子的间距
随机厄米矩阵的特征值间距

都服从式1 所给出的分布。Šeba曾感叹，研究公交车间距时，只是感觉会有类似的分布出现，但没想到会吻合得如此之好。由于这种分布特征广泛出现在各类看似毫不相关的复杂系统中，具有普遍性，所以称其为“Universality property”。来直观感受一下均匀分布、Universality和固定频率的采样的区别：

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

可见，均匀分布经常给出十分接近的样本，这也是“福无双至，祸不单行” 的概率解释。而Universality分布不是独生子，而是兄弟仨。Dyson将随机矩阵按对称性的不同归为三种结构：正交矩阵、幺正矩阵、辛矩阵。同时让这些矩阵的元素服从Gauss分布，就得到了Gauss 正交系综 (Gaussian Orthogonal Ensemble——简称GOE) 、前面提到的Gauss 幺正系综 (GUE) 和 Gauss 辛系综 (Gaussian Symplectic Ensemble——简称GSE)。每种系综都对应一种Universality分布：

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

其中第一行的公式叫做Wigner’s surmise，β 可以取值 1、2、4 。系数 A、B 用于保证总概率和期望值都为 1。这三种分布与指数分布的函数图像如下，可见其主要区别在于：

s 较小的时候，指数分布趋于 1，而Wigner’s surmise趋于 0，表示间距越小，越难出现，从而表现为一种排斥效应，叫做level repulsion。（当然，也不是排斥得越远越好，毕竟大的间距也很难出现）
s 较大的时候，两种分布的概率密度都快速的衰减，但Wigner’s surmise衰减得更快

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

三种Wigner分布与指数分布的对比

你可能会问，为什么假设系综是高斯分布？

普通的回答是，因为这样计算简单（面对如此复杂的体系，这是压倒性的优点了）
深刻的回答是，高斯分布保证了系综具有最大熵，让每个能级的信息量最低
牛逼的回答是，不用高斯分布也行（但不能是柯西分布之类的病态分布，见「生活概率论-8」）

这正是“Universality”的体现。Wigner’s hypothesis断言，只要系统足够复杂，内部足够耦合，就会表现出Universality的规律性。这种混沌与有序的微妙平衡，可以由随机矩阵理论精确的描述（之所以用矩阵，是因为它不仅能严格的计算，而且能足够灵活的建模物理现实）：

墨西哥公交司机其实仅受前后两车的影响，相当于三体耦合，体现出Universality
一维气体在库伦势下的排列，每个分子都对所有其他分子产生影响。即使势函数不同，也都体现出Universality
互联网节点的连接情况，i 行 j 列的矩阵元素表示 (i, j) 是否存在连接。0表示未连接，1表示连接，亦或是 [-1,1] 区间里的随机实数值。这个矩阵的特征值间距都体现出Universality（用于改善广告投放）
重原子核的中子共振谱线间距，与 GOE 对应，体现出Universality
湖面冰层的融化Pattern（冰面/水塘交替），体现出Universality（用于改进全球气候模型）
各国的股票指数的具有联动关系，他们的交叉关联性体现出Universality
黎曼Zeta函数的零点分布，体现出Universality （这是最神奇最意外最重要的一个发现，而且跟质数的分布有关）

上面这些都是表象了。至于为什么这些系统都表现出相同的行为？目前还不得而知，似乎是一种自然规律。看起来Universality出现于由许多个部分组成，每个部分之间又有相互作用的系统。越是复杂的系统，Universality的表现就越明显。这就好像一个屋子里有许多人时，大家一起决策要做什么事情，其中个人的想法就不那么重要了。

系统越复杂，所对应的随机矩阵也越大（阶数越高）：

当阶数趋于 ∞ 时，世界是连续的，对应于量子理论中的半经典模型（普朗克常量趋于 0），对应于几何光学
当阶数有限大时，世界是离散的，对应于量子理论（普朗克常量为有限值），对应于波动光学

如果一个系统表现出了Universality的性质，就好比给自己贴了“我是复杂耦合系统”的标签，告诉人们可以用随机矩阵来建模它。这样的系统内部就像“导体”一样，会不断传递电子、热量、水流、能量等等。反过来，如果一个系统没有表现出Universality的性质，那么就说明这个系统内部是松散的，缺少互动，看起来像是某种“绝缘体”。脑洞大开的科学家Golden, Murphy和同事们利用这个特点来检测骨质疏松。

为什么总是Universality这种特定的pattern，而不是其他的？人们还停留在只能列出公式，但无法给出物理解释的阶段。也许每个复杂系统的背后都对应了一个矩阵。果真如此的话，把黎曼Zeta函数的零点对应到这个矩阵上，将对解决黎曼假设（Riemann hypothesis）起到重大暗示作用。亦或矩阵并非Wigner Universality的核心，其背后还存在更深层次的、未被发现的数学结构，各种复杂系统只是这个结构的不同表象而已。

数学家们在努力寻找着答案，可没人能确定这个答案一定存在。没人能想到墨西哥的公交车会这样，没人能想到Zeta函数的零点会这样，科学魅力就在于其充分的不可预知性，重大突破时常来自于意料之外的关联。

【后记】

笔者是听了喜马拉雅上《大老李聊数学》的一期节目，第一次了解到Universality分布，非常震撼。用了1个多月查阅资料、尝试编程，把学到的东西整合起来，分享给大家。尽管生活概率论系列文章才刚刚开始，但感觉这篇非常适合作为最终章。不仅展示了概率的大范围应用，涉及极其重要的数学内容，而且最后留下开放式的问题，等待读者继续去探索。

本文放弃展开讨论黎曼Zeta函数零点分布的内容，实在是不得已而为之。少了这个等于丢失了一半的份量。下次吧，把她作为“最终章”的姊妹篇，敬请期待。

【附录】

为了给下一篇黎曼Zeta函数零点分布做好铺垫，有必要更仔细的观察随机矩阵特征值的间距。

考虑一个1000x1000的Wigner Matrix，我们看看它的特征值大小分布如何：

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

可以看出，特征值集中于 [-2√n, 2√n] 的范围内，而且直方图近似于半圆。这个范围跟矩阵大小 n 有关。我们可以将其归一化。把矩阵每个元素都除以 √n ，得到标准Wigner matrix，再画直方图：

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

这下特征值的范围就是 [-2, 2]，跟 n 无关了。这个半圆就是随机矩阵里的第一个定理 Wigner semi-circle law。

我们还可以进一步看看每两个特征值之间的关联性——对关联函数（Pair correlation function）。这时需要对所有特征值排序了。同时，我们得把间距也归一化掉。由半圆定律可知，越靠近圆心，特征值越密集，间距越较小。我们可以利用Wigner半圆率以及区间内总共有 n 个特征值这两个条件，将平均间距归一化为 1 （见下面 LevelSpacing 函数的定义）：

「生活概率论-9」混沌中的普适规律——用概率的眼光看世界

可以预见：