告诉你选的100%正确，结果一定是对的？

昵称41082923 2018-03-29

展开全文

我们每天都面临着各种选择，早上闹钟响了，我们需要选择马上起床还是再睡五分钟，起床后我们需要选择在家吃早餐还是出门买早餐，出了门以后我们需要选择开车上班还是坐地铁……这些只是日常小事，但是在统计学家的眼中，这些选择或许藏着更为深奥的学问。

模型选择，这是统计学中的基本问题。什么是模型选择呢？

模型选择广泛应用在自然科学和社会科学各个领域。经过合理假设后建立的一些统计模型，我们称之为比较模型，所有比较模型构成了模型空间。简单来说，模型选择就是通过使用模型空间中的各模型对观测数据进行分析，选择出与数据匹配度最佳的统计模型的过程。贝叶斯统计是统计学中一种很重要的方法。它通过计算模型的后验概率来进行模型比较。所谓后验概率，就是从结果去寻找可能的原因，比如我们喝一口红枣粥后根据粥的甜度来判断这碗粥放过糖的概率是多少。在贝叶斯统计中，模型的后验概率是一个随机变量，它反映了我们对模型的确信程度。

当真实模型是多个比较模型中的一个时，贝叶斯模型选择总能收敛到真实模型。随着数据量的增加，正确模型的后验概率将趋于100%，也就是对这个模型的确信程度一直在增高。这在统计上叫做一致性。

但是，如果比较模型全是错的，使用贝叶斯方法会得到怎么样的结果呢？？对于这一点，其实科学家们还不是很清楚。

因此，我们研究了贝叶斯模型选择的渐近行为。我们关注比较模型相同错误或者相同正确的情形。例如，假设一个硬币是均匀的，那么掷硬币时正面朝上的概率是50%。如果两个比较模型分别是正面朝上概率为40%和正面朝上概率为60%，那么这两个模型就是相同错误的。

模型中可能含有参数，对参数进行优化后，使模型和正确模型最接近，这时的参数称为最优参数，模型称为最优模型。例如某地区成年男性的身高服从正态分布N(1.75, 0.04)。如果两个比较模型是N(μ, 0.04)，μ ≤ 1.75和N(μ, 0.04)，μ≥1.75，那么当身高均值参数μ取到真实值1.75时，模型就是最优模型，此时两个比较模型的最优模型是相同的且是正确的。如果两个比较模型是N(μ, 0.06)，μ ≤ 1.75和N(μ, 0.06)，μ≥1.75，同样当身高均值参数μ = 1.75时，达到最优模型，两个模型的最优模型相同，但都不是正确模型，因为方差较真实方差大。

当比较模型之间没有优劣之别时，我们期望模型选择能呈现一种比较“理智”的行为，即k个模型的后验概率均为1/k。但遗憾的是研究结果并非如此。

我们把贝叶斯模型选择问题分成了三类，每类分别呈现出了不同的极限行为。第一类问题，是比较两个本质上相同的模型，这类问题基本没有研究价值。

第二类问题，是比较两个相同正确或者相同错误、且最优模型相同的情况。在这种情况下，模型的后验概率收敛到一个非退化分布。从这个分布中抽出的样本每次都不相同，也就是结果是波动的。

图1 贝叶斯模型选择行为的分类

第三类问题，比较两个相同错误且极限模型不同的情况，这种情况是我们最关心的，因为从某种意义上来说，对于真实世界模型总是错误的。在这种情况下，贝叶斯模型选择表现出一种极端“非理智”的行为：在使用随机产生的数据时，对一些数据以极高后验概率支持某一模型，而其余模型后验概率趋于0；在另一些数据中以极高后验概率支持另一模型。这种情况与我们预期的“理智”行为相去甚远。

我们可以看看这么一个例子：假设真实世界是灰色的，我们去问一个圣人世界是白色的还是黑色的。他经过深思熟虑后回答世界是100%黑色的。但是下次去问同一个问题时，他给出的答案是世界是100%白色的。这样的行为让人困扰。

贝叶斯选择的这种“过度自信”吸引了科学家的兴趣。日前，中国科学院数学与系统科学研究院和英国伦敦大学科研人员发布在PNAS上的一项研究发现，贝叶斯模型选择的病态渐近行为，可能是导致使用贝叶斯方法时错误进化树的后验支持率接近1的主要原因。

这项研究的出发点是分子系统学。分子系统学是使用分子数据（基因组数据）来推断物种间的谱系关系的学科，这种谱系关系用进化树来刻画。在使用贝叶斯方法时，每一种进化树对应一个比较模型。下图中树T0是正确模型，T1，T2和T3是三个相同正确或错误的比较模型，正确与否取决于枝长参数(t)的最大似然估计值，这个估计值与进化模型相关。

图2 三个物种的有根树（A）和四个物种的无根树（B）

图3展示了使用的序列长度为103和105的情况下得到的三个二叉树的后验密度函数。图中三角形的三个顶点代表三个模型的后验概率分别为（1, 0, 0），（0, 1, 0）和（0, 0,1），三角形的中心对应三个模型的后验概率为（1/3, 1/3, 1/3）。红色代表高数值，黄色代表低数值，灰色部分数值为0。三角形中心部分也就是科研人员所预期的“理智”行为。

图3 三种二叉树的联合后验分布

A和A’使用了图2(A)中的三个物种的有根树作为比较模型，而真实模型是星状树。当三个二叉树内部枝长t0取极大似然估计值0时，三个二叉树对应了相同正确的模型。

B和B’与A和A’类似，只是模拟和分析时使用的模型不同。此时内部枝长t0的极大似然估计值为0，但是t1的极大似然估计值不等于t这种情况下三个二叉树对应了相同错误且极限模型相等的情形。可以看出这两种情况后验分布都是非退化的。

C和C’使用了图2（B）中的三个无根树作为比较模型，真实模型是四个物种的星状树。在三个比较模型中，内部枝长t0的极大似然估计值不为0，在这种情况下三个二叉树对应相同错误且最优模型不相等的情形。此时，贝叶斯模型选择展示出了极端“不理智”行为，后验密度只集中在三个顶点处。

在此研究之前，有学者认为决定贝叶斯模型选择行为的可能因素是模型的参数个数、极限模型是否正确等。但这项研究结果表明这些都并非决定因素，决定因素是比较模型的最优模型是否相同（无论极限模型正确与否）。

同时科研人员还发现了贝叶斯模型选择一个让人头疼的特性。当比较模型之间有较小的优劣之别，当数据量趋于无穷时，理论上较为正确模型的后验概率应当收敛到1。但是即使数据量非常大（但有限），还是有一定可能性出现较错误的模型获得了很大的后验概率的情况。

之前进化生物学家在研究中曾多次观察到使用贝叶斯模型选择的方法估计进化树时，不管进化树是否正确，其后验概率总是100%或0。这项工作的研究成果为这一现象提供了一个解释。

贝叶斯模型选择广泛应用于科学的各个领域。理论上说，由于贝叶斯模型选择方法具有一致性，是一种性质优良方法。出现这种极端行为是因为用于比较的模型中并不含有正确模型，也就是说这种极端行为是用户错误而非系统错误造成的。但无论是贝叶斯方法还是非贝叶斯方法，这类研究成果对评价不同的检验模型的应用的哲学意义还有待进一步研究。

作者:朱天琪