贝叶斯统计：初学指南

霍振丽 2018-01-29

展开全文

贝叶斯统计：初学指南

什么是 Bayesian Statistics？

Bayesian statistics is a particular approach to applying probability to statistical problems。

在 statistical inference 上，主要有两派：频率学派和贝叶斯学派。

Frequentist statistics tries to eliminate uncertainty by providing estimates. Bayesian statistics tries to preserve and refine uncertainty by adjusting individual beliefs in light of new evidence.

贝叶斯推理的目标？

produce quantitative trading strategies based on Bayesian models.

在使用贝叶斯理论过程中，我们最基本的公式如下：

贝叶斯统计：初学指南

为了方便的计算后验概率，我们会采用共轭先验的方法来简化后验的计算。

举个简单例子，假设我们投掷一枚硬币，我们刚开始认为正面朝上的概率是服从一个 Beta 分布的，Beta 分布能产生一个 0-1 之间的随机数。

贝叶斯统计：初学指南

我们刚开始假设α = β = 1，则 Beta 分布退化为一个均匀分布，接着我们不断的投掷硬币，记录好每次投掷的结果，然后根据结果再来计算此时正面朝上的概率。

此时我们可以计算出 n 次中 k 次朝上的概率值为：

贝叶斯统计：初学指南

我们再来计算后验概率：

贝叶斯统计：初学指南

可以看到后验概率也是 Beta 分布，我们通过假设先验概率为 Beta 分布，能非常方便的计算出后验概率。

下面是一段实验代码：

贝叶斯统计：初学指南

产生的图如下：

贝叶斯统计：初学指南

随着实验结果的增加，我们越来越确信正面朝上概率为 0.5。

以上是一个简单的后验问题，如果遇到一些复杂的后验概率，我们就要使用 mcmc 来做了.

MCMC is a means of computing the posterior distribution when conjugate priors are not applicable.

我们再来看后验的计算公式：

贝叶斯统计：初学指南

此处要想计算出解析解，就必须知道 evidence P(D)，其计算公式如下：

贝叶斯统计：初学指南

这里的问题就是我们一般很难求联合概率的积分，所以我们要通过数值逼近的方法来求 P(D)。其中有一大类算法是：Markov Chain Monte Carlo Algorithms，有 Metropolis Algorithm, Metropolis-Hastings, the Gibbs Sampler, Hamiltonian MCMC and the No-U-Turn Sampler (NUTS).

注：此处为什么积分困难，可以看为什么要使用 MCMC 方法？

MCMC 的应用是和 '维数灾难' 有关的。考虑一个 R 上的分布，如果我们要计算它的数学期望，采用题主所描述的 '等距计算'，那么取 100 个点大致可以保证精度。然而考虑一个 R^50 的分布，这时候要采用 '等距计算' 就要在每个维度上取 100 个点，这样一来就要取 10^100 个点。作为对比，已知宇宙的基本粒子大约有 10^87 个。如果仔细观察 '等距计算' 的结果，就会发现绝大多数点算出的概率都很小，而少部分点的概率非常大。而如果我们忽略大多数概率小的点，只计算概率大的那小部分点，对最后数学期望的结果影响非常小。这是 MCMC 思路的直观部分。MCMC 应用的概率模型，其参数维数往往巨大，但每个参数的支撑集非常小。比如一些 NLP 问题的参数只取 {0,1}，但维数往往达到几千甚至上万左右，这正说明了 MCMC 更适用这些问题。

下面介绍第一个算法：Metropolis 算法。

先介绍 mcmc 算法的一般套路：

先在参数空间中选择一个
在参数空间中提议一个新的位置
根据先验信息和观测数据决定接收或者拒绝
如果接收跳跃，则跳转到新的位置，并且返回到 step1
如果拒绝，则保持当前位置并返回到 step1
连续采用一系列点，最后返回接受的点集合

不同的 mcmc 算法的区别就在于：

how you jump as well as how you decide whether to jump.

Metropolis 使用正态分布来进行跳跃，正态分布的μ为当前位置的，然后σ是需要决定的。σ 是 Metropolis 算法的参数，不同的 σ 值决定了算法的收敛速度。如果 σ 值大，意味着 proposal width 宽，能够跳的更远，并且搜索更多的后验参数空间，但是容易跳过高概率的地方，但是过小的σ 值，又会使得 proposal width 过小，导致收敛过慢。

一旦新的位置被提议出来，下一步就是要决定是否要跳转了，我们计算两个位置的概率比值：

贝叶斯统计：初学指南