【机器学习基础】深入浅出经典贝叶斯统计

阿明哥哥资料区 2021-11-05

展开全文

贝叶斯统计

概率的类型

假设为数据对象的值，的相关频率为，其中N表示总的出现次数（）.

一个事件的概率为，代表事件发生的可能性有多大。

我们通过在范围内为某个空间中的结果(事件)集分配一个数值概率来构造一个概率空间。

当结果是一个不确定但可重复的过程的结果时，概率总是可以通过简单地观察多次过程的重复并计算每个事件发生的频率来衡量。这些频率概率可以很好地陈述客观现实。如

电子自旋是1/2。
希格斯粒子的质量在124到126 GeV之间。
现在宇宙中暗能量的比例在68%到70%之间。
超导体Hg-1223的临界温度超过130K。

如果我们假设这些是通用的常数，而这些常数不会因为你需要测量过程而得到不同的结果。这决定了我们最感兴趣的陈述不能被赋予频率统计的概率。

然而，如果我们也允许概率来衡量在陈述中的主观的'信仰程度'，那么就可以使用概率论的完整机制来讨论更有趣的陈述。这些被称为贝叶斯概率。

贝叶斯概率是由贝叶斯理论所提供的一种对概率的解释，它采用将概率定义为某人对一个命题信任的程度的概念。

最传统的概率理论是基于事件的相对频率（频率），而贝叶斯观点更加灵活地看待概率。在任何情况下，概率总是介于0和1之间，所有可能事件的概率值的总和等于1。

贝叶斯概率和频率概率相对，它从确定的分布中观测到的频率或者在样本空间中的比例来导出概率。粗略描述两种概率统计是:

频率统计: 无趣陈述的客观概率。
贝叶斯统计: 有趣陈述的主观概率。

贝叶斯联合概率

离散随机变量的联合分布

对离散随机变量而言，联合分布概率质量函数为，即

因为是概率分布函数，所以必须有

连续随机变量的联合分布

类似地，对连续随机变量而言，联合分布概率密度函数为，其中和分别代表时的条件分布以及时的条件分布；和分别代表和的边缘分布。

同样地，因为是概率分布函数，所以必须有

独立变量的联合分布

对于两相互独立的事件及，任意x和y而言有离散随机变量，或者有连续随机变量。

贝叶斯统计从联合概率分布开始

括号内分别是数据特征，模型参数和超参数。上的下标是为了提醒我们，通常所使用的参数集依赖于超参数(例如，增加n_components为新组件添加参数)。有时我们将这个对称为模型。

这个联合概率意味着模型参数和超参数都是随机变量，这意味着它们标记了潜在概率空间中的可能结果。

可能性

可能性 是模型参数 (给定超参数 )和数据特征的函数，度量模型给定的观测数据的概率(密度)。例如，高斯混合模型有如下可能性函数:

参数为：

及超参数。注意，对于任何(固定)参数和超参数的值，可能性必须在数据上进行标准化。而不是在参数或超参数上标准化的。

可能性度函数在频率统计和贝叶斯统计中都起着核心作用，但是他们使用和解释的方式不同，这里主要讨论贝叶斯的观点，其中和是随机变量，可能性函数与条件概率相关。

条件概率的表示在给定模型的情况下，观察特征。

贝叶斯定理

贝叶斯定理是概率论中的一个定理，描述在已知一些条件下，某事件的发生概率。

比如，如果已知某人妈妈得癌症与寿命有关，使用贝叶斯定理则可以通过得知某人年龄，来更加准确地计算出他妈妈罹患癌症的概率。

通常，事件A在事件B已发生的条件下发生的概率，与事件B在事件A已发生的条件下发生的概率是不一样的。然而，这两者是有确定的关系的，贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途，即透过已知的三个概率而推出第四个概率。贝叶斯定理跟随机变量的条件概率以及边际概率分布有关。

我们将可能性与条件概率联系起来，我们就可以应用概率演算的早期规则(2 & 3)来推导广义贝叶斯规则:

上面的每一项都有一个名称，测量不同的概率:

后验概率: 是给定数据和超参数的参数值的条件概率。
可能性: 是给出模型的数据的概率，又称为模型的似然。
先验概率: 是给定超参数的模型参数的概率，并且在所有可能的数据上被边缘化。
证据: 是给出超参数的数据的概率，并且在给出超参数的所有可能的参数值上被边缘化。

在典型的推理问题中，(1)后验概率是我们真正关心的，而(2)似然是我们知道如何计算的。(3)先验概率是我们必须量化我们对宇宙不同可能的主观'信仰程度'。

(4)证据呢？利用前面的概率计算法则，我们发现(4)可以由(2)和(3)计算出来:

通过选择适合的先验概率函数和可能性函数，这个积分可以通过解析来执行求解。然而，对于大多数实际工作来说，需要用近似的数值方法来计算复杂的分布。这类常用的方法有马尔可夫链蒙特卡罗和变分推理。

先验信息选择问题

优先权的选择必然是主观的，有时还会引起争议。尽管如此，这里总结了如下一般准则:

从信息性实验中得出的数据推论对你的先验选择不是很敏感。
如果你的(后验)结果对你选择的先验是敏感的，此时你需要更多(或更好的)数据。

对于先验，我们使用beta分布^[4]，它由超参数和指定:

其中是Gamma函数^[5]与阶乘相关的。

该函数提供了一个二项式过程的先验(或后验)，对应于先前(或更新)的测量值，该二项式共有次过程，并在这些试验中，有次通过，次不通过。

下面定义函数binomial_learn函数计算并绘制先验概率、可能性及后验概率曲线。

def binomial_learn(prior_a, prior_b, n_obs, n_pass):
   '''
   prior_a, prior_b: 超参数a和b
   n_obs:观察或测量次数
   n_pass:通过样本数
   '''
    theta = np.linspace(0, 1, 100)
    # 计算和绘制关于theta的先验概率。
    prior = scipy.stats.beta(prior_a, prior_b)
    plt.fill_between(theta, prior.pdf(theta), alpha=0.25)
    plt.plot(theta, prior.pdf(theta), label='Prior')
    # 计算并绘制给定任意theta的固定数据的可能性。
    likelihood = scipy.stats.binom.pmf(n_pass, n_obs, theta)
    plt.plot(theta, likelihood, 'k:', label='Likelihood')
    # 根据观测数据计算并绘制后验曲线。
    posterior = scipy.stats.beta(prior_a + n_pass, prior_b + n_obs - n_pass)
    plt.fill_between(theta, posterior.pdf(theta), alpha=0.25)
    plt.plot(theta, posterior.pdf(theta), label='Posterior')
    plt.legend(bbox_to_anchor=(0., 1.02, 1., .102), loc=3,
               ncol=3, mode='expand', borderaxespad=0., fontsize='large')
    plt.ylim(0, None)
    plt.xlim(theta[0], theta[-1])
    plt.xlabel('Pass fraction $\\theta$')

通过图形实例回答如下问题

Q1: 在你的研究领域想一个问题，这个问题适用于这个推理问题。

Q2: 使用超参数，从2个观测中推断。

根据观察数据解释为什么后验是合理的。
什么值是绝对排除的数据？这有意义吗？
这三个量是如何标绘的？

Q3: 用代替，从相同的2次观察中推断。

根据观察数据，后验仍然合理吗？解释你的推理。
你如何在这两种主观的先验中做出选择？

Q4: 使用上面的每个先验均不同的数据: 100个试验中有60个通过。

先验和可能性的相对重要性如何随着更好的数据而变化？
为什么现在的可能性值这么小？

binomial_learn(prior_a=1, prior_b=1, n_obs=2, n_pass=1)

后验概率峰值是在观察到的平均通过率为1/2处。这显然是合理的，因为我们只做了两个观察。
绝对排除0和1，因为我们已经观察到1个通过和1个不通过。
先验概率、后验概率及可能性是标准化的，所以它们在图中的面积是1。而因所有可能的数据的可能性也都是标准化的，所以他们在这个图中面积没有1。

binomial_learn(5, 10, 2, 1)

当用代替后，
后验概率的峰值在远离平均观察通过率的1/2处。如果继续相信先验信息，这也是合理的，因为在相对于没有任何信息的数据中，贝叶斯定理告诉我们，它应该占据我们对的知识。
另一方面，如果我们不能证明为什么这个先验比之前的平坦分布的先验更加可信，那么我们必须得出这样的结论：的值是未知的，这些数据也是没有任何帮助的。
如果在之前的13次【】实验中观察到4次【】通过，那么新的先验概率是非常合理的。然而，如果从未观察到这个过程，并且没有理论偏见，那么原来的平坦分布的先验是合理的。

接下来增加观察次数，即增加数据量。

binomial_learn(1, 1, 100, 60)

binomial_learn(5, 10, 100, 60)

数据越多，先验的影响就越小。
且可能性值更大，因为有更多的可能结果(通过或不通过)与更多的观测值，所以任何一个结果变得相对不太可能。

贝叶斯网络

贝叶斯网络（Bayesian network），又称信念网络（belief network）或是有向无环图模型（directed acyclic graphical model），是一种概率图型模型，借由有向无环图（directed acyclic graphs, or DAGs）中得知一组随机变量及其组条件概率分布的性质。

举例而言，贝叶斯网络可用来表示疾病和其相关症状间的概率关系；倘若已知某种症状下，贝叶斯网络就可用来计算各种可能罹患疾病之发生概率。

一般而言，贝叶斯网络的有向无环图中的节点表示随机变量，它们可以是可观察到的变量，抑或是隐变量、未知参数等。

连接两个节点的箭头代表此两个随机变量是具有因果关系或是非条件独立的；而两个节点间若没有箭头相互连接一起的情况就称其随机变量彼此间为条件独立。若两个节点间以一个单箭头连接在一起，表示其中一个节点是“因（parents）”，另一个是“果（descendants or children）”，两节点就会产生一个条件概率值。

贝叶斯网络是用于建模属性和类别标签之间的概率关系。通过建立概率论和图伦的概念，贝叶斯网络能够捕获更简单的条件独立形式，使用简单的示意进行表示。他们还提供了必要的计算结构，以有效的方式对随机变量执行推断。