贝叶斯统计概率的类型假设 为 数据对象的值 , 的相关频率为 ,其中N表示总的出现次数(). 一个事件 的概率为 ,代表事件 发生的可能性有多大。 我们通过在 范围内为某个空间中的结果(事件)集分配一个数值概率来构造一个概率空间。 当结果是一个不确定但可重复的过程的结果时,概率总是可以通过简单地观察多次过程的重复并计算每个事件发生的频率来衡量。这些频率概率可以很好地陈述客观现实。如
如果我们假设这些是通用的常数,而这些常数不会因为你需要测量过程而得到不同的结果。这决定了我们最感兴趣的陈述不能被赋予频率统计的概率。 然而,如果我们也允许概率来衡量在陈述中的主观的'信仰程度',那么就可以使用概率论的完整机制来讨论更有趣的陈述。这些被称为贝叶斯概率。 贝叶斯概率是由贝叶斯理论所提供的一种对概率的解释,它采用将概率定义为某人对一个命题信任的程度的概念。 最传统的概率理论是基于事件的相对频率(频率),而贝叶斯观点更加灵活地看待概率。在任何情况下,概率总是介于0和1之间,所有可能事件的概率值的总和等于1。 贝叶斯概率和频率概率相对,它从确定的分布中观测到的频率或者在样本空间中的比例来导出概率。粗略描述两种概率统计是:
贝叶斯联合概率离散随机变量的联合分布对离散随机变量而言,联合分布概率质量函数为 ,即 因为是概率分布函数,所以必须有 连续随机变量的联合分布类似地,对连续随机变量而言,联合分布概率密度函数为 ,其中 和 分别代表 时 的条件分布以及 时 的条件分布; 和 分别代表和的边缘分布。 同样地,因为是概率分布函数,所以必须有 独立变量的联合分布对于两相互独立的事件 及 ,任意x和y而言有离散随机变量 贝叶斯统计从联合概率分布开始括号内分别是数据特征 ,模型参数 和超参数 。 上的下标是为了提醒我们,通常所使用的参数集依赖于超参数(例如,增加 这个联合概率意味着模型参数和超参数都是随机变量,这意味着它们标记了潜在概率空间中的可能结果。 可能性可能性 是模型参数 (给定超参数 )和数据特征 的函数,度量模型给定的观测数据的概率(密度)。例如,高斯混合模型有如下可能性函数: 参数 为: 及超参数 。注意,对于任何(固定)参数和超参数的值,可能性必须在数据上进行标准化。而不是在参数或超参数上标准化的。 可能性度函数在频率统计和贝叶斯统计中都起着核心作用,但是他们使用和解释的方式不同,这里主要讨论贝叶斯的观点,其中 和 是随机变量,可能性函数与条件概率相关。 条件概率的表示在给定模型 的情况下,观察特征 。 贝叶斯定理贝叶斯定理是概率论中的一个定理,描述在已知一些条件下,某事件的发生概率。
通常,事件A在事件B已发生的条件下发生的概率,与事件B在事件A已发生的条件下发生的概率是不一样的。然而,这两者是有确定的关系的,贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途,即透过已知的三个概率而推出第四个概率。贝叶斯定理跟随机变量的条件概率以及边际概率分布有关。 我们将可能性与条件概率联系起来,我们就可以应用概率演算的早期规则(2 & 3)来推导广义贝叶斯规则: 上面的每一项都有一个名称,测量不同的概率:
在典型的推理问题中,(1)后验概率是我们真正关心的,而(2)似然是我们知道如何计算的。(3)先验概率是我们必须量化我们对宇宙不同可能的主观'信仰程度'。 (4)证据呢?利用前面的概率计算法则,我们发现(4)可以由(2)和(3)计算出来: 通过选择适合的先验概率函数和可能性函数,这个积分可以通过解析来执行求解。然而,对于大多数实际工作来说,需要用近似的数值方法来计算复杂的分布。这类常用的方法有马尔可夫链蒙特卡罗和变分推理。 先验信息选择问题优先权的选择必然是主观的,有时还会引起争议。尽管如此,这里总结了如下一般准则:
对于先验 ,我们使用beta分布[4],它由超参数 和 指定: 其中 是Gamma函数[5]与阶乘 相关的。 该函数提供了一个二项式过程的先验(或后验),对应于先前(或更新)的测量值,该二项式共有 次过程,并在这些试验中,有 次通过, 次不通过。 下面定义函数
通过图形实例回答如下问题Q1: 在你的研究领域想一个问题,这个问题适用于这个推理问题。 Q2: 使用超参数 ,从2个观测中推断 。
Q3: 用 代替 ,从相同的2次观察中推断 。
Q4: 使用上面的每个先验均不同的数据: 100个试验中有60个通过。
binomial_learn(prior_a=1, prior_b=1, n_obs=2, n_pass=1)
接下来增加观察次数,即增加数据量。 binomial_learn(1, 1, 100, 60)
贝叶斯网络贝叶斯网络(Bayesian network),又称信念网络(belief network)或是有向无环图模型(directed acyclic graphical model),是一种概率图型模型,借由有向无环图(directed acyclic graphs, or DAGs)中得知一组随机变量 及其 组条件概率分布的性质。
一般而言,贝叶斯网络的有向无环图中的节点表示随机变量,它们可以是可观察到的变量,抑或是隐变量、未知参数等。 连接两个节点的箭头代表此两个随机变量是具有因果关系或是非条件独立的;而两个节点间若没有箭头相互连接一起的情况就称其随机变量彼此间为条件独立。若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因(parents)”,另一个是“果(descendants or children)”,两节点就会产生一个条件概率值。 贝叶斯网络是用于建模属性和类别标签之间的概率关系。通过建立概率论和图伦的概念,贝叶斯网络能够捕获更简单的条件独立形式,使用简单的示意进行表示。他们还提供了必要的计算结构,以有效的方式对随机变量执行推断。 概率图模型贝叶斯网络术语捕获随机变量之间的概率关系的模型,被称为概率图模型(probabilistic graphical model)。这些模型背后的基本概念是使用图表示,其中图的节点对应于随机变量,节点之间的边缘表示概率关系。 我们从贝叶斯联合概率开始: 当一个函数有数据特征 ,模型参数 和超参数 ,这个函数通常是一个非常高维的函数。 在最普遍的情况下,联合概率需要大量的数据来估计。然而,许多问题可以用联合概率(通过假设一些随机变量是相互独立的)来(近似)描述。 概率图模型是随机变量之间假定的直接依赖关系的一种方便的可视化方法。 例如,假设我们有两个参数 ,并且没有超参数,那么联合概率 可以利用概率演算的规则,以不同的方式展开成条件的乘积: 或者 对应的图表为: 读这些图的方法是:一个标记为 的节点表示联合概率中的(乘性)因子 ,其中 列出了其他节点的箭头指向该节点(以任何顺序,根据概率微积分规则1)。阴影节点表示直接观察到的随机变量(即数据),而非阴影节点表示(未观察到的)潜在随机变量。 这些图都描述了具有两个参数的联合概率。建立具有任意参数的联合概率的规则为:
有了 参数,就有 可能的图,潜在依赖关系的数量随着 迅速增长。 为了减轻这种阶乘增长,我们寻找不互相依赖的随机变量对。例如,在两个参数的情况下: 请注意每个图是如何描述一个不同的故事的。例如,第一个图告诉我们,只知道 就可以预测数据,但是我们对 的先验知识依赖于 。因此,实际上,简化联合概率涉及到绘制一个图表,为数据和模型讲述一个合适的故事。 从案例中理解贝叶斯网络考虑观察某人扔一个球,并测量它落地的距离,以推断重力的强度:
画一个图例来说明这个推断的联合概率 假设投掷者总是尽可能地用力投掷,然后根据风向调整角度。画一个图来表示这个简单的联合概率中的直接依赖关系。 写出对这个推理问题感兴趣的后验。 我们对这个推论最感兴趣的后验是 但更完整的后验为 这两个式子的不同之处在于,在第一种情况中,我们忽略了'讨厌的'参数 。 这些图中的箭头定义了条件依赖关系的方向。它们通常反映了潜在物理系统的因果影响,具有有向边的概率图被称为贝叶斯网络。 也可以在没有指定方向的情况下,绘制对称连接节点的图。这些被称为马尔可夫随机场或马尔可夫网络,当依赖关系在两个方向或一个未知方向流动时适用。你可以阅读更多相关信息马尔可夫网络[6]. 贝叶斯网络的特点
参考资料贝叶斯统计: https://github.com/dkirkby/MachineLearningStatistics [2]估算德国坦克的生产速度: https://en./wiki/German_tank_problem [3]The Theory That Would Not Die: https://www.amazon.com/Theory-That-Would-Not-Die/dp/0300188226 [4]beta分布: https://en./wiki/Beta_distribution [5]Gamma函数: https://en./wiki/Gamma_function [6]马尔可夫网络: https://en./wiki/Markov_random_field |
|
来自: 阿明哥哥资料区 > 《53.大数据.机器学习.思维》