本文内容整理自CMU 2022 年春季课程 10707 深度学习 https://deeplearning-cmu-10707-2022spring./ 概率图模型经典书籍 Koller, D. , and N. Friedman . Probabilistic Graphical Models: Principles and Techniques. MIT Press, 2009. 本节也有很多图片来自贝叶斯学派机器学习经典著作 Bishop, C. . Pattern Recognition and Machine Learning. 2006.
第七、八讲 概率图模型:本讲主要讲述以下内容,
1 概率图模型- 概率图模型(Probabilistic Graphical Models, PGMs)使用图结构表示随机变量的条件独立性,图中的节点表示随机变量,边表示概率依赖关系。PGMs分为以下几种:
- 有向图:贝叶斯网络(Bayesian networks)
- 无向图:马尔科夫随机场(Markov Random Fields)
- 混合图模型:综合了有向图、无向图,例如:深度置信网络(Deep Belief Networks)
2 有向图- 构图原则(拓扑排序):贝叶斯网络用来表示随机变量之间的因果关系,依据概率的乘积规则,将多个变量的联合概率分布拆分为边缘分布与条件分布的乘积。然后使用箭头指向表明随机变量之间的依赖关系。
- 因为这里不对变量关于自身的条件分布建模,所以贝叶斯网络是有向无环图(directed acyclic graphs, DAGs)
2.1 有向图简例:贝叶斯回归贝叶斯回归在线性模型的基础上引入模型参数的先验分布,然后对观测与权重的联合分布进行建模。然后对于观测进行边缘积分,求出参数的后验分布
则以上联合分布可用图表示为
是先验位于父节点上,观测可由模型估计生成,位于子节点上,上图的一种紧凑形式为:
进一步考虑模型参数的分布参数、观测噪声方差,以及数据自变量,则完整的图模型如下。带有圆圈的字母表示随机变量,不带圈的字母表示常数,蓝色框表示这部分有个重复,蓝紫色阴影表示这个随机变量被观测到了。
2.2 祖先采样对贝叶斯网络进行采样非常方便,网络表示的联合概率分布可写为每个变量的父节点到这个变量条件分布的乘积 例如,对下图表示的联合分布进行采样时,可先从父节点采样到子节点
2.3 生成模型贝叶斯网络也可用来表示生成模型,例如一幅图片与图中的目标、位置、方向都有关,对应图模型如下
整体的联合概率分布为:
当有了一些先验信息和这些信息与图片的因果关系建模后,可通过祖先采样的方式生成新的图片。 图模型能够自由地假设随机变量之间的关系,不必对任意两个变量之间的关系都建模(完全图),也不像都假设随机变量是独立的那么简单。以下看一些有向图模型的例子。
2.4 有向图举例2.4.1 链式图
- 假设为维离散随机变量,且是one-hot的形式,则对建模需要个参数,对每个条件概率分布需要个参数,则总的参数量为,与参数量成正比,与变量维度二次方正比。这个模型也是隐马尔科夫模型 的基础。
2.4.2 线性高斯模型多元高斯分布通过变量的每个维度分布与线性高斯模型结合构成。这个模型的建模关系为当前节点的均值为所有父节点值的仿射变换:
本讲中以三维高斯分布拆解为线性高斯模型进行举例的,讲述了求解均值与协方差的过程。 线性高斯模型的两个特例是:①图中没有连接,变量的每个维度相互独立,则整体上看,这个随机变量的协方差是对角矩阵;②全连接图,协方差是任意对称矩阵
2.4.3 双线性高斯模型- 这个模型可用于推荐系统,缺失值补全等
层次化模型:引入参数先验分布参数的先验分布
2.4.4 马尔科夫毯2.4.5 隐狄利克雷分配3 无向图- 有向图可方便表示随机变量的因果关系,无向图可方便表示随机变量之间的软约束(soft constraints)
- 团簇:内部任意节点间都有连线。无向图依据图中的团簇构造随机变量的联合分布
3.1 带有隐变量的马尔科夫随机场
- 一般情况下,难以求解无向图对应概率的归一化常数(配分函数)与隐变量的分布表达式
3.2 条件独立性无向图中的条件独立性判断比有向图容易,只要路径阻塞,两组变量就条件独立,例如
3.2 离散马尔科夫随机场- 如果随机变量是二元的,则模型在统计学科中称为Ising模型,在机器学习学科中称为玻尔兹曼机
3.3 其他无向图4 有向图无向图的关系有向图可转为无向图
有向图有时相比无向图在表示独立性上更精确,例如上图与其他变量的条件依赖关系,无向图无法表示。 无向图有时相比有向图在表示独立性上更精确,例如下图中的条件独立性,无法用有向图表示
在使用图表示随机变量时,有的图既是有向图,又是无向图
|