分享

概率上所说的“隐马尔可夫模型(HMM)”到底是个什么东西?

 昵称11935121 2018-10-02

假设有三个不同的骰子:一个常见的6面骰子(骰6),还加上一个4面骰子(骰4)和一个8面骰子(骰8),如果均为公平骰子,三种骰子得到每一个面的概率分别为1/6、1/4、和1/8,如图7-3-1所示。

现在,我们开始掷这3个骰子,每次从三个骰子(骰6、骰4、骰8)里随机地挑一个,等概率的情况下,挑到每一个骰子的概率都是1/3。然后反复地重复 “挑骰子、抛骰子、挑骰子、抛骰子……”,便会产生一系列的状态(骰子面上的数字)。例如,我们有可能得到如下一个数字序列A:

3 5 8 4 7 1 6 5 2 2 1…… (7-3-1)

概率上所说的“隐马尔可夫模型(HMM)”到底是个什么东西?

图7-3-1:掷三种骰子

个骰子得到的,比如说,三个骰子都有可能得到数字3,不过,数字7、8只有骰8才能抛出来……等等。

根据以上的说法,序列(7-3-1)只是一个从外界观察到的“骰子面”数字序列,并不等同于3个骰子实际抛丢的序列B:

46868668486 (7-3-2)

概率上所说的“隐马尔可夫模型(HMM)”到底是个什么东西?

图7-3-2:隐马尔可夫模型1

但两者发生的概率之间有某种关联。一般来说,将序列(7-3-1)叫做可观察序列,序列(7-3-2)叫做隐藏序列,因为被隐藏的序列(7-3-2)是一个马尔可夫链,所以,这个掷骰子例子构成了一个“隐马尔可夫模型”,如图7-3-2所示。图7-3-2中,隐藏着的马尔可夫链的状态转换概率矩阵用A表示,在3个骰子等概率选择的情形下,矩阵A中的所有概率都是1/3。但事实上这个概率矩阵可以根据问题之需要而任意设定。

使用更为数学化的语言:隐马尔可夫模型λ是由初始状态概率向量π、状态转移概率矩阵A和观测概率矩阵B三个基本要素决定的,可以用三元符号表示为:

λ =(π, A, B)。

不少实际问题可以被抽象成隐马尔可夫模型,还有一个最常见的简单例子是维基百科中所举的从朋友的活动情况来猜测当地的气象模型,如图7-3-3所示。

从三个基本要素,可以归纳出隐马尔可夫模型的三个基本问题:给定HMM求一个观察序列的概率,称之为“评估”;搜索最有可能生成一个观察序列的隐藏状态序列,称之为“解码”;从给定的观察序列生成一个HMM,称之为“学习”。对这些不同问题的解答,有多种分析和算法,我们不在此赘述。

隐马尔可夫模型是随机过程,即一系列随机变量的延伸,但人工智能需要解决的问题可能是多维的随机变量。比如说,如果语音可以看作是一维的时间序列的话,图像就是二维的,而视频则涉及到三维的随机变量。更一般而言,将随机变量的概率和统计之理论,与图论结合起来,不仅仅限于时间相关的“过程”,而是形成了各种多维的概率图(或网络)的概念,诸如贝叶斯网络、马尔可夫随机场等。

概率上所说的“隐马尔可夫模型(HMM)”到底是个什么东西?

图7-3-3:隐马尔可夫模型2

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多