马尔科夫链（Markov Chain），机器学习和人工智能的基石

taotao_2016 2019-03-19

展开全文

“The future is independent of the past given the present!”

这句话看上去很拗口，但是却蕴含着“马尔科夫链”和人生哲理。请听我慢慢分解。

01 强化学习（Reinforcement Learning）

最近，机器学习（Machine Learning）和人工智能（Artificial Intelligence）都是热门话题。代表着人类技术的未来。在机器学习中，强化学习（Reinforcement Learning）则是占据着相当重要的位置。

Reinforcement Learning is a sub-field of Machine Learning which deals with the process of decision making based on the rewards being received by the agent.

举个例子就明白了：

马尔科夫链（Markov Chain），机器学习和人工智能的基石

强化学习 - 图片来源 Safaribooksonline

上图中，Agent是一个机器人，这个过程很简单，教会机器人走路，一步一步朝着目标前进。前进过程中，会有很多选择，有的选择会带来回报，比方说正50分，有的则会带来惩罚和损失，比方说负50分。那么，最后机器人到达终点，判定行走线路的优劣则变成了分数高低的评判。

如上例中，机器人选择了有火的分岔路，损失了50分；那么，相关数据会被记录下来，形成“火 = 坏的情况，扣分”的记忆，这样就能保证之后避免走到有火的分叉口了。

生活中的例子是：狗的训练

金毛

比如说，你要训练狗狗握手，那么在小狗成功握手之后，你要奖励一块饼干，这样反复多次，小狗就会有 “握手 = 饼干（奖励）”的记忆，最后学会握手。
如果小狗随地大小便，就要有惩罚措施，让小狗认为它的行为会带来惩罚。

这就是强化学习的过程，而其中 马尔科夫链 又是必不可少的一环。

02 马尔科夫链

马尔科夫链（Markov Chain），机器学习和人工智能的基石

安德雷·马尔科夫

安德雷·马尔科夫，1856年出生的俄国著名数学家，他和切比雪夫、李雅普诺夫一起，将概率论从濒临衰亡的边缘拯救出来。三人中以马尔科夫的贡献尤为重要，潜心向学的马尔科夫，年仅40岁就被选为科学院院士，一生中发表的概率论方面的文章或专著共有二十五篇（部）之多。他研究并提出一个用数学方法就能解释自然变化的一般规律模型，被命名为马尔科夫链（Markov Chain）。

马尔科夫链是一个随机过程，同时马尔科夫链的记忆类似于“金鱼的记忆只有3秒”，非常的健忘。

1 - 2 - 3 - 4 - 5 - 6

比如说，你现在站在5对6 进行预测，根据马尔科夫链的知识，6的状态只和5有关，而前面1到2, 2到3, 3到4，4到5的整个过程无关。

马尔科夫链认为 过去所有的信息都被保存在了现在的状态下了。

马尔科夫链被用的最多的例子就是天气预测了：

马尔科夫链（Markov Chain），机器学习和人工智能的基石

天气预测

比方说，今天下雨了（rainy），那么明天的天气会怎么样呢？

如上图：

今天下雨，明天继续下雨的可能性为0.8；
今天下雨，明天下雪的可能性为0.02；
今天下雨，明天晴天的可能性为0.18；

也就是说，我只要知道今天是下雨，我就能知道明天天气的可能性，而不用去管前天是什么天气。

马尔科夫链（Markov Chain），机器学习和人工智能的基石

非马尔科夫链，图片来源Brilliant

袋中取球问题

在学习概率论的时候，基本上会遇到“袋中取球”的问题。如上图，袋中有2个绿球，2个红球，3个蓝球，我下一次取球是绿色的概率是多少，取完的球不放回袋中？

假设之前的取球结果是：绿，红，蓝，蓝

那么，我下一次取球的时候，袋中只有绿色球1个，红色球1个，蓝色球1个，我下一次取球的是绿色球的概率是1/3。这不仅和我最后一次取得球是蓝色有关，也和我之前每一次取的球的颜色有关，所以这个过程不是一个马尔科夫链过程。

马尔科夫链（Markov Chain），机器学习和人工智能的基石

马尔科夫链，图片来源Brilliant

如果是“袋中取球”，每一次取完球都放回袋中，那么，你下一次取球是绿色的概率始终是2/7。这就建立了一个马尔科夫随机过程。

03 马尔科夫链的例题和应用

马尔科夫链在生活中应用广泛，

比如时下火热的语音识别

让机器“听懂”人类的语言，两个马尔科夫模型就解决了：
声学模型：利用HMM建模（隐马尔可夫模型），HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。
语言模型：N-Gram最简单有效，所以应用的也最广泛。它基于独立输入假设：第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。