这句话看上去很拗口,但是却蕴含着“马尔科夫链”和人生哲理。请听我慢慢分解。 01 强化学习(Reinforcement Learning)最近,机器学习(Machine Learning)和人工智能(Artificial Intelligence)都是热门话题。代表着人类技术的未来。在机器学习中,强化学习(Reinforcement Learning)则是占据着相当重要的位置。
举个例子就明白了: 强化学习 - 图片来源 Safaribooksonline 上图中,Agent是一个机器人,这个过程很简单,教会机器人走路,一步一步朝着目标前进。前进过程中,会有很多选择,有的选择会带来回报,比方说正50分,有的则会带来惩罚和损失,比方说负50分。那么,最后机器人到达终点,判定行走线路的优劣则变成了分数高低的评判。 如上例中,机器人选择了有火的分岔路,损失了50分;那么,相关数据会被记录下来,形成“火 = 坏的情况,扣分”的记忆,这样就能保证之后避免走到有火的分叉口了。 生活中的例子是:狗的训练 金毛
这就是强化学习的过程,而其中 马尔科夫链 又是必不可少的一环。 02 马尔科夫链安德雷·马尔科夫 安德雷·马尔科夫,1856年出生的俄国著名数学家,他和切比雪夫、李雅普诺夫一起,将概率论从濒临衰亡的边缘拯救出来。三人中以马尔科夫的贡献尤为重要,潜心向学的马尔科夫,年仅40岁就被选为科学院院士,一生中发表的概率论方面的文章或专著共有二十五篇(部)之多。他研究并提出一个用数学方法就能解释自然变化的一般规律模型,被命名为马尔科夫链(Markov Chain)。 马尔科夫链是一个随机过程,同时马尔科夫链的记忆类似于“金鱼的记忆只有3秒”,非常的健忘。 1 - 2 - 3 - 4 - 5 - 6 比如说,你现在站在5对6 进行预测,根据马尔科夫链的知识,6的状态只和5有关,而前面1到2, 2到3, 3到4,4到5的整个过程无关。 马尔科夫链认为 过去所有的信息都被保存在了现在的状态下了。 马尔科夫链被用的最多的例子就是 天气预测了: 天气预测 比方说,今天下雨了(rainy),那么明天的天气会怎么样呢? 如上图:
也就是说,我只要知道今天是下雨,我就能知道明天天气的可能性,而不用去管前天是什么天气。 非马尔科夫链,图片来源Brilliant 袋中取球问题 在学习概率论的时候,基本上会遇到“袋中取球”的问题。如上图,袋中有2个绿球,2个红球,3个蓝球,我下一次取球是绿色的概率是多少,取完的球不放回袋中? 假设之前的取球结果是:绿,红,蓝,蓝 那么,我下一次取球的时候,袋中只有绿色球1个,红色球1个,蓝色球1个,我下一次取球的是绿色球的概率是1/3。这不仅和我最后一次取得球是蓝色有关,也和我之前每一次取的球的颜色有关,所以这个过程不是一个马尔科夫链过程。 马尔科夫链,图片来源Brilliant 如果是“袋中取球”,每一次取完球都放回袋中,那么,你下一次取球是绿色的概率始终是2/7。这就建立了一个马尔科夫随机过程。 03 马尔科夫链的例题和应用马尔科夫链在生活中应用广泛,
接触股票的朋友应该知道,股票价格的预测其实是一个典型的马尔科夫链过程,比如今天A公司股价是¥50,明天的股价可能是¥100,也可能是¥20,这只取决与公司今天的整体状况和市场对股价的预期。而与A公司1个月前的股价无关。 通过马尔科夫链的模型转换,我们可以将事件的状态转换成概率矩阵,如下例: A和B两个状态,A到A的概率是0.3,A到B的概率是0.7;B到B的概率是0.1,B到A的概率是0.9。 a. 初始状态在A,2次运动后,状态还在A的概率是多少? 不难吧!P = A-A-A + A-B-A = 0.3 * 0.3 + 0.7 * 0.9 = 0.72 b. 如果是2次运动后的状态概率分别是多少?初始状态和终止状态未知? 马尔科夫链矩阵示例 有了状态矩阵,我们可以轻松得出以下结论:
马尔科夫链的有趣问题还有很多,有机会可以和大家一起研究下。 04 总结马尔科夫链也蕴含着哲学的思想: 现在的你是过去早就的,而未来的你与你的过去无关,只和你当下的努力和选择有关,放下过去,不管多么辉煌或者糟粕,背上行囊,什么时候出发都来得及!
|
|
来自: taotao_2016 > 《计算机》