<1> 这篇文章与大家分享“强化学习”,英文名叫做“Reinforcement Learning”。这是一个有趣的机器学习算法,去年在国际围棋界大显身手、战胜世界冠军的AlphaGo以及其进化版AlphaGo zero的关键技术就是强化学习。它还被用于玩电脑游戏,比如Dota2、英雄联盟、Flappy bird,还有各种小游戏。 AlphaGo VS 柯洁 AI玩Pingpong游戏 <2> 正式介绍强化学习前我们先科普一下人工智能和智能算法的关系,看图 AI知识图谱 人工智能是一个非常大的概念,机器学习(Machine Learning)算法是人工智能的主要技术之一,而且是现在应用最广泛的也是机器学习算法, 深度学习(Deep Learning)或深度神经网络(Deep Neural Networks)属于机器学习,所以现在人们一般有下面的认识: AI-ML-DL 传统上,机器学习算法一般可以分为有监督学习和无监督学习,二者各有长短。监督学习认为人要把自己的经验教给机器。拿分辨猫猫和狗狗的 AI 来说,你需要准备几千张照片,然后手把手教机器——哪张照片是猫,哪张照片是狗。机器会从中学习到分辨猫狗的细节,从毛发到眼睛到耳朵,然后举一反三得去判断一张它从没见过的照片是猫猫还是狗狗。 而无监督学习认为机器要去自己摸索,自己发现规律。人的经验或许能帮助机器掌握智能,但或许人的经验是有缺陷的,不如让机器自己发现新的,更好的规律。人的经验就放一边吧。 <3> 强化学习是无监督学习的一种。强化学习是一种模仿人类学习方式的模型,它的基本想法是:要是机器得到了好的结果就能得到奖励,要是得到差的结果就得到惩罚。 举个例子,训练一只汪星人听懂人的命令。开始主人对小汪下了“坐下”的指令,可小汪不知道什么意思,摇了摇尾巴;然后主人又下了一次“坐下”的指令,小汪还是听不懂啊,又摇了摇尾巴,主人生气了,踢了小汪一脚;第三次,主人又对小汪下了“坐下”的命令,小汪也着急了,急得一屁股坐在了地上。哈哈,然而主人很高兴,小汪能听懂了,于是赏了小汪一根骨头。小汪啃着骨头也恍然大悟了,主人说“坐下”的时候,自己坐下就会有骨头吃,于是小汪就听懂这个命令了。 我们来抽象一下上边的例子就是强化学习了。强化学习有四个要素:
实际的应用场景中,并不像训练小汪那么容易,有如下的难点:
强化学习概括起来就是,计算机在很多次的尝试中,根据每次尝试的奖励或惩罚反馈,逐渐的找到了一系列最好的动作(Action)策略。欢迎同学们来跟我们一起学习具体的算法和程序实现。同学们可以思考一下,如果是贪吃蛇游戏,状态和动作都有哪些? |
|
来自: 飞扬czqht0vrjl > 《人工智能》