分享

人工智能“阿尔法狗”告诉你学霸是怎样炼成的

 长沙7喜 2017-10-29




20171019日凌晨,谷歌下属公司 Deepmind 在《自然》(Nature)刊文,报告了新版、也是终版围棋程序AlphaGoZero,可以从空白状态学起,在无任何人类输入的条件下,迅速自学围棋,并已经以100:0的战绩击败老版 AlphaGo,当然,也能够完胜任何人类对手。

 

柯洁,这位世界围棋史上最年轻的四冠王,此前输给阿尔法狗的世界顶级棋手在19号凌晨发了一条微博,“一个纯净、纯粹自我学习的Alphago是最强的...对于alphago的自我进步来讲...人类太多余了。”



 

当阿尔法狗第一次战胜人类围棋冠军的时候,一个新的时代来临了,虽然那时它还要大量的依赖人类已有的围棋经验。

 

这次,又一个时代来临了,新的人工智能系统可以从零学起,超越人类。

 

这是一个所有的人和公司,都容易掉队的时代。

 

让我们再回顾一下阿尔法狗的进化历程:

 

2016127日,国际顶尖期刊《自然》封面文章报道,谷歌研究者开发的名为“阿尔法围棋”(AlphaGo)的人工智能机器人,以5:0完胜欧洲围棋冠军、职业二段选手樊麾。

 

201639日,韩国首尔,在谷歌发起的“人机大战”第一局中,手握14个世界冠军头衔的韩国围棋天王李世石轰然倒下,最终AlphaGo41赢得这场比赛。

 

2017年年初,AlphaGo Master创造了连续60场对人类不败的恐怖战绩,因此围棋界都希望能够有一名大神站出来打败AlphaGo,以证明人类的实力。

 

2017523-27日,AlphaGo将与围棋世界冠军柯洁等为代表的中国顶尖棋手进行围棋对弈。最终柯洁负于AlphaGo

 

20171019日,DeepMind今天发布新版本AlphaGo程序,经过三天的训练,该系统能够击败AlphaGo Lee,后者是去年击败了韩国选手李世石,胜率是1000。经过大约40天的训练后,AlphaGo Zero完胜AlphaGo Master

 



如果说,此前的阿尔狗战胜李世石跟绝大多数人没什么直接关系,那么,这次阿法狗的新进化跟每个人都有关系。不是未来有关系,而是现在就有关。

 

我在北大读博士期间阴差阳错机缘巧合,做过一个智能“专家系统”项目。专家系统是人工智能的一个领域。这两天看到阿尔法狗的新闻,忍不住聊聊。 


 

1. 狗大师的学霸秘诀

 

战胜柯洁的阿尔法狗系统称为AlphaGo Master,也就是“阿尔法狗大师”,简称狗大师。

 

DeepMind公司给这款人工智能起的名字一点儿都没夸张,因为,最终结果是狗大师把人类围棋大师打的一败涂地。

 

抛开技术细节,狗大师的秘诀其实非常简单。

 

第一, 精准的读懂棋谱。


读懂棋谱首先意味着知道基本的游戏规则,比如在什么情况下一个子会被吃掉(无论是象棋还是围棋),比如什么算输,什么算赢。


显然,这一切都能用数学表达,棋盘上的所有东西都是可以数字化的。


在这个阶段,阿尔狗不需要人类任何经验,只要懂得已经订好的规则。


读懂棋谱的更进一步是得读懂以往的棋局。


实际上它不需要读懂,它只需要把以往的棋局都存储起来方便调用就行了。而这对于它来说非常简单,因为,任何棋局都是可以数字化的。


所以,狗大师的第一步就是把规则和以往的棋局数字化。


第二,  会决策。

 

简单的说,狗大师得知道,好歹。例如,在同样的情况下,哪一招更高明。这一点至关重要,但是对于阿尔狗来说,并不困难。因为一切都是计算,并且最终变成了加减法的计算。

 

一旦狗大师从以往的棋局中看懂了同样情境下哪一招更高明,那么它就厉害了。

 

比如,柯洁在棋盘上放了一颗子。狗大师在以往的棋局里搜索,同样的情境下,下那个子胜算最大。把最大的找出来就可以了。

 

所以,说到底,这第二步就是会模仿就行了。

 

狗大师根本不需要自己想出什么妙招,它需要做的就是拷贝以往人类大师的棋招。在对弈的每一时刻,它只需要找到最有效的干掉对方的招,拿出来用就行了。

 

实际情形是阿尔法狗有两个复杂的决策系统:策略网络和价值网络。策略网络负责预测对手的下一个子放在哪儿,而价值网络负责判断相应对手的招数自己怎么下才能赢。两者都需要计算大量的可能性,都需要找出最可能的选择。




 

第三,  大量模仿

 

显然,狗大师能够找到最有效的干掉对方的招,取决于它的“脑子”里有多少以往的棋局,取决于它到底有多少可供选择的高招。

 

显然,它学习的量越大,所学习的棋谱质量越高,它就越厉害。

 

显然,在这一点上,计算机是具有绝对优势的。人类能够记住多少棋谱还没有统计过,但肯定是有上限的,而计算机的存储量没有上限!

 

当然,下棋是要有时间限制的,落子的速度很重要,而对于计算机而言,这个速度显然是可以无限提升的。

 

起初战胜李世石和柯洁的阿尔狗系统是依赖人类经验的。不但如此,它要学习巨量的曾经有过的棋谱,做巨大量的计算,在大量可能性中最大概率的预测对手的下一步,并找出最有可能致胜的招数。



 

这就相当于一个人要学一门知识和技能,需要阅读、钻研、模仿大量的参考书。这个段位学习者的水平高下,取决于研习速度的快慢、和研习量的大小。

 

比如面对同样的知识领域,研习过100本书/做过10万道题目的人,轻松秒杀另外一个只研习过一本书/做了100道题目的人。当然,假设二者对学习都是一样认真的。

 

说几个具体的例子。

 

我的一位学弟叫童哲,物理竞赛保送到北大。他高中的时候,做过40本物理参考书,包含高考级和竞赛级的。每本1000题,总共4万题左右。

 

你问他凭什么保送北大?凭这个。

 

我的兄弟大威,也是同班同学,从英语30多分到全班第一,用了两个月的时间,总共做了1万多道英语题目(包含详细的笔记)。他后来上了清华。

 

你问他凭什么上清华?凭这个。

 

比如我,高三平均每天做了20页学习笔记,一年按320天计算,总计6400页笔记。我凭什么一年逆袭进北大?很容易回答。

 

所以,对于许多叫嚣“题海战术不管用”的人来说,不是别有用心,就是……(说出来很难听,不说了,你懂得)。

 

当一个人没有什么高级的学习方法之前,题海战术就是方法。

 

无论在什么领域,当你想不出什么妙招的时候,用“量”压倒对方,就是妙招。

 

阿法狗此前战胜人类冠军就是这么干的!它的学习量可以远远超过任何人类,它的学习速度永远可以更快,而且它目标明确,永不疲倦,不带有任何情绪!

 

中国古人形容一个人的高境界有个说法,“心空似水,意冷于冰,神静如岳,气行如泉”。

 

显然,狗大师做到了。人类在愁眉苦脸,它在夯吃夯吃的干。由于计算机技术的发展,它连夯吃夯吃的声音的都没有了,而是不动声色的干掉了一个个人类大师。

 

所以,对于绝大多数行业和领域,尤其是对于有标准化考试的领域,如果你目标明确,能够定量的、精准的、大量的模仿,不需要有什么情绪,你就可以不动声色、悄无声息的干掉绝大大多数对手!

 

这就是学霸的秘密。

 

2. 狗小零的学神秘诀

 

AlphaGo Zero它的独门秘籍,是把自己当做老师,从一张白纸开始,零基础学习,在短短3天内,成为顶级高手。

 

AlphaGo在两年内达到的成绩令人震惊。现在,AlphaGo Zero是我们最强版本,它提升了很多。Zero提高了计算效率,并且没有使用到任何人类围棋数据,”AlphaGo之父、DeepMind联合创始人兼CEO 戴密斯·哈萨比斯(Demis Hassabis)说。

 

AlphaGo此前的版本,结合了数百万人类围棋专家的棋谱,以及强化学习的监督学习进行了自我训练。在战胜人类围棋职业高手之前,它经过了好几个月的训练,依靠的是多台机器和48TPU(谷歌专为加速深层神经网络运算能力而研发的芯片)。

 

AlphaGo Zero的能力则在这个基础上有了质的提升。最大的区别是,它不再需要人类数据。也就是说,它一开始就没有接触过人类棋谱。研发团队只是让它自由随意地在棋盘上下棋,然后进行自我博弈。值得一提的是,AlphaGoZero还只用到了一台机器和4TPU,极大地节省了资源。

 

“这些技术细节强于此前版本的原因是,我们不再受到人类知识的限制,它可以向围棋领域里最高的选手——AlphaGo自身学习。” AlphaGo团队负责人大卫·席尔瓦(Dave Sliver)说。

 

据大卫·席尔瓦介绍,AlphaGo Zero使用新的强化学习方法,让自己变成了老师。系统一开始甚至并不知道什么是围棋,只是从算法开始,进行了自我对弈。

 

随着自我博弈的增加,系统提升预测下一步的能力,最终赢得比赛。更为厉害的是,随着训练的深入,DeepMind团队发现,AlphaGo Zero还独立发现了游戏规则,并走出了新策略,为围棋这项古老游戏带来了新的见解。



 

对于DeepMind来说,围棋并不是AlphaGo的终极奥义,他们的目标始终是要利用AlphaGo打造通用的、探索宇宙的终极工具。

 

显然,如果没有意外,未来将出现一个探索宇宙的人工智能大军!而对于人类来说,还有什么比探索宇宙更具根本性的事情呢?因为,宇宙就是一切。

 

阿尔法狗新进化最残酷的地方是,它已经不再需要人类以往的围棋经验!

 

我们该怎样理解这个事实?


阿尔法狗的最新超级版称之为AlphaGo Zero,也就是“阿尔法狗零号”,简称“狗小零”。

 

显然,狗小零比狗大师厉害太多。厉害在哪里呢?负责人说,他们搞出来了一个“自我学习算法”。它在自己跟自己下棋的过程中,不断学习进化。这听起来像是周伯通的双手互博。打输了的那只手,就要想办法赢了另外一只手,于是,两只手越来越厉害。如此下去,自然越来越容易打败对手。

 

自我学习算法的实质是什么?举一个大家都知道的例子。

 

比如做数学题,有两种思维套路。

 

一种做法是参考书做法。遇到一道题目,首先想自己曾经做过的参考书上的类似题目。如果类型一致,一步步套上去,就能搞定。哪怕题目的具体数字不一样,都没关系。比如这套题是3个苹果,参考书上的类似题目是4个橙子。

 

第二种做法是从基本概念、基本定义、基本运算法则出发,甚至是从归纳出来的解题套路(也是算法)出发,无需别人的经验,直接解题!

 

显然第二种比第一种更厉害,因为不但知其然而且还知其所以然。第二种类型的人,更有深度,而且学习方法的可扩展性强,很容易把一门知识的成功移植到另外一门知识。

 

阿尔法零号就是第二种类型,也就是所谓的从“第一性原理”出发解决问题。

 

那么这些原始的“自我学习算法”是谁设计的呢?是知识工程师!

 

搞出“自我学习算法”是知识密集型的工作。阿尔法狗团队是全世界最聪明的大脑。他们抽象出学习策略,然后将它们转化成算法。



 

事实上,人类的顶尖高手都有自己的学习策略、致胜策略,但是与计算机相比,个体的人进化速度实在太慢了。

 

再举个例子。

 

比如桥水基金是世界上规模最大的对冲基金,管理着好几千亿美元的资金。桥水的创始人雷.达里奥(Ray Dalio)总结出了他的解决问题的套路。如下,分为5步。

 

第一,有明确的目标。

第二,识别问题,这些问题不能容忍,因为它们阻碍你实现目标。

第三,准确诊断问题,找到原因。

第四,制定计划,围绕你的问题和目标而明确地制定任务。

第五,执行这些计划,即完成这些任务。

 


达里奥说,“为了成功,你需要做好所有这些步骤”。他的意思是说,做不好这5步中的任何一步,你都很难成功,甚至根本不可能成功。如果成功意味着达成目标的话。

 

如果你曾深度的思考过你切身经历过的事情,尤其是你曾经取得成功的经历,你会发现:

 

只要你持续认真的做到如上5步,那么你就一定会把一件事情做的越来越好!

 

这就是所谓“自我学习的算法”。一个人如果这么去做,他就能从自己的经验中学习,把一件事情越做越好。

 

桥水基金之所以厉害,是因为他的创始人Ray Dalio开发出了“狗零号”的“自我学习算法”,他本人和他的公司都在运行这个系统。

 

如果反思自己的经历,你会发现,你思维清晰的按照这5个步骤做的经历其实并不多。

 

反思周围人的经历,你会发现,人们思维清晰的按照这个5个步骤做的人也不多。

 

这就是很少的人能够高效达成目标的原因。

 

但是,人们为什么很难实施上述5个步骤呢?

 

再举一个例子。

 

例如我高考的时候所做的笔记,不是一般的笔记,而是称之为进步本。

 

这个技术有三个步骤:

第一,  针对当天所学,把做错之后改正的题目,不会做的弄懂的题目,当天新学到的内容,记录到本子上;


第二,  随时随地的复习已经记录在本子上的内容,如果是题目需要重做,如果是知识需要在大脑中复现;


第三,  做测试题(模拟题),检验自己的进步,把做错的不会做的题目弄懂记录在进步本上。

 

我写了一系列的长文介绍这个方法的来龙去脉,以及产生的效果。

事实上这个方法对于一切标准化考试都有效,是可以快速拿高分的。


有些人的成绩突飞猛进,当天就有效。

 

我的史诗般的高考逆袭路【第2版】

初三少年3周自学高中三年数学,高考真题135

两天学完1册高中生物拿到90分是怎样的体验


而有些人则没有什么效果。

 

所有上述现象原因都是复杂的,但也可以归结为一个原因:绝大多数人都不知道思维需要编程!

 

各行各业很厉害的人,都深知思维的法则。

 

例如刚刚提到的Ray Dalio。例如芒格称巴菲特为“学习机器”,他自己意识一架超级“学习机器”。例如硅谷钢铁侠马斯克自己成功的秘密在于善于从“第一性原理”思考。我可以说说的更具体一些。

 

比如,股神巴菲特在给格雷厄姆的《证券分析》(被成为投资圣经)写的序言中写到,他“读遍了读书馆里每一本有关股票交易的书”。

 

这就是狗大师的秘诀!

 

巴菲特在给格雷厄姆的另外一本名著《聪明的投资者》写的序言中写道:


 1950年年初,我阅读了本书的第一版,那年我19岁。当时,我认为它是有史以来投资论著中最杰出的一本。时至今日,我仍然认为如此。

 

要想在一生中获得投资成功,并不需要顶级的智商、超凡的商业头脑或内幕消息,而是需要一个稳妥的知识体系作为决策基础,并且有能力控制自己的情绪,使其不会对这种体系造成侵蚀。

 

如果你遵从格雷厄姆所倡导的行为和商业准则,那么,你将会获得不错的投资结果。这种结果所反映出的更多成就,要超出你的想象。

 

巴菲特推崇、深究并遵从的格雷厄姆的“商业准则”,本质上就是算法,就是思维程序!

 

说了半天,要成为任何领域的高手,既需要前人的经验、又需要自己总结套路。这背后的关键是思维编程!


谁都知道,人是有情绪、有情感的。


普遍的人生错位是该动情的时候不动情,不该动情的时候乱动情。


人生的高级的模式是,用情感提供动力,用精准无情的思维编程来实现自己的目标。


无论阿尔法狗再厉害,人工智能再怎么厉害,人生永恒不变的主题是:勇猛精进!


雷打不动的勇猛精进!


在一切的如意与不如意之中,勇猛精进!

 



借阿尔法狗进化事件,这里播一个广告

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多