人工智能“阿尔法狗”告诉你学霸是怎样炼成的

长沙7喜 2017-10-29

展开全文

2017年10月19日凌晨，谷歌下属公司 Deepmind 在《自然》（Nature）刊文，报告了新版、也是终版围棋程序AlphaGoZero，可以从空白状态学起，在无任何人类输入的条件下，迅速自学围棋，并已经以100:0的战绩击败老版 AlphaGo，当然，也能够完胜任何人类对手。

柯洁，这位世界围棋史上最年轻的四冠王，此前输给阿尔法狗的世界顶级棋手在19号凌晨发了一条微博，“一个纯净、纯粹自我学习的Alphago是最强的...对于alphago的自我进步来讲...人类太多余了。”

当阿尔法狗第一次战胜人类围棋冠军的时候，一个新的时代来临了，虽然那时它还要大量的依赖人类已有的围棋经验。

这次，又一个时代来临了，新的人工智能系统可以从零学起，超越人类。

这是一个所有的人和公司，都容易掉队的时代。

让我们再回顾一下阿尔法狗的进化历程：

2016年1月27日，国际顶尖期刊《自然》封面文章报道，谷歌研究者开发的名为“阿尔法围棋”（AlphaGo）的人工智能机器人，以5:0完胜欧洲围棋冠军、职业二段选手樊麾。

2016年3月9日，韩国首尔，在谷歌发起的“人机大战”第一局中，手握14个世界冠军头衔的韩国围棋天王李世石轰然倒下，最终AlphaGo以4：1赢得这场比赛。

2017年年初，AlphaGo Master创造了连续60场对人类不败的恐怖战绩，因此围棋界都希望能够有一名大神站出来打败AlphaGo，以证明人类的实力。

2017年5月23日-27日，AlphaGo将与围棋世界冠军柯洁等为代表的中国顶尖棋手进行围棋对弈。最终柯洁负于AlphaGo。

2017年10月19日，DeepMind今天发布新版本AlphaGo程序，经过三天的训练，该系统能够击败AlphaGo Lee，后者是去年击败了韩国选手李世石，胜率是100比0。经过大约40天的训练后，AlphaGo Zero完胜AlphaGo Master。

如果说，此前的阿尔狗战胜李世石跟绝大多数人没什么直接关系，那么，这次阿法狗的新进化跟每个人都有关系。不是未来有关系，而是现在就有关。

我在北大读博士期间阴差阳错机缘巧合，做过一个智能“专家系统”项目。专家系统是人工智能的一个领域。这两天看到阿尔法狗的新闻，忍不住聊聊。

1. 狗大师的学霸秘诀

战胜柯洁的阿尔法狗系统称为AlphaGo Master，也就是“阿尔法狗大师”，简称狗大师。

DeepMind公司给这款人工智能起的名字一点儿都没夸张，因为，最终结果是狗大师把人类围棋大师打的一败涂地。

抛开技术细节，狗大师的秘诀其实非常简单。

第一，精准的读懂棋谱。

读懂棋谱首先意味着知道基本的游戏规则，比如在什么情况下一个子会被吃掉（无论是象棋还是围棋），比如什么算输，什么算赢。

显然，这一切都能用数学表达，棋盘上的所有东西都是可以数字化的。

在这个阶段，阿尔狗不需要人类任何经验，只要懂得已经订好的规则。

读懂棋谱的更进一步是得读懂以往的棋局。

实际上它不需要读懂，它只需要把以往的棋局都存储起来方便调用就行了。而这对于它来说非常简单，因为，任何棋局都是可以数字化的。

所以，狗大师的第一步就是把规则和以往的棋局数字化。

第二，会决策。

简单的说，狗大师得知道，好歹。例如，在同样的情况下，哪一招更高明。这一点至关重要，但是对于阿尔狗来说，并不困难。因为一切都是计算，并且最终变成了加减法的计算。

一旦狗大师从以往的棋局中看懂了同样情境下哪一招更高明，那么它就厉害了。

比如，柯洁在棋盘上放了一颗子。狗大师在以往的棋局里搜索，同样的情境下，下那个子胜算最大。把最大的找出来就可以了。

所以，说到底，这第二步就是会模仿就行了。

狗大师根本不需要自己想出什么妙招，它需要做的就是拷贝以往人类大师的棋招。在对弈的每一时刻，它只需要找到最有效的干掉对方的招，拿出来用就行了。

实际情形是阿尔法狗有两个复杂的决策系统：策略网络和价值网络。策略网络负责预测对手的下一个子放在哪儿，而价值网络负责判断相应对手的招数自己怎么下才能赢。两者都需要计算大量的可能性，都需要找出最可能的选择。

第三，大量模仿

显然，狗大师能够找到最有效的干掉对方的招，取决于它的“脑子”里有多少以往的棋局，取决于它到底有多少可供选择的高招。

显然，它学习的量越大，所学习的棋谱质量越高，它就越厉害。

显然，在这一点上，计算机是具有绝对优势的。人类能够记住多少棋谱还没有统计过，但肯定是有上限的，而计算机的存储量没有上限！

当然，下棋是要有时间限制的，落子的速度很重要，而对于计算机而言，这个速度显然是可以无限提升的。

起初战胜李世石和柯洁的阿尔狗系统是依赖人类经验的。不但如此，它要学习巨量的曾经有过的棋谱，做巨大量的计算，在大量可能性中最大概率的预测对手的下一步，并找出最有可能致胜的招数。

这就相当于一个人要学一门知识和技能，需要阅读、钻研、模仿大量的参考书。这个段位学习者的水平高下，取决于研习速度的快慢、和研习量的大小。

比如面对同样的知识领域，研习过100本书/做过10万道题目的人，轻松秒杀另外一个只研习过一本书/做了100道题目的人。当然，假设二者对学习都是一样认真的。

说几个具体的例子。

我的一位学弟叫童哲，物理竞赛保送到北大。他高中的时候，做过40本物理参考书，包含高考级和竞赛级的。每本1000题，总共4万题左右。

你问他凭什么保送北大？凭这个。

我的兄弟大威，也是同班同学，从英语30多分到全班第一，用了两个月的时间，总共做了1万多道英语题目（包含详细的笔记）。他后来上了清华。

你问他凭什么上清华？凭这个。

比如我，高三平均每天做了20页学习笔记，一年按320天计算，总计6400页笔记。我凭什么一年逆袭进北大？很容易回答。

所以，对于许多叫嚣“题海战术不管用”的人来说，不是别有用心，就是……（说出来很难听，不说了，你懂得）。

当一个人没有什么高级的学习方法之前，题海战术就是方法。

无论在什么领域，当你想不出什么妙招的时候，用“量”压倒对方，就是妙招。

阿法狗此前战胜人类冠军就是这么干的！它的学习量可以远远超过任何人类，它的学习速度永远可以更快，而且它目标明确，永不疲倦，不带有任何情绪!

中国古人形容一个人的高境界有个说法，“心空似水，意冷于冰，神静如岳，气行如泉”。

显然，狗大师做到了。人类在愁眉苦脸，它在夯吃夯吃的干。由于计算机技术的发展，它连夯吃夯吃的声音的都没有了，而是不动声色的干掉了一个个人类大师。

所以，对于绝大多数行业和领域，尤其是对于有标准化考试的领域，如果你目标明确，能够定量的、精准的、大量的模仿，不需要有什么情绪，你就可以不动声色、悄无声息的干掉绝大大多数对手！

这就是学霸的秘密。

2. 狗小零的学神秘诀

AlphaGo Zero它的独门秘籍，是把自己当做老师，从一张白纸开始，零基础学习，在短短3天内，成为顶级高手。

“AlphaGo在两年内达到的成绩令人震惊。现在，AlphaGo Zero是我们最强版本，它提升了很多。Zero提高了计算效率，并且没有使用到任何人类围棋数据，”AlphaGo之父、DeepMind联合创始人兼CEO 戴密斯·哈萨比斯（Demis Hassabis）说。

AlphaGo此前的版本，结合了数百万人类围棋专家的棋谱，以及强化学习的监督学习进行了自我训练。在战胜人类围棋职业高手之前，它经过了好几个月的训练，依靠的是多台机器和48个TPU（谷歌专为加速深层神经网络运算能力而研发的芯片）。

AlphaGo Zero的能力则在这个基础上有了质的提升。最大的区别是，它不再需要人类数据。也就是说，它一开始就没有接触过人类棋谱。研发团队只是让它自由随意地在棋盘上下棋，然后进行自我博弈。值得一提的是，AlphaGoZero还只用到了一台机器和4个TPU，极大地节省了资源。

“这些技术细节强于此前版本的原因是，我们不再受到人类知识的限制，它可以向围棋领域里最高的选手——AlphaGo自身学习。” AlphaGo团队负责人大卫·席尔瓦（Dave Sliver）说。

据大卫·席尔瓦介绍，AlphaGo Zero使用新的强化学习方法，让自己变成了老师。系统一开始甚至并不知道什么是围棋，只是从算法开始，进行了自我对弈。

随着自我博弈的增加，系统提升预测下一步的能力，最终赢得比赛。更为厉害的是，随着训练的深入，DeepMind团队发现，AlphaGo Zero还独立发现了游戏规则，并走出了新策略，为围棋这项古老游戏带来了新的见解。

对于DeepMind来说，围棋并不是AlphaGo的终极奥义，他们的目标始终是要利用AlphaGo打造通用的、探索宇宙的终极工具。

显然，如果没有意外，未来将出现一个探索宇宙的人工智能大军！而对于人类来说，还有什么比探索宇宙更具根本性的事情呢？因为，宇宙就是一切。

阿尔法狗新进化最残酷的地方是，它已经不再需要人类以往的围棋经验！

我们该怎样理解这个事实？

阿尔法狗的最新超级版称之为AlphaGo Zero，也就是“阿尔法狗零号”，简称“狗小零”。

显然，狗小零比狗大师厉害太多。厉害在哪里呢？负责人说，他们搞出来了一个“自我学习算法”。它在自己跟自己下棋的过程中，不断学习进化。这听起来像是周伯通的双手互博。打输了的那只手，就要想办法赢了另外一只手，于是，两只手越来越厉害。如此下去，自然越来越容易打败对手。

自我学习算法的实质是什么？举一个大家都知道的例子。

比如做数学题，有两种思维套路。

一种做法是参考书做法。遇到一道题目，首先想自己曾经做过的参考书上的类似题目。如果类型一致，一步步套上去，就能搞定。哪怕题目的具体数字不一样，都没关系。比如这套题是3个苹果，参考书上的类似题目是4个橙子。

第二种做法是从基本概念、基本定义、基本运算法则出发，甚至是从归纳出来的解题套路(也是算法)出发，无需别人的经验，直接解题!

显然第二种比第一种更厉害，因为不但知其然而且还知其所以然。第二种类型的人，更有深度，而且学习方法的可扩展性强，很容易把一门知识的成功移植到另外一门知识。

阿尔法零号就是第二种类型，也就是所谓的从“第一性原理”出发解决问题。

那么这些原始的“自我学习算法”是谁设计的呢？是知识工程师！

搞出“自我学习算法”是知识密集型的工作。阿尔法狗团队是全世界最聪明的大脑。他们抽象出学习策略，然后将它们转化成算法。

事实上，人类的顶尖高手都有自己的学习策略、致胜策略，但是与计算机相比，个体的人进化速度实在太慢了。

再举个例子。

比如桥水基金是世界上规模最大的对冲基金，管理着好几千亿美元的资金。桥水的创始人雷.达里奥（Ray Dalio）总结出了他的解决问题的套路。如下，分为5步。

第一，有明确的目标。
第二，识别问题，这些问题不能容忍，因为它们阻碍你实现目标。
第三，准确诊断问题，找到原因。
第四，制定计划，围绕你的问题和目标而明确地制定任务。
第五，执行这些计划，即完成这些任务。

达里奥说，“为了成功，你需要做好所有这些步骤”。他的意思是说，做不好这5步中的任何一步，你都很难成功，甚至根本不可能成功。如果成功意味着达成目标的话。

如果你曾深度的思考过你切身经历过的事情，尤其是你曾经取得成功的经历，你会发现：

只要你持续认真的做到如上5步，那么你就一定会把一件事情做的越来越好！

这就是所谓“自我学习的算法”。一个人如果这么去做，他就能从自己的经验中学习，把一件事情越做越好。

桥水基金之所以厉害，是因为他的创始人Ray Dalio开发出了“狗零号”的“自我学习算法”，他本人和他的公司都在运行这个系统。

如果反思自己的经历，你会发现，你思维清晰的按照这5个步骤做的经历其实并不多。

反思周围人的经历，你会发现，人们思维清晰的按照这个5个步骤做的人也不多。

这就是很少的人能够高效达成目标的原因。

但是，人们为什么很难实施上述5个步骤呢？

再举一个例子。

例如我高考的时候所做的笔记，不是一般的笔记，而是称之为进步本。

这个技术有三个步骤：

第一，  针对当天所学，把做错之后改正的题目，不会做的弄懂的题目，当天新学到的内容，记录到本子上；

第二，  随时随地的复习已经记录在本子上的内容，如果是题目需要重做，如果是知识需要在大脑中复现；

第三，  做测试题（模拟题），检验自己的进步，把做错的不会做的题目弄懂记录在进步本上。

我写了一系列的长文介绍这个方法的来龙去脉，以及产生的效果。

事实上这个方法对于一切标准化考试都有效，是可以快速拿高分的。

有些人的成绩突飞猛进，当天就有效。

我的史诗般的高考逆袭路【第2版】

初三少年3周自学高中三年数学，高考真题135

两天学完1册高中生物拿到90分是怎样的体验

而有些人则没有什么效果。

所有上述现象原因都是复杂的，但也可以归结为一个原因：绝大多数人都不知道思维需要编程！

各行各业很厉害的人，都深知思维的法则。

例如刚刚提到的Ray Dalio。例如芒格称巴菲特为“学习机器”，他自己意识一架超级“学习机器”。例如硅谷钢铁侠马斯克自己成功的秘密在于善于从“第一性原理”思考。我可以说说的更具体一些。

比如，股神巴菲特在给格雷厄姆的《证券分析》（被成为投资圣经）写的序言中写到，他“读遍了读书馆里每一本有关股票交易的书”。

这就是狗大师的秘诀！

巴菲特在给格雷厄姆的另外一本名著《聪明的投资者》写的序言中写道：

1950年年初，我阅读了本书的第一版，那年我19岁。当时，我认为它是有史以来投资论著中最杰出的一本。时至今日，我仍然认为如此。

要想在一生中获得投资成功，并不需要顶级的智商、超凡的商业头脑或内幕消息，而是需要一个稳妥的知识体系作为决策基础，并且有能力控制自己的情绪，使其不会对这种体系造成侵蚀。

如果你遵从格雷厄姆所倡导的行为和商业准则，那么，你将会获得不错的投资结果。这种结果所反映出的更多成就，要超出你的想象。

巴菲特推崇、深究并遵从的格雷厄姆的“商业准则”，本质上就是算法，就是思维程序！

说了半天，要成为任何领域的高手，既需要前人的经验、又需要自己总结套路。这背后的关键是思维编程！

谁都知道，人是有情绪、有情感的。

普遍的人生错位是该动情的时候不动情，不该动情的时候乱动情。

人生的高级的模式是，用情感提供动力，用精准无情的思维编程来实现自己的目标。

无论阿尔法狗再厉害，人工智能再怎么厉害，人生永恒不变的主题是：勇猛精进！

雷打不动的勇猛精进！

在一切的如意与不如意之中，勇猛精进！

借阿尔法狗进化事件，这里播一个广告。