【原】围棋“大师” 背后的科技力量

大科技杂志社 2019-11-08

展开全文

人工智能的领跑者

著名的人工智能围棋程序AlphaGo在2016年3月与韩国顶尖围棋高手李世乭进行人机大战，并以4:1的总比分获胜。与李世乭的对决让世界看到了人工智能的无限潜力，而到了2016年岁末，AlphaGo的进击版更是通过名为Master（“大师”）的账号，在网络上与中韩高手连番过招，以连赢60场的成绩令人惊叹。

在创造这一前所未有围棋奇迹的背后，是一支充满了智慧和活力、用数字构建未来的团队——DeepMind。

在伦敦国王十字火车站旁边一座不起眼的建筑里，藏着这样一家潜力无限的公司DeepMind（深度思维），该公司努力将机器学习和人类系统神经科学的先进技术结合，发展人工智能深度学习，建立强大的通用算法，将这种技术与游戏、医疗等多项实用产业结合。谁也不曾想到，一家成立于2010年的年轻初创公司会是世界两大科技巨头——谷歌和脸书竞相争夺的宝物。最终谷歌获胜，2014年，谷歌公司以4亿英镑的高价将DeepMind收归麾下，该公司正式成为谷歌旗下人工智能领域探索的排头兵。

谷歌和脸书已经在机器学习和人工智能领域走在世界最前沿了，那么，这家公司到底存在着怎样的价值，吸引了这些行业巨头的注意呢？

谷歌招揽的超强大脑

DeepMind可以说是一个智库集合，集结了400余名优秀的计算机科学家和神经学专家。下面这些人物可谓是DeepMind 团队精英中的精英。

德米斯·哈萨比斯

身为DeepMind创始人之一，德米斯·哈萨比斯可以说是整个公司的核心人物。哈萨比斯1976年出生于英国伦敦，4岁开始下国际象棋，13岁时就已经获得国际象棋大师头衔，15岁时，他连跳两级，提前从高中毕业。1993年，17岁的哈萨比斯进入剑桥大学学习计算机专业，同年，他依靠自己开发的游戏获得了某游戏设计比赛的亚军，进入顶尖游戏公司“牛蛙”实习，并参与开发了在全球风靡一时的虚拟游戏《主题公园》。

自1999年至2003年，哈萨比斯连续5年参加“国际智力奥运会”，连夺5次冠军，可谓是“地球上最聪明的男人”。2005年，29岁的哈萨比斯重新走进学校，在英国伦敦大学攻读神经科学博士学位，潜心研究负责记忆、学习、空间导向的大脑海马体。2011年，35岁的哈萨比斯结合自己游戏设计、计算机编程和神经科学研究经验，成立DeepMind科技公司，专注研究模仿大脑的人工智能系统。

黄士杰

AlphaGo设计团队的另一位杰出人才是来自台湾的黄士杰博士。黄士杰本科就读于台湾交通大学，研究生和博士在台湾师范大学研习。他从小热爱围棋，是个业余六段围棋选手，在台湾师范大学读书时就曾经在学校创办围棋社。大学期间，黄士杰醉心研究围棋软件开发，他设计的软件参加国际电脑奥林匹克竞赛，获得19路电脑围棋金牌，这个程序甚至击败了当时围棋人工智能领域公认最强的程序“Zen”，在业内引起极大的轰动。随后，他进入加拿大阿尔伯塔大学继续围棋程序研究。在博士和博士后阶段，他深入研究蒙特卡洛树搜索技术，后来将其运用在AlphaGo的走棋程序当中。

大卫·西尔弗

大卫·西尔弗是哈萨比斯在剑桥大学读书期间认识的朋友，计算机专业的他常年霸占着专业第一的宝座。在校期间，他还教会了哈萨比斯多种棋类游戏的玩法，包括围棋。1998年，哈萨比斯创立游戏公司Elixir Studios，西尔弗作为联合创始人之一，在这间公司担任首席技术官和主程序设计师。2004年，他进入加拿大阿尔伯塔大学攻读博士学位，研究人工智能增强学习。2013年，西尔弗重新与哈萨比斯会合，加入DeepMind团队，以增强学习技术助力AlphaGo的设计和程序优化。

除了上面这些人，DeepMind中还有诸多学界执牛耳者，在神经科学、计算机科学、卷积神经网络研究等方面人才济济。DeepMind简直就是一群超级极客组合而成的深度学习全明星战队。

“大师”是怎样炼成的

DeepMind发布的AlphaGo在围棋棋局上出尽风头，让世界级的围棋大师们为之惊叹。围棋规则看似简单，但棋局变化却相当多，在很长的时间里，围棋都被视为人工智能开发领域的一座难以攻克的圣杯。围棋第一步361个点，下第二步有360点，如果要下到底，大概有10360种下法，即便运算量惊人的计算机也很难找到最佳解法。

AlphaGo和传统的计算机围棋游戏完全不同，可以进行深度学习。它并非只是按照棋局库的固定章法来照本宣科，而是能够进行自我学习和提升，以现有数据库为基础主动创造新棋路，甚至能够走出让专业棋手摸不着头脑的步法。

DeepMind主攻人工智能的意识，让机器理解自己的任务的同时，也能够理解环境或别人在做什么，并据此作出反应，完成决定。首先，需要让计算机“懂得”棋局的规则，程序员将围棋以计算机语言描述出来。比如在19×19的棋盘上的361个交叉点进行定义。

人类在下围棋时，除了谋篇布局，精妙计算之外，更重要的是基于棋手经验的“直觉”在帮助棋手思考，为棋手指路。AlphaGo也运用了这种方法，与深度学习结合，利用“策略网络”与“价值网络”优化人工智能的走棋。策略网络可以判断出最佳棋路，就好像人类用直觉来下出好棋一样。当然，开发团队也会事先给AlphaGo阅读各种不同的参考棋谱。至于“价值网络”则能帮助计算机在搜寻一个点之后，判断盘面局势、优势大小。

所以，当计算机懂得走棋的任务后，它可以再随机选择落点进行走棋训练，对取胜率较高的落点展开深入研究，并通过观察上百万局棋谱来丰富计算机的走棋数据库。综合这些信息后，计算机能够反复进行左右互搏的对弈训练，强化学习，自我精进。而且，通过结合神经科学的计算机深度学习，利用蒙特卡洛树搜索和卷积神经网络等技术手段，计算机可以改进现有的经验，创造独特的新经验，并将这些智慧结晶内化，成为几乎可以独立“思考”的超级围棋大师。

人工智能的“下半场”

日本著名围棋棋士藤泽秀行曾说过：“棋道一百，我只知七”。即使是棋艺最高的棋手在围棋对弈方面所参悟的也十分有限，以七搏百，量力难行。AlphaGo的出现既是人工智能技术向人类发出的挑战，同时也是这一技术在向人类伸出援手。

人工智能在围棋领域带来的冲击预示了它将在互联网的“下半场”中大放异彩。未来，DeepMind可能将会成为谷歌公司的算法工厂，他们所深入研究的人工智能深度学习所涉及的范围不会仅仅局限在棋盘之上，而是会运用在更多领域，用于解决更多更复杂的问题，从医疗到交通，我们生活的方方面面都会逐渐与其相联结。谷歌将其收入麾下是一个非常明智的选择，DeepMind未来将会创造更多价值。

本文源自大科技<百科新说> 2017年第3期杂志文章欢迎读者们关注大科技公众微@信@号：hdkj1997