被科学家们誉为「世界壮举」的AlphaGo Zero, 对普通人来说意味着什么？

btccc0008 2017-10-19

展开全文

从零开始，这是可以进行「自我学习」的 AlphaGo，也是迈向通用人工智能的 AlphaGo。

来源 | 卫报、Quartz

整理 | 不定项高静宜

编辑 | 宇多田

10 月 19 日凌晨，谷歌人工智能团队 DeepMind 在《自然》杂志上发表了一篇论文，描述了新一款围棋程序 AlphaGo Zero 从最开始的「臭棋篓子」到业余棋手，再成长为一个能够考量每一步棋战略意义的围棋大师的过程，而这样的飞跃仅花费了几天的时间。

在最初的 10 个小时里，AlphaGo Zero 发现了一个定式，不久之后，它又掌握了一些特定的棋法。三天后，在经过数百万盘的自我对抗之后，它的棋艺可以超越人类积累数千年的水平，并以 100 比 0 的成绩击败李世石版本的 AlphaGo。

AlphaGo Zero 以 100 比 0 的成绩击败李世乭版本的 AlphaGo

有趣的是，程序在发现某些简单的棋步之前就已经掌握了一些更为复杂的走法，例如人类棋手通常在早期就能掌握的战术「征」。

就是这样一款程序，被很多圈内人誉为人工智能领域的「重大进步」，因为输入游戏规则之后，它可以在没有人帮助的情况下，从零开始掌握这门古老的棋盘游戏。

旧版 AlphaGo 的训练需要成千上万份人类对弈的棋局数据，但 AlphaGo Zero 可以在没有这些帮助下完成学习。初始阶段，它会把棋子随机地放在棋盘上，但发现获胜策略后，它能迅速优化下棋的方式。

「它比以前的方法更强大，因为不再需要历史的棋局数据。可以说，我们已经突破了人类认知的障碍，因为它本身能够创造知识。」AlphaGo 的首席研究员 David Silver 说。

「AlphaGo Zero 发现了一些非常棒的下棋定式，然后超越这些定式并找到一些更加有力的方法。」DeepMind 的首席执行官 Demis Hassabis 表示，「你可以发现，它能重新发现人类几千年来积累的知识。」

因此，没有意外，这篇发表于 Nature 的论文在今天凌晨一公布，除了照例轰动技术圈，早在 5 月与 AlphaGo 交过手并惜败的柯洁也发来了「感慨式贺电」：

而关心 AlphaGo Zero 的非技术宅与吃瓜网友们的画风，基本都是这样的：

也许现在，在看过机器之心纯技术干货的解析之后，你会对科学家们对 AlphaGo Zero 的看法，以及 AlphaGo 在围棋以外可以大展身手的领域与可能性更感兴趣。

从零开始，这是可以进行「自我学习」的 “围棋九段”AlphaGo

AlphaGo Zero 从零起步，在对弈中不断学习逐渐变强

相比于 AlphaGo Zero，人类千百年前对围棋的探索经验，只是一个「局部最优解」。

AlphaGo Zero 程序的核心是一组神经元，这些神经元连接在一起组成了一个人工神经网络。在棋局的每一回合中，神经网络都会查看棋盘上棋子所处的位置，然后计算出棋子下一步可能移动的方向以及相应的获胜概率。每盘棋局结束之后，神经网络都会进行更新，从而在下一次对弈中具备更强大的实力。

「AlphaGo Zero 远胜于此前的版本，不过它只是一个简单地程序，能够在训练数据更少、计算力更小的情况下更快地掌控棋局。如果给它更多的时间，AlphaGo Zero 也可以自己学习围棋规则」，Silver 这样表示。

David Silver 描述 AlphaGo Zero 是怎样学习下围棋的

而谢菲尔德大学神经科学教授 Eleni Vasilaki 表示，这是一项激动人心的壮举。「这可能意味着，在没有人类专家参与训练的情况下，AlphaGo 能够发现一些绝妙的棋步，在这项比赛中超越人类智能。」不过她也指出，尽管计算机可以在围棋比赛中击败人类，能够实现复杂、精密的计算，但它们在其他任务中可能还并不具备与人类相匹敌的能力。

「在某些人类很容易就可以完成的任务中，人工智能经常会失败。」她说，「就看看那些类人机器人在日常任务中的表现吧，例如行走、跑步和击球。」

卡内基梅隆大学计算机科学家 Tom Mitchell 把 AlphaGo Zero 形容为一项「杰出的工程成就」。他补充说：「它相当于终止了关于人类是否会在围棋中战胜计算机的探讨。我猜答案是不会。但同时它也开启了一个新的篇章，即计算机可以教授人类如何更好地进行对弈。」

这个想法受到美国围棋协会主席 Andy Okun 的认可：「我不知道人们的士气是否会受到计算机变强的影响，不过利用神经网络软件对围棋进行探索也将会是一种乐趣。因为它并不是通过表层理解我们而获得胜利的，而是发现了更加深层、内在的模式。」

让历史归零，这是迈向通用人工智能的 AlphaGo

AlphaGo Zero 让人类围棋的历史经验成为了「Zero」，标志着人类向通用型的人工智能迈出了重要一步。

「对我们来说，AlphaGo 的意义不仅限于围棋对弈领域，这也是我们开发通用算法的重大进步。」DeepMind 的首席执行官 Demis Hassabis 说。

DeepMind 首席执行官 Demis Hassabis

《Nature 自然科研》评论称，AlphaGo Zero 最大的突破是实现了白板理论。与婴儿的学习模式类似，它可以通过不断训练、成长获得知识和智力。这意味着，AlphaGo Zero 的学习模式也可以被应用解决其他现实问题。

从目前来看，大多数 AI 的应用着实「范围有限」，因为它们只能执行一项特定的任务，比如翻译语言或识别人脸。但在许多不同的任务中，通用人工智能都有潜力比人类表现得更好。

不过，它也只能完成那些可以在计算机中完全模拟的问题，而驾驶汽车这类任务就超出了这一范围。

「要得到能够与人类能力相媲美的人工智能，我们还有很长的路要走，」Hassabis 说，「在未来十年中，比较现实的是利用人工智能帮助人类发现新药物、材料以及破解粒子物理学中的奥秘。」

而现在，DeepMind 已经开启了新的尝试。

在伦敦，AlphaGo Zero 正在帮助科学家认识蛋白质折叠，这也有可能给药物研发带来新的进展。「药物研发、量子化学、材料研发…应用在这些领域都是有可能的，或许我们还能研发出常温的超导体。」Hassabis 说，「当我还是一个孩子的时候，在读物理书的时候，就曾想象有一天能够发现超导体，那是一个圣杯。」

不过，DeepMind 表示，新版 AlphaGo 不会像其他项目一样公布代码。外部人员可以参考发布在《自然杂志》上的论文内容。

但是业内人士表示，AlphaGo Zero 的「思路」清晰简洁，很有可能广泛适用于其他领域。

OpenAI 的人工智能研究科学家 Tim Salimans 对媒体表示，简单的、通用的方法在人工智能研究中具有很大的价值，因为通过细微的修改，它就可能解决其他问题。

「我认为，把它称为『突破性进展』一点也不为过。」Salimans 说，「虽然不能直接应用到其他领域，但是，我们可以把它看到是解决其他问题的第一步。」