AlphaGo的前世今生

RK588 2016-03-12

展开全文

2016-03-12 北京邮电大学研究生会

2016年3月9日，AlphaGo战胜围棋世界冠军韩国李世石，被成为世纪之战。下面我们来了解下AlphaGo的前世今生。

alpha，希腊字母表的第一个字母；有第一个、开端、最初的含意。go，日本对围棋的叫法，因为围棋职业化和段位制都是从日本棋院发展而来。AlphaGo也就是第一个（智能）围棋的意思。

阿尔法围棋（AlphaGo）是一款围棋人工智能程序，由位于英国伦敦的谷歌（Google）旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们的团队开发，这个程序利用“价值网络”去计算局面，用“策略网络”去选择下子。

在了解AlphaGo 之前，我们不妨来看看人工智能在这半个多世纪的时间里都有哪些值得回顾的瞬间。

人工智能的出现

看过《模仿游戏》这部电影的读者，应该对剧中图灵制造破译德军密码机器的环节印象深刻。事实上，20 世纪 40 年代至 50 年代也是人工智能真正诞生的时间。在这段时间内，数学、心理学、工程学、经济学、政治学等领域的科学家们开始探索制造人工大脑的可行性。

1950 年，著名的图灵测试诞生，按照艾伦·图灵的定义：如果一台机器能够与人类展开对话（通过电传设备）而不能被辨别出其机器身份，那么称这台机器具有智能。同年，图灵还预言了创造出具有真正智能的机器的可能性。

1951 年，西洋跳棋程序和国际象棋程序相继诞生。经过接近 10 年的发展后，国际象棋程序已经可以挑战具有相当水平的业余爱好者，而人工智能游戏也被当着衡量人工智能进展的标准之一。

1956年，在达特茅斯学院举行的一次会议上，计算机科学家约翰·麦卡锡说服与会者接受“人工智能”一词作为本领域的名称。后来，这次会议也被大家看着是人工智能正式诞生的标志。

人工智能的第一次大发展

1956 年达特茅斯会议之后的十几年是人工智能的黄金年代。在这段时间内，计算机被用来解决代数应用题、证明几何定理、学习和使用英语，这些成果在得到广泛赞赏的同时也让研究者们对开发出完全智能的机器信心倍增。当时，人工智能研究者们甚至认为：“二十年内，机器将能完成人能做到的一切工作”、“在三到八年的时间里我们将得到一台具有人类平均智能的机器”。

伴随着初期的显著成果和乐观情绪的弥漫，在麻省理工、卡内基梅隆大学、斯坦福大学、爱丁堡大学建立的人工智能项目都获得了来自 ARPA（国防高等研究计划署）等政府机构的大笔资金。不过，这些投入却并没有让当时的乐观预言得以实现。

人工智能的第一次低谷

由于人工智能研究者们对项目难度评估不足，这除了导致承诺无法兑现外，还让人们当初的乐观期望遭到严重打击。到了 70 年代，人工智能开始遭遇批评，研究经费也被转移到那些目标明确的特定项目上。

在当时，由于计算机性能的瓶颈、计算复杂性的指数级增长、数据量缺失等问题，一些难题看上去好像完全找不到答案。比如像今天已经比较常见的机器视觉功能在当时就不可能找到一个足够大的数据库来支撑程序去学习，机器无法吸收足够的数据量自然也就谈不上视觉方面的智能化。

项目的停滞不但让批评者有机可乘——1973 年 lighthill 针对英国 AI 研究状况的报告批评了 AI 在实现其“宏伟目标”上的完全失败，也影响到了项目资金的流向。人工智能遭遇了 6 年左右的低谷。

人工智能的第二次大发展

小时候看电视时，不少节目都给我留下了“日本的机器人技术比中国先进”的印象，其实这并不是凭空发生的。1981年，日本经济产业省拨款八亿五千万美元支持第五代计算机项目，目标是制造出能够与人对话、翻译语言、解释图像，并且能像人一样推理的机器。随后，英国、美国也纷纷响应，开始向 AI 和信息技术领域的研究提供大量资金。

在这个阶段，诸多公司开始采纳一种名为“专家系统”的人工智能程序。这套系统可以简单理解为“知识库+推理机”，是一类具有专门知识和经验的计算机智能程序系统，“知识处理”随之也成为了主流 AI 研究的焦点。

1980 年，卡内基·梅隆大学为数字设备公司设计了一个名为 XCON 的专家系统，这套系统在 1986 年之前能为公司每年节省四千万美元。有了商业模式，相关产业自然应运而生，比如 Symbolics、lisp Machines 等硬件公司和 IntelliCorp、Aion 等软件公司。这个时期，仅专家系统产业的价值就有 5 亿美元。

人工智能的第二次低谷

好景不长，持续 7 年左右的人工智能繁荣很快就接近了尾声。到 1987 年时，苹果和 IBM 生产的台式机性能都超过了 Symbolics 等厂商生产的通用型计算机，专家系统自然风光不再。

到 80 年代晚期，DARPA 的新任领导认为人工智能并不是“下一个浪潮”；1991 年，人们发现日本人设定的“第五代工程”也没能实现。这些事实情况让人们从对“专家系统”的狂热追捧中一步步走向失望。人工智能研究再次遭遇经费危机。

人工智能最近的一个阶段：从 1993 年到现在

现在大家谈到人工智能、机器学习时，往往会说这并不是一个新概念，在上世纪 90 年代就有了。事实上，这只是人工智能发展史上离大家最近的一个阶段。

深蓝机组之一

在这个阶段，人工智能其实取得了一些里程碑似的成果。比如在 1997 年，IBM 的深蓝（

它是一台超级国际象棋电脑，重1270公斤，有32个大脑(微处理器)，每秒钟可以计算2亿步，被输入了一百多年来优秀棋手的对局两百多万局。）战胜国际象棋世界冠军卡斯帕罗夫；2009 年，洛桑联邦理工学院发起的蓝脑计划声称已经成功地模拟了部分鼠脑；以及即将到来的 AlphaGo 围棋大战。

最近这几年，机器学习、图像识别这些人工智能技术更是被用到了普通人的实际生活中。我们可以在 Google Photos 中更快地找到包含猫猫狗狗的图片，可以让 Google Now 自动推送给我可能需要的信息，可以让 Inbox 自动撰写邮件回复。这背后都离不开人工智能研究者们的长久努力。

AlphaGo和以往任何一个人工智能程序最大的不同之处在于它拥有：深度学习能力。要知道学习能力和创造力是人类大脑最神奇的地方，如果将来某一天，人工智能学会了创造，那机器统治人类的时代估计就要来临了。

AlphaGo程序原理

阿尔法围棋（AlphaGo）是一款围棋人工智能程序。这个程序利用“价值网络”去计算局面，用“策略网络”去选择下子。

深度学习

阿尔法围棋（AlphaGo）的主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入，通过非线性激活方法取权重，再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样，通过合适的矩阵数量，多层组织链接一起，形成神经网络“大脑”进行精准复杂的处理，就像人们识别物体标注图片一样。

两个大脑

阿尔法围棋（AlphaGo）是通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始，去处理围棋棋盘的定位，就像图片分类器网络处理图片一样。经过过滤，

13 个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。

这些网络通过反复训练来检查结果，再去校对调整参数，去让下次执行更好。这个处理器有大量的随机性元素，所以人们是不可能精确知道网络是如何“思考”的，但更多的训练后能让它进化到更好。

为何说这是世纪之战？

过去20多年来，科技家们一直在试着教会电脑下棋，在1997年，IBM的深蓝曾经打败了国际象棋的世界冠军Garry Kasparov，这成为了人工智能的一座里程碑事件。但是，围棋比国际象棋还是要复杂得多，国际象棋中，平均每回合有35种可能，一盘棋可以有80回合；相比之下，围棋每回合有250种可能，一盘棋可以长达150回合。

在过去很长时间里，最好的计算机连厉害点的业余围棋棋手都下不过。“围棋有可能是人类玩的最复杂的棋盘类游戏。”Hassabis 说，“但是阿尔法Go还是赢了，它比我们预料的还要强大。”

“阿尔法Go自己学会了很多规律和走法。围棋被认为是人工智能研究的顶峰，是圣杯。对我们来说，这是难以抗拒的挑战。”

在下国际象棋的时候，计算机可以分析出每一个可能的步骤，从而进行最优选择，但是，围棋可能的步骤是国际象棋的10倍之多。这也正是围棋人工智能的难点所在。

David Silver是这项研究的第一作者，在他看来，阿尔法Go的关键不在于简单粗暴的计算出可能步骤，而是近似于人类的“想象力”。这背后是名为一项名为“深度学习”的大杀器，它让计算机不再是简单地使用计算能力来统计所有数据，而是像人类一样，训练，然后学习。Silver说，计算机“下围棋需要的极复杂的直觉机制，这种机制以前我们认为只可能存在于人类大脑中。”

不仅仅比人类、比起其他机器人同类，阿尔法Go也更加强大。它和其他人工智能下了500场围棋，只输了1场，甚至在给对手让子的情况下，它也照赢不误。而Silver说，它比其他人工智能更先进的地方，就在于可以自我学习。而且，这种机制不仅仅可以用在围棋学习中，阿尔法Go还可以用来解决很多现实问题，比如处理气候模型等。

“阿尔法狗”与李世石的对弈，标志着人工智能一个里程碑式的进步，也似乎在预示着我们人工智能取代人类或许就在不远的未来。下面3场对弈，我们试目以待。