AlphaGo打开新世界

SZTsmz 2016-05-07

展开全文

早在2016年1月28日，《自然》杂志发表论文，并以封面故事展示了由谷歌旗下人工智能公司DeepMind研发的计算机围棋程序“AlphaGo”，这项程序在此前一项竞赛中以5比0的成绩战胜了欧洲围棋冠军樊麾，2016年3月又以4比1的成绩战胜了世界围棋冠军李世石。这是有史以来第一次，计算机程序在不让子的情况下，在围棋游戏中击败人类专业高手，而这原本被认为是人工智能在10年后才能达到的成就。

“AlphaGo以无数的棋谱数据为基础‘深度学习’，不断完善，又通过自我模拟对局提高实力。此外，我们有针对性地进行了很多测试。所以短短几个月AlphaGO的棋力就能得到显著的提高。”DeepMind公司的CEO兼谷歌副总裁戴密斯·哈萨比斯(Demis Hassabis）在接受采访时表示。

人工智能最难破解的游戏

20多年来，人工智能在大众棋类领域同人类的较量一直存在。从上世纪90年代中期战胜全世界跳棋顶尖高手的“Chinook”程序，到战胜国际象棋大师卡斯帕罗夫的“深蓝”，通过一代代的更新发展，在这类以智力博弈著称的游戏中，人工智能打败人类，创下纪录。

然而，一直以来，围棋却是个例外。在这次AlphaGo取得突破性胜利之前，计算机围棋程序虽屡次向人类高手发出挑战，但其博弈水平远远低于人类。在同职业高段位顶尖棋手的较量中往往只能在“让子”的情况下才能打个平手或是略胜一筹。2013年日本电脑围棋“Crazy Stone”让四子打败了围棋九段高手石田芳夫，2015年11月韩国专家林宰范研发的“DolBaram”程序在让四子的情况下击败了前超一流棋手赵治勋九段。

出现这种情况的原因就在于围棋特别复杂。国际象棋平均一回合有35种可能的下法，围棋却高达250种可能。而且每个走法之后还有另外250种走法。以此类推。这意味着，即使最大的超级计算机也难以预测出每个可能下法的结果。因为围棋招法的变化太多了。正如戴密斯·哈萨比斯说的，“可能的位置比宇宙原子数量还要多。为了破解围棋，你需要一种不光会计算的人工智能。它需要多少模仿人类，甚至是人类直觉。你需要会学习的东西。”

AlphaGo如何用“大脑”下棋

在此前一次次累积的失败经验过后，谷歌研究者开发出了这款名为“AlphaGo”的人工智能程序，祭出了终极杀器——“深度学习”（Deep Learning）。Deepmind 公司在《自然》杂志发表的论文中介绍了 AlphaGo 程序的细节。AlphaGo的核心是两种不同的深度神经网络：“策略网络”（policy network）和 “值网络”（value network）。它们的任务在于合作“挑选”出那些比较有前途的棋步，抛弃明显的差棋，从而将计算量控制在计算机可以完成的范围里，本质上和人类棋手所做的一样。

其中，“值网络”负责减少搜索的深度，其作用是在当前局面下判断下一步可以在哪里走子。它有两种学习模式。一个是简单模式，它通过观察 KGS（一个围棋对弈服务器）上的对局数据来训练。粗略地说，这可以理解为让大脑学习“定式”，也就是在一个给定的局面下人类一般会怎么走，这种学习不涉及对优劣的判断。另一个是自我强化学习模式，它通过自己和自己的海量对局来学习评价每一步走子的优劣。研究者们用许多专业棋局训练人工智能，其中监督学习（supervised learning）让人工智能和自己对弈，而强化学习（reinforcement learning）让每次对弈都使AlphaGo 棋力精进。

另一个大脑“策略网络”负责减少搜索的宽度——面对眼前的一盘棋，有些棋步是明显不该走的，比如不该随便送子给别人吃。将这些信息放入一个概率函数，人工智能就不用给每一步以同样的重视程度，而可以重点分析那些有价值的棋着。

AlphaGo通过这两个不同神经网络“大脑”合作来改进下棋。这些大脑多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始，去处理围棋棋盘的定位，就像图片分类器网络处理图片一样。经过过滤，13 个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。

让人工智能具有“战略思维”的一步

神经网络和机器学习在过去十年里跃进式的发展，确实让人工智能做到了许多之前只有人脑才能做到的事。但许多专家认为这并不意味着人工智能的思维方式与人类相当。《与机器人共舞》作者、《纽约时报》资深科技记者马尔科夫就认为，在围棋的高手对决中，时常会有超出前人的神来之笔，人类的优势就是比AlphaGo更好地应对这些招式。而人类的劣势则在于我们会疲倦，会有心理情绪的波动，AlphaGo却永远不会有这样的困扰。

同时有专家也指出，这两个大脑的工作方式确实和人类很相似，一个判断细部，一个纵览全局。但 AlphaGo 最终将两者结合的方式比较简单粗暴：让两者各自评估一下每种可能的优劣，然后取一个平均数。这并不是人类的思维方式。

对人类来说，这两种思考问题方式的结合要复杂得多。人们并不总是同时对事态做出宏观和微观的判断，而是有时候侧重于大局，有时候侧重于细部。具体的精力分配取决于事态本身，也取决于人在当时的情绪、心理和潜意识的应激反应。这当然是人类不完美之处，但也是人类行为丰富性的源泉。

哈萨比斯在被问及AlphaGo能否感知“气势”、“外势”、“厚味”等围棋特有的要素时也承认：“这是无法用数理分析的部分，所以很难用算法体现。是属于计算机无法感知的人类独有的领域。”

AlphaGo引入整体盘面评估确实是它胜于许多别的围棋人工智能的地方，但从根本上来说，这只是人们让人工智能具有“战略思维”尝试的第一步，还有太多可以改进的可能性。

不止游戏那么简单

2014年年初，谷歌以4亿美元的价格收购了这家创造出AlphaGo“神机”的深度学习算法公司—DeepMind，公司创始人哈萨比斯是一位横跨游戏开发、神经科学和人工智能等多领域的天才人物。7月，谷歌以DeepMind为主体与牛津大学的两支人工智能研究队伍建立了合作关系。

DeepMind也很快发布了研究成果，它在10月份公布了一种新的模拟神经网络，旨在模仿人类大脑的工作记忆原理，拥有更加强大的归纳整理和联想演绎等逻辑处理能力，从而带来更快的任务处理速度，还可以通过训练去自行处理任务，这种全新的深度学习算法可用于计算机视觉和语音识别等领域。

正如深度学习创业公司Skymind的CEO兼创始人Chris Nicholson指出，围棋证实这类人工智能几乎能用于解决任何可被视为某种游戏的难题。

这就是谷歌要解决围棋这个难题的原因。如果他们能够解决如此复杂的问题，那么，他们也能将研究所得作为跳板，迈向处理更实际现实生活问题的人工智能。哈萨比斯说：“这些技术和机器人学是天作之合。它们能让机器人更好地了解环境并对环境中不可预测的变化做出响应。”他相信，这些技术能增进科学研究，提供可以为研究人员指明下一个重大突破的人工智能助手。

巨头间的争夺

对于AlphaGo与李世石的“人机大战”，其实科技界的大佬更关心的是目前人工智能对现有业务能力或竞争力的提升和科技企业转型之需。

2015年，谷歌推出了一种名为“RankBrain”人工智能的系统来处理复杂或罕见的搜索查询，而谷歌利用所谓的“深度学习”人工智能技术构建了“RankBrain”人工智能系统，向其输入了此前的问答信息，使其能向用户做出最好的应答。

Facebook应用人工智能就是为了在这个信息超载的时代保证人们的关系不会变成三分钟热度。Facebook的人工智能将会为自家算法提供协助，以便提供更多用户感兴趣的内容。2015年，Facebook推出了聊天应用助理“M”，希望能用一个界面替换多数的网络搜索和应用。

作为硬件厂商的苹果公司，其未来业务还将以移动设备为核心，但仅仅依靠现有的交互方式将难以持续发展。2015年10月，苹果公司收购了创业公司VocalIQ。VocalIQ是一家英国公司，该公司的技术可以理解自然语言，用户能以休闲会话的方式与设备进行交互，而不是一般设备所理解的冷冰冰的提示性语言。苹果通过该公司的技术来强化Siri功能。

对于传统IT大佬微软，其推出的“微软小娜”与“微软小冰”便是人工智能在当下的两种不同表现形态。两个产品都是来自于微软的人工智能，前者让Windows Phone变得更加易用与人性化，而后者则活跃在社交平台上，成为和用户沟通的人工智能机器人伙伴。比起其他初级的语音智能搜索，“小娜”更像一个智能的私人语音助理。需要说明的是，微软为“小娜”进行了长时间的筹备，在整个研发过程中，微软在缔造“小娜”私人语音助理的时候真正把她当作“人”来研发。即自然语言理解让“小娜”能够听懂我们所说的话，而机器学习能够让“小娜”像一个真的私人助理一样，更加了解它的主人。借由微软“必应”提供的大数据支持，“小娜”能够变得更加聪明。

另外一家传统IT大佬IBM于2014年正式对外宣布旗下的Watson系统投入使用，而Watson背后的核心技术支撑正是认知计算，涵盖了如排序学习、逻辑推理、递归神经网络等来自5个不同领域的技术，包括大数据与分析、人工智能、认知体验、认知知识、计算基础架构。

对于这次“人机大战”我们看到的不仅是人工智能的飞速发展，更是对于各大科技巨头现有业务竞争力提升或转型的务实，从这个意义看，这些巨头在“大战”背后的“动作”更值得我们关注和研究。

来源：《机器人产业》杂志