阿尔法围棋

HM111 2018-03-30

展开全文

折叠 编辑本段程序原理

折叠深度学习

阿尔法围棋阿尔法围棋阿尔法围棋（AlphaGo）的主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入，通过非线性激活方法取权重，再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样，通过合适的矩阵数量，多层组织链接一起，形成神经网络“大脑”进行精准复杂的处理，就像人们识别物体标注图片一样。　

折叠两个大脑

阿尔法围棋（AlphaGo）是通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始，去处理围棋棋盘的定位，就像图片分类器网络处理图片一样。经过过滤，13 个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。

这些网络通过反复训练来检查结果，再去校对调整参数，去让下次执行更好。这个处理器有大量的随机性元素，所以人们是不可能精确知道网络是如何“思考”的，但更多的训练后能让它进化到更好。

第一大脑：落子选择器（Move Picker）

阿尔法围棋（AlphaGo）的第一个神经网络大脑是“监督学习的策略网络（Policy Network）” ，观察棋盘布局企图找到最佳的下一步。事实上，它预测每一个合法下一步的最佳概率，那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。

第二大脑：棋局评估器（Position Evaluator）

阿尔法围棋（AlphaGo）的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步，它预测每一个棋手赢棋的可能，在给定棋子位置情况下。这“局面评估器”就是“价值网络（Value Network）”，通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的，但对于阅读速度提高很有帮助。通过分类潜在的未来局面的“好”与“坏”，AlphaGo能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行，那么阿尔法就跳过阅读在这一条线上的任何更多落子。

折叠 编辑本段设计人员

黄士杰（左三）黄士杰（左三）大卫·席尔瓦（David Silver），剑桥大学计算机科学学士，硕士，加拿大阿尔伯塔大学计算机科学博士。现为伦敦大学学院讲师及Google DeepMind研究员。

黄士杰（Aja Huang），台湾交通大学计算机科学学士，台湾师范大学计算机科学硕士和博士，加拿大阿尔伯塔大学计算机科学博士后。现为Google DeepMind研究员。

折叠 编辑本段主要成绩

折叠对战人工智能

“阿尔法围棋”和其他的围棋人工智能机器人进行了较量，在总计495局中只输了一局，胜率是99.8%。它甚至尝试了让4子对阵CrazyStone、Zen和Pachi三个先进的人工智能机器人，胜率分别是77%、86%和99%。

折叠对战樊麾

谷歌研究者开发的名为“阿尔法围棋”（Alpha Go）的人工智能机器人，在没有任何让子的情况下，以5：0完胜欧洲围棋冠军、职业二段选手樊麾。在围棋人工智能领域，实现了一次史无前例的突破。计算机程序能在不让子的情况下，在完整的围棋游戏中击败专业选手，这是第一次。

折叠对战李世石

李世石李世石人工智能与李世石的博弈于2016年3月9日在首尔举行，奖金是由Google提供的100万美金。

2016年3月15日，“人机大战”最后一场对弈中，“AlphaGo”在一度不利的情况下于收官阶段中盘战胜李世石，总比分被定格为1：4，五番棋最终以“AlphaGo”胜出而告终。

2016年7月17日，Gorating世界围棋排名发生了重大变化，柯洁由于在海峡两岸世界冠军争霸赛中表现不佳，积分下跌，AlphaGo反超柯洁，排名升至榜首[5]。

折叠星际对战

2016年3月27日，暴雪娱乐制作总监Tim Morten在WCS中国站决赛上表示，AlphaGo确认将挑战《星际争霸2》，但谷歌目前正在和暴雪沟通，具体细节还没有确定。[4]

折叠 2017人机大战

2017年4月10日，谷歌在中国棋院召开发布会，宣布5月23日-27日在乌镇主办“中国乌镇·围棋峰会”，届时AlphaGo将再度与柯洁等为代表的中国顶尖棋手进行围棋对弈。[8]

2017年5月23日-27日柯洁与围棋人工智能AlphaGo在“中国乌镇·围棋峰会”展开对弈。三局比赛，分别于5月23、25、27日进行[9]。

5月25日，人机大战第二局在桐乡举行。柯洁执白迎战AlphaGo。弈至155手，柯洁认负，AlphaGo执黑中盘胜，目前比分2比0，AlphaGo赢下与柯洁的人机大战。

5月26日，在人机大战配对赛中，古力和连笑两位棋手分别与AlphaGo组队，2V2较量。最终连笑一方执白中盘取胜。

5月26日，在人机大战团体赛中，AlphaGo执白中盘胜陈耀烨、时越、芈昱廷、唐韦星、周睿羊[12]。

5月27日，柯洁以中盘投子结束了与AlphaGo的最后一场比赛，最终比分定格在0：3[10]。

折叠 编辑本段发展方向

谷歌Deep mind首席执行官(CEO)德米斯·哈萨比斯宣布“要将Alpha Go和医疗、机器人等进行结合”。[1]

折叠 编辑本段相关事件

折叠宣布复出

继“阿尔法狗”在2016年3月打败韩国棋手李世石九段后，沉寂半年之久的“阿尔法狗”宣布将于2017年初正式复出！这表明该人工智能系统已经在棋力上又取得了进步。在“狗狗”沉寂的半年时间内，团队对“狗狗”并未停止研发进程。此次重磅宣布复出，“狗狗”对人类棋手进行了很深入的研究，但具体细节还有待公布！[6]

折叠神秘棋手

从2016年12月29日晚起，一位神秘高手在围棋界掀起了“腥风血雨”。一个注册为“master”、标注为韩国九段的“网络棋手”接连“踢馆”弈城网和野狐网。

“Master”已战胜不少顶级职业棋手，其中包括柯洁、古力、朴廷桓、陈耀烨、聂卫平、常昊等围棋高手。截至2017年1月4日晚，master已经斩获了58连胜。

2017年1月4日晚，就在Master取得第59场连胜后，Master账号宣布自己就是AlphaGo，而代为执子的就是AlphaGo团队的黄士杰博士！[7]

大师（Master）最终以60战全胜的战绩结束了“他”的网络公测。

大师（Master）击败的棋手名单中，包括中国世界冠军：古力（3次）、柯洁（3次）、陈耀烨（3次）、范廷钰（2次）、常昊（1次）、时越（1次）、芈昱廷（1次）、唐韦星（1次）、江维杰（1次）、柁嘉熹（1次）、周睿羊（1次），韩国世界冠军朴廷桓（5次）、元晟溱（1次）、姜东润（1次）、金志锡（1次）、朴永训（1次）。

折叠宣布退役

2017年5月27日，在2017人机大战最后一局比赛结束后的发布会上，AlphaGo之父、DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)说：“本周的比赛聚集了围棋起源地最优秀的棋手参与，是AlphaGo作为一个竞赛系统能够对弈的最高级别对手。因此，本次中国乌镇围棋峰会是AlphaGo参加的最后对弈比赛[11]。”