分享

阿尔法围棋

 HM111 2018-03-30

折叠 编辑本段 程序原理

折叠 深度学习

阿尔法围棋阿尔法围棋阿尔法围棋(AlphaGo)的主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。 

折叠 两个大脑

阿尔法围棋(AlphaGo)是通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13 个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。

这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以人们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。

第一大脑:落子选择器 (Move Picker)

阿尔法围棋(AlphaGo)的第一个神经网络大脑是“监督学习的策略网络(Policy Network)” ,观察棋盘布局企图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。

第二大脑:棋局评估器 (Position Evaluator)

阿尔法围棋(AlphaGo)的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,在给定棋子位置情况下。这“局面评估器”就是“价值网络(Value Network)”,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。通过分类潜在的未来局面的“好”与“坏”,AlphaGo能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行,那么阿尔法就跳过阅读在这一条线上的任何更多落子。

折叠 编辑本段 设计人员

黄士杰(左三)黄士杰(左三)大卫·席尔瓦 (David Silver),剑桥大学计算机科学学士,硕士,加拿大阿尔伯塔大学计算机科学博士。现为伦敦大学学院讲师及Google DeepMind研究员。

黄士杰(Aja Huang),台湾交通大学计算机科学学士,台湾师范大学计算机科学硕士和博士,加拿大阿尔伯塔大学计算机科学博士后。现为Google DeepMind研究员。

折叠 编辑本段 主要成绩

折叠 对战人工智能

“阿尔法围棋”和其他的围棋人工智能机器人进行了较量,在总计495局中只输了一局,胜率是99.8%。它甚至尝试了让4子对阵CrazyStone、Zen和Pachi三个先进的人工智能机器人,胜率分别是77%、86%和99%。

折叠 对战樊麾

谷歌研究者开发的名为“阿尔法围棋”(Alpha Go)的人工智能机器人,在没有任何让子的情况下,以5:0完胜欧洲围棋冠军、职业二段选手樊麾。在围棋人工智能领域,实现了一次史无前例的突破。计算机程序能在不让子的情况下,在完整的围棋游戏中击败专业选手,这是第一次。

折叠 对战李世石

李世石李世石人工智能与李世石的博弈于2016年3月9日在首尔举行,奖金是由Google提供的100万美金。

2016年3月15日,“人机大战”最后一场对弈中,“AlphaGo”在一度不利的情况下于收官阶段中盘战胜李世石,总比分被定格为1:4,五番棋最终以“AlphaGo”胜出而告终。

2016年7月17日,Gorating世界围棋排名发生了重大变化,柯洁由于在海峡两岸世界冠军争霸赛中表现不佳,积分下跌,AlphaGo反超柯洁,排名升至榜首[5]

折叠 星际对战

2016年3月27日,暴雪娱乐制作总监Tim Morten在WCS中国站决赛上表示,AlphaGo确认将挑战《星际争霸2》,但谷歌目前正在和暴雪沟通,具体细节还没有确定。[4]

折叠 2017人机大战

2017年4月10日,谷歌在中国棋院召开发布会,宣布5月23日-27日在乌镇主办“中国乌镇·围棋峰会”,届时AlphaGo将再度与柯洁等为代表的中国顶尖棋手进行围棋对弈。[8]

2017年5月23日-27日柯洁与围棋人工智能AlphaGo在“中国乌镇·围棋峰会”展开对弈。三局比赛,分别于5月23、25、27日进行[9]

5月25日,人机大战第二局在桐乡举行。柯洁执白迎战AlphaGo。弈至155手,柯洁认负,AlphaGo执黑中盘胜,目前比分2比0,AlphaGo赢下与柯洁的人机大战。

5月26日,在人机大战配对赛中,古力和连笑两位棋手分别与AlphaGo组队,2V2较量。最终连笑一方执白中盘取胜。

5月26日,在人机大战团体赛中,AlphaGo执白中盘胜陈耀烨、时越、芈昱廷、唐韦星、周睿羊[12]

5月27日,柯洁以中盘投子结束了与AlphaGo的最后一场比赛,最终比分定格在0:3[10]

折叠 编辑本段 发展方向

谷歌Deep mind首席执行官(CEO)德米斯·哈萨比斯宣布“要将Alpha Go和医疗、机器人等进行结合”。[1]

折叠 编辑本段 相关事件

折叠 宣布复出

继“阿尔法狗”在2016年3月打败韩国棋手李世石九段后,沉寂半年之久的“阿尔法狗”宣布将于2017年初正式复出!这表明该人工智能系统已经在棋力上又取得了进步。在“狗狗”沉寂的半年时间内,团队对“狗狗”并未停止研发进程。此次重磅宣布复出,“狗狗”对人类棋手进行了很深入的研究,但具体细节还有待公布![6]

折叠 神秘棋手

从2016年12月29日晚起,一位神秘高手在围棋界掀起了“腥风血雨”。一个注册为“master”、标注为韩国九段的“网络棋手”接连“踢馆”弈城网和野狐网。

“Master”已战胜不少顶级职业棋手,其中包括柯洁、古力、朴廷桓、陈耀烨、聂卫平、常昊等围棋高手。截至2017年1月4日晚,master已经斩获了58连胜。

2017年1月4日晚,就在Master取得第59场连胜后,Master账号宣布自己就是AlphaGo,而代为执子的就是AlphaGo团队的黄士杰博士![7]

大师(Master)最终以60战全胜的战绩结束了“他”的网络公测。

大师(Master)击败的棋手名单中,包括中国世界冠军:古力(3次)、柯洁(3次)、陈耀烨(3次)、范廷钰(2次)、常昊(1次)、时越(1次)、芈昱廷(1次)、唐韦星(1次)、江维杰(1次)、柁嘉熹(1次)、周睿羊(1次),韩国世界冠军朴廷桓(5次)、元晟溱(1次)、姜东润(1次)、金志锡(1次)、朴永训(1次)。

折叠 宣布退役

2017年5月27日,在2017人机大战最后一局比赛结束后的发布会上,AlphaGo之父、DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)说:“本周的比赛聚集了围棋起源地最优秀的棋手参与,是AlphaGo作为一个竞赛系统能够对弈的最高级别对手。因此,本次中国乌镇围棋峰会是AlphaGo参加的最后对弈比赛[11]。”

折叠 再次进化

2017年10月18日,DeepMind团队公布了最强版AlphaGo ,代号AlphaGo Zero。它的独门秘籍,是“自学成才”。而且,是从一张白纸开始,零基础学习,在短短3天内,成为顶级高手。

团队称,AlphaGo Zero的水平已经超过之前所有版本的AlphaGo。在对阵曾赢下韩国棋手李世石那版AlphaGo时,AlphaGo Zero取得了100:0的压倒性战绩。DeepMind团队将关于AlphaGo Zero的相关研究以论文的形式,刊发在了10月18日的《自然》杂志上[13]​。

折叠 编辑本段 社会评论

人工智能是社会发展和自然科学发展的必然。历史的车轮无法阻止,关键是怎么适应。有人觉得人类智慧的堡垒被打破,但是其实从另一方面说这也给围棋的推广发展和在文化挖掘的方面提供了一个很好的契机。(世界冠军、名将常昊九段评)[2]

人机大战对于人工智能的发展意义很有限。解决了围棋问题,并不代表类似技术可以解决其他问题,自然语言理解、图像理解、推理、决策等问题依然存在,人工智能的进步被夸大了。(复旦大学计算机科学技术学院教授、博士生导师危辉评)[3]

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多