【原】从码农以及星际爱好者视角看AlphaStar完胜人类职业玩家

欧盟IT那些事 2021-04-13

展开全文

今年一月份AlphaStar刚登场时写的文章，翻出来给大家扫盲什么是星际争霸，什么是人工智智能。

AlphaStar

北京时间2019年01.24凌晨2:00，DeepMind的伦敦总部，《星际争霸2》游戏人工智能AlphaStar首秀。DeepMind是全球人工智能领军，AlphaGo和AlphaZero的创造者，这里就不多介绍了。星际2作为一款当今世界最复杂的即时战略游戏，含经济运营，兵伐诡道，战争迷雾以及瞬息万变的策略，自2016年起，就被DP当做一个攻克目标。相比之下，围棋棋盘是固定的，双方是摊开了局面战斗；而星际2类似于真实战争，作战双方不知道对方的经济详细情况和所有战略战术—-一句话，战场无法预测，没有套路！

星际2解说 Artosis 与 Rotterda全程解说。首先问了暴雪的游戏总监Tim Morten：“为什么那么热切和DeepMind合作？”

答：“星际2是当今水平最高竞技游戏，也是人工智能研究的里程碑。”

“暴雪作为合作伙伴意味着什么？”

答：“我们团队非常困难地开发了一款特殊版本的星际2，作为工具公开发布，同时也和SP紧密合作。这个特殊版本和普通版不同，但是规则相同，适合SP研究。最大的不同就是，我们在游戏研究中必须大量预先设置比如live surfing，所以我们今天将观看的都是比赛回放录播，你知道，实时比赛必须从选手视角直播。”

Artosis接着问了DP的研究合作领导Oriol Vinyals：“为什么选择星际作为AI研究目标？”

答：“DP的研究任务就是人工智能，所以找一个检验标准很重要，在开展任务之前，用来检验算法和Agent。这是我们研究的第一个电脑游戏，就像围棋那样。但星际和其它游戏相比它最突出的挑战就是，很明显下一步对我们的AI Agent来说，挑战的等级很高，我在这个图里高光标注了。”

首先是“信息类型”不完美，意思是Agent不知道也无法预测人类选手现在在做什么。不像围棋，如果你不是大师，将容易输掉比赛。正如我展示的，这对我们是个很大的挑战。”

Oriol接着说了过去两年DP做了什么样的研究。他们并不是第一个意识到星际是AI中一个重要研究领域的团队，下面图中可以看到过去15年AI发展历程。2003年即时战略游戏RTS就被视作AI研究方向，2009年就有开源机构研究第一版星际Blood War。过去八年取得不少进展，许多团队开发了Bot和Agent玩游戏，并且玩得不错。他也亲自参与了早期的游戏竞赛AIIDE，甚至被要求作为职业玩家和其他Bot对抗，还因此发现了bug。

PS：2015年已有关于星际Bot的论文 StarCraft Bots and Competitions。

https://www./publication/304919439_StarCraft_Bots_and_Competitions

AlphaStar早期就公开资源和工具，每个人都能参与。整个团队做了巨大的努力，才开发了能全程完整玩星际的第一个版本。

接下来Rotterda对Oriol的访问，就是今天比赛录像的相关科普了。

比赛都是2018年12月进行的，只有一张1v1地图上：Catalyst LE。神族VS神族。赛制五局三胜。

接着第一个人类玩家Dario Wünsch（TLO ）出场，来自暴雪推荐给DP做合作的职业战队Liquid。他是个德国职业虫族玩家。

TLO说了下他和DP合作的起因，并和Oriol讨论过如何让比赛公平。Rotterda也问了我们观众要问的：“作为虫族玩家，比赛中用神族什么感觉？”

答：“我做了大量的赛前准备，玩了100多场神族，不算专业级别，但在星际天梯赛里也算Top 1%水平了。”

今天将播放TLO和AlphaStar之间五场比赛中的两场，人类捍卫尊严的比赛回放正式开始！

TLO vs AlphaStar

第一场

作为星际爱好者，我看不出AI开局和人类玩家有什么不同：造水晶，建筑，probe探路，侦查敌情，前期小骚扰。前五分钟，双方资源人口以及兵力相差不大，AI略为优势。

第五分钟开始，AI开始追猎正面压制TLO的第二基地，双方互秀了一波微操作。但AI的造兵能力这时开始显现，第六分钟兵力已是TLO近乎三倍(28:10)。AI持续优势兵力压制，TLO开始拉上probe抵抗，开局7:06时，TLO打出了gg。

解说员惊诧了，请出DP的研究合作领导David Silver，他说DP是经过几个月研究后才第一次打败人类职业选手。TLO吐槽自己都不知怎么回事，但作为神族的确犯了一些错误。但即使第一场失败，他当时还是非常自信能赢下一场。

APM

解说员 Artosis开始询问APM（Action Per Minute），玩家操作手速–这也是观众的的疑问，万一比赛规则不对等怎么办，毕竟电脑的APM可以每秒无上限啊。David 解释，他们做了公平性处理，让AI模拟人类玩家手速。从下图可以看出，AI的APM中数平均值是低于人类选手的。况且星际并不是靠手速获胜的，而是靠策略。

有的观众抓图说AI的APM有时远超人类，比如下图。

但我仔细看了回放，战斗时双方APM几乎是持平的，而且人类也会高于AI，这一块是相对公平的。

AI游戏视角(战争迷雾)

David 接着解释AI是以什么样的视角来玩游戏的，并不是我们想的地图全开的模式。类似于上帝视角模式，AI会鸟瞰整个地图，但它的所有视觉只限于它的移动单位所能看到的当前视野的合集，其它地区还是被战争迷雾所覆盖。

人类玩家在操作单位并展现其可视区域时，会做其它的区域点击操作，比如资源掌控，兵力生产时会移动玩家的可视区域。DP分析了这些，模拟了人类这些视觉切换操作，最终设置了AI现有的APM。

Oriol说AI不关心当下发生了什么，不像人类有输赢的概念以及心情变化，所以五场比赛对AI来说都是独立的。TLO接着说了他第二场比赛失利的过程，他采取的防御式打法未能奏效。

第三场

这局TLO坚持到了中前期间，比赛中AI用裂光球神乎其神，几乎弹无虚发，非常有效地大量杀伤了TLO的部队。双方在路口拉锯式作战，AI的操作非常强，稍有劣势就后撤，稍有优势就压制，经常有神操作出现。TLO也采取了空投骚扰，小股部队潜入等战术，对战局未产生影响。AI的总人口，资源，兵力，始终都是压制TLO的，14分钟是，AI的兵力几乎是TLO的两倍，胜利天平很明显倾向AI。两分钟后TLO打出gg。

AlphaStar League

DP是如何训练AI的，David 做了解释。DP称此训练过程为AlphaStar联赛，第一步，学习数据来自人类在星际联赛里的比赛数据。用神经网络学习这些数据，然后每一个子状况，新的Agent会fork它，包括之前的Agent，加入到AlphaStar联赛内。

联赛之间的Agent再互相PK，学习。

这样神经网络就会持续升级。

神经网络升级到最终选出某个阶段，某个策略可以打败其它所有策略。

神经网络继续升级。

过程中加上额外配置Personal Learning Ojbect 个人学习模块，比如某些特殊的操作，生产某些特殊兵种，最终学习得出最优策略。

最后产生五个Agent用于比赛，TLO等于是在和五个不同的顶级选手在打比赛。

AlphaStar学习了大量人类选手各类奇特打法，比如农民快攻，炮台快攻。每场比赛的Agent都是预先设置好的，不会随着比赛动态适应并变化。相当于一个人在一场比赛中用固定战术在和TLO打。AlphaStar总共花了七天学习人类联赛，第一阶段学了三天，学习的是联赛白金选手的比赛。这七天的学习数据量，相当于人类学习200年！

MaNa vs AlphaStar

Oriol分享了DP开发团队的对此站胜利喜悦，他表示团队在短暂庆祝之后将再接再厉。接着顶级玩家MaNa上场，波兰人，真正的神族玩家。

但作为神族选手，他好像也没有占什么优势，先输了两局（没有播出）。DP团队做了个视觉流程图来解释神经网络激活原理，对原理感兴趣的最好去看这一段原视频解说或者DP科普文。

https:///blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

第三局

前期MaNa发展正常，但硬抗AI的兵力压制非常辛苦，双方实力差不多持平。但五分钟后AI的空军出现后，占局就逐渐向AI有利的方向发展了，人类几乎之后被按着在地上摩擦，8:02 MaNa打出gg。

第四局

MaNa这局表现得很强势，但是短兵相接时，AI对追猎的微操作太强了，红血的追猎被不停地瞬移到阵型后方，人类很难对AI的部队造成战斗减员。导致AI兵力越来越多，人类兵力越打越少，12:48，人类gg。

不出所料，MaNa也输了之后的最后一局。

至此人类10:0全军覆没。

看到这我有点纠结，从人类玩家角度，非常沮丧，我还不愿相信AI能在星际这种策略无穷的游戏中获胜；但做为程序员，我又很高兴看到AI技术发展的这一个巨大的里程碑。

这时直播中间插播了一段DP开发团队的采访记录，以及日常开发视频，很有热血感染力。

人类挽回一点颜面

直播最后，加赛一场，DP更改了AI的之前的上帝视角模式，改成游戏玩家视角模式。就是说AI模拟Agent“看到”的视觉范围和人类类似，只是面前这个屏幕大小而已。还特别强调了这个技术还未成熟，处于测试阶段（可能意思是就算输了，人类也别高兴）。

MaNa终于在这局为人类挽回了一点颜面，通过大量偷袭一步步占据优势，最终大获全胜。但比赛中明显看出AI在调兵遣将上出现了很大的失误，很可能因为这是测试版？

我和同是星际爱好者的码农朋友讨论了下。

AI的APM设置可以说公平。
AI上帝视角对于顶级玩家来说也不算太大优势，因为他们非常关注左下角鸟瞰地图[下图]和游戏中的声音预警。但也有朋友认为最后一场的AI游戏玩家视角，才算真正公平，因为来回切换视角很费时。

这十盘比赛前期ai都是靠微操作碾压人类，人类由于生理极限不能长期维持亢奋状态，无法撑到发挥人类战略大局观的优势的中后期。
比赛二位选手都是欧洲玩家，与亚洲玩家比，欧洲玩家大多胜在资源掌控和大局观，欧亚对抗赛中欧洲玩家经常后期翻盘。如果换成亚洲玩家，可能第3点上前期AI不占优势。
比赛五局中，人类每局都相当于在和不同的Agent打，这也算公平，毕竟职业玩家都有私藏多种杀手锏，相当于一个人用了五种打法。

赛后

DeepMind创始人，AlphaGo之父Demis Hassabis在推特上发文，满是掩饰不住的骄傲：这是游戏人工智能的一个里程碑，第一个干掉人类顶级选手的系统，这展示了我们的牛逼，我们也测试了新的产品原型：游戏玩家视角接口。谢谢选手MaNa，我们将继续努力。星际是个非常复杂的游戏，我很激动，因为AlphaStar背后的技术可以应用于很多场景，比如天气预报以及天气模型等…….相关论文将很快发布