AI时代，人类棋手还有存在的意义吗？

高天明月图书馆 2020-07-02

展开全文

三年前，当柯洁被AlphaGo Master击败时，水木社区有网友讨论职业围棋的未来。

其中一位网友提到国际象棋职业棋士在AI时代的现状：

当然，现在最顶级的国象比赛都变成很搞笑的存在了。
我在国外，有的时候没事干，看一些体育台深夜录播的国象比赛现场，描述一下有多搞笑：

两个顶级高手在下棋，卡森对克拉姆尼克这个级别的
演播间有大屏幕直播，和若干观众
每一个局面，棋手在深思，屏幕上给出了软件指出的最优次优解等等
卡森走出了最优解，大家点头，说卡森真厉害，又走对了，现在克拉姆尼克有如下选择
老克继续想，大家那个手机边讨论边等着对答案
老克move了，大家叹息，说哎呀果然走错了，局面恶化了多少多少分
如果卡森接下来这样这样，那么10回合后能白吃一个兵...
这比赛有什么意思？棋手有什么地位？
简直就是两个优秀的奥赛生在答卷，一堆老师等着看结果或看笑话。
要不是有几个传统家族和企业撑着，国象竞技早亡了。

这位作者的言下之意是，在围棋AI普及之后，职业围棋比赛也会像今天的国际象棋比赛一样，变成与AI“对答案”的游戏。职业棋士存在的意义，将会大大降低。

三年后的今天，围棋AI已经成为围棋直播的标准配件，而多数棋迷手中也拥有各种开源或收费的“狗狗”。在AI横行的今天，职业围棋手还有存在的意义吗？

让我们来看几个案例。

第一个案例是本届LG杯16强赛，柯洁与申真谞一局的第108手。

申真谞第105手冲击白方弱点，期待白棋简单在H17位接上，从而获得联络上的便宜。柯洁在右边交换一手之后，108手在H18位虎下。这着棋打破了对手的构想，但这是一手好棋吗？请看人工智能的评价。

轮到白棋下第108手时，星阵专业版（3x配置）给出的第一推荐是H17位简单的接。而H18虎下甚至不在备选着法列表里。

按照“与AI对答案”的思路，柯洁实战的虎定是一步坏棋吧。事实果真如此吗？

当实战柯洁走出108手虎时，星阵却给予柯洁好评！在低计算量（1万左右）时，星阵一度给白方评估的胜率下降了3个百分点。但当计算量上升到25万以上时，白方的胜率却不降反升，从47.9%升至51.5%！

柯洁走出了与“标准答案”截然不同的一步棋，却仍然获得人工智能“老师”的高度评价。这是什么原因呢？

请看AlphaGo Zero的决策原理。AlphaGo Zero的思考依据PUCT算法，是MCTS（蒙特卡洛树搜索）的变种。其中关键性的决策公式如下：

我知道读者朋友们不爱看公式，所以这里就跳过繁琐的数学，用人话直接讲了。

当AlphaGo Zero模拟的计算量（公式中的N）较小时，AlphaGo的决策更多取决于P(s,a)这一项。而P(s,a)是由神经网络直接提供的策略，代表AlphaGo的直觉。而模拟的计算量较大时，AlphaGo的决策则更多取决于Q(s,a)这一项。Q(s,a)是AlphaGo对模拟后续变化估算的胜率平均值，代表AlphaGo的深度计算力。

星阵采用的技术与AlphaGo Zero相似，因此在判断柯洁与申真谞一局的108手时，出现了如上文描述的现象。

星阵神经网络的“直觉”并不支持108手上虎，这和人类棋手的直觉其实是相似的。这手棋从局部来看，明摆着给对手109长的好点，而给自己留下两个断点。因此108上虎甚至不在神经网络“直觉”的候选列表里。

当棋盘上走出第108手上虎之后，星阵的初始判断也和它的“直觉”一样，不支持这步棋。但在它经过深入计算（25万以上模拟量）之后，它确认这手棋是一着好棋，并且给出的变化图与实战柯洁的筹划基本一致。

在普通配置的家用电脑上，达到25万的计算量大约需要20分钟。而若使用当前市面上顶级的显卡Tesla V100，则只需2分钟就可以完成相同的计算量。也就是说，即使是手持高配置机器的大佬观战这局棋，也需要至少2分钟的时间来完成一段心理上的大起大落：如果柯洁走这里形势还不错——啊柯洁好像走错了，胜率掉了3个多点——哦柯洁还是牛逼啊，胜率居然涨回来了，这居然是步好棋！

这和简单的“与AI对答案”，恐怕不可同日而语吧。

无独有偶，我最近在回顾李昌镐过去的棋谱，也有类似的发现。

这是1998年韩国棋圣战决胜局，曹薰铉执黑对李昌镐的棋谱。这盘棋我们在《当代最伟大棋士李昌镐（二）》中提到过。此局面下，双方形势接近，进入最后的收官争夺。李昌镐实战在S3位二路夹入，在黑空里造出一块劫活。那么，AI对李昌镐的选择又是如何评价的呢？

AI认为，白方应该先手搜刮右上，然后在右下也采取外围搜刮的策略。若双方如此应对，则白方可保持微弱的优势，棋局将进入对白方略有利的半目胜负。

如果白方是李昌镐而非AI，下出这样的棋才不会让我意外。这样小刀割肉式的收官手法实在是太“李昌镐”了。

而实战李昌镐的“釜底抽薪”策略，遭到AI的差评。即使在高计算量的情况下，白方第132手二路夹之后的胜率也下降了10个百分点。

但是，白方随后的胜率却一路攀升，至146手成劫为止，白方的胜率回到131手时的初始状况。其间，黑方的选择都是AI推荐的着法（或第二选点），但黑方无法阻止自己胜率下滑。

如果按照“与AI对答案”的逻辑，李昌镐的战略选择可谓大谬：平稳搜刮就有望赢的棋，却选择了高风险的打劫方案。但无论是AI的后续计算，还是实战的进程，都证实李昌镐实战的选择同样优秀。

在五十手的劫争之后，李昌镐右下大块虽死，但先手救回右上三子，确立了优势。AI判断，现在是李昌镐有望胜1目半的局面，胜算极高。小官子阶段李昌镐稍有退让，仍以半目优势获胜。

柯洁与申真谞之局，AI的推荐至少与柯洁实战的选择在战略上相似，区别主要在战术上。而本局AI与李昌镐的实战在战略上就有根本性的区别。AI稳扎稳打，而李昌镐选择了风险较高的劫争。但神奇的是，两种战略不仅都可行，而且胜率相当，没有明显的高下之分。

如果让AI独立计算，即使给再长的运行时间，或者重新运算若干次，都不会想到李昌镐132夹、134透点的组合拳。

而AI怎么都想不到的着数，最后被证实可行，这是顶级人类棋手李昌镐独特的嗅觉所创造的奇景。

前文的两个例子来自实战，最后再讲一个排局。

这个排局是经过精心设计的，胜负取决于贯穿棋盘中央的两条黑白大龙的对杀。

现在轮到黑棋下，请问黑方应该走哪里？

我用星阵专业版24x的配置，反复尝试了几次五十万以上的计算量，而星阵始终在两个错误答案间徘徊。没有继续让星阵算下去，是因为我的钱包瘪了（星阵24x配置价格是0.98元每分钟，慎用）。有兴趣的棋友不妨自行用星阵或其他AI验证。

这道题能难倒AI，却难不倒人类。像这样只涉及延气和收气，而不涉及其他复杂围棋技巧的问题，可以用组合博弈论解决。当然，像这样的题也未必非要用数学理论解答不可。相信职业棋手们同样可以用自己习惯的理论和直觉去解决这个问题。