【原】深度|为了AlphaGo Zero开个专家云集的研讨会，我们够不够诚意

RoboSpeak 2020-12-23

展开全文

AlphaGo先后战胜李世乭和柯洁，如今又发布了不需要向人类学习的AlphaGo Zero。是不是战胜两位围棋大神，就是战胜人类？是不是战胜人类，就代表人工智能从此不需要借助人类的经验？AlphaGo对人工智能的发展有哪些启发？

我们趁热拿到了几位人工智能行业专家新鲜出炉的观点:

1.李旸博士，美国伊利诺伊大学香槟分校智能人机互动实验室毕业，上海深觉智能科技有限公司创始人，对AlphaGo Zero从以下五个方面做出了评价：

硬件层面。AlphaGo Zero最重要的意义应当是其训练所用的时间，比之前大大提升了。这应当归功于谷歌的专用硬件TPU。这说明专用硬件的开发对于神经网络的大规模应用起到了至关重要的作用。这一轮卷积神经网络的发展，主要推手就是GPU的引入。随着更为专用的TPU和其他专用神经网络芯片的引入，可以期待会有越来越多的让人振奋的结果。

算法层面。AlphaGo Zero引入了对抗性生成网络进行训练。简单来说，就是两个网络互相训练，其结果比用一个网络训练会好。从这个角度看，这也是可以预期的。未来的神经网络研究，一定会朝向多神经网络系统演化。一个学习任务可能会用到2到10个甚至更多的神经网络，这些网络在整体学习中的作用是有分工的。这样的分工也会更加类似于人脑的不同功能模块。

经验利用层面。AlphaGo Zero没有使用人类积累的经验。这一点引起了大量的社会舆论关注。但是从人工智能算法本身来说，这一点的价值反而是最小的。因为围棋本身是一个封闭的数学问题。这样的数学问题，和人类实践的经验，相关度极低。从本质上来说，解决围棋问题这一类数学问题，在计算资源足够大的情况下，人类的经验都是可有可无的。之前之所以需要人类的经验，还是因为计算资源不够，无法通过自己的模拟盘，遍历足够多的变化。而在新一代硬件支撑的条件下，人类经验就可以全部忽略了。可以说，人类经验是否需要，完全取决于硬件的速度和模拟能力。这样看来，数学问题的解决，一般可以期待人类经验不是必须的。而物理问题的解决，人类经验应当是必不可少的。人类几千年历史中发生的社会和自然现象，至少在可见的未来，不是计算机模拟就可以解决的。

人工智能的能力层面。人工智能的发展，根据其达到的能力，可以分为几个阶段：第一阶段：人类设计的算法和硬件超过了人类大脑。第二阶段：人工智能设计的算法超过了人类大脑。第三阶段：人工智能设计的算法超过了人类设计的算法；人工智能设计的硬件（比如芯片）超过了人类设计的硬件。第四阶段：人类或者人工智能设计的硬件，在能源使用效率上超过了人类大脑。从这一角度看，目前的AlphaGo Zero和之前的所有版本，还都处于这第一阶段，并没有实现突破性进展。

围棋是规则简单，计算复杂的问题。而实际生活中，我们遇到的往往是规则复杂，而计算相对简单的问题。比如一个电信企业的呼叫中心客服系统，有长话业务，固话业务，移动业务，宽带业务，企业业务，政府业务等等。这里面遇到的每一个具体任务，其计算都不会太复杂，但逻辑性很强，需要关注的细节点很多，有非常多的特例要去处理，也就是规则复杂度很高。然而这样的实际问题由于本身就不容易进行数学化建模，所以恰恰是学术界目前关注度最低的。但是人工智能要形成突破，就必须在这些问题上有系统性的解决方案。我们上海深觉智能科技有限公司就在进行这方面的尝试，可以认为是和AlphaGo研究方向的互补性研究。

2．金坚博士，北京信久通科技总经理

（1）下棋是纯粹的数学算法，有客观规律在里面，没有人为因素干扰，没有歧义，不需要学习

（2）人之所以要背棋谱、要学习，是因为人的计算能力有限只能局部优化，也就是有限策略最优化，而计算机计算能力无限，可用无限策略最优化
（3）无限策略最好是两台机器互相下棋，可以走完所有情况，人是不可能。机器和机器下棋也是一种学习。

3. 顾泽苍博士株式会社阿波罗日本首席科学家

关于对AlphaGo Xero 所谓的可以脱离人的经验介入，可以不用向人类学习的论文发表的看法：首先要看谷歌投入六亿美金所搞的AlphaGo的意图何在。

应该说AlphaGo确实是一个历史上的成功！

这个成功体现在通过人为介入，贝叶斯定理，对抗学习的算法终于让机器战胜了棋手！作为舆论上的把这一技术归为深度学习的策略网络和价值网络所起的作用？在解决复杂系的组合问题，这样的论点不能令人信服。

AlphaGo的另一成功应该是宣传模式上的成果，上述算法如果用于大规模集成电路的最佳化组合，可能现在已经连论文都发不出去的传统手法，但是用在围棋去战胜人类棋手，简直这个Idea太高明了，不太了解专业的人们立即想到不是只战胜棋手，是战胜人类，谁会知道这两个结果的差距是多么的大？

谷歌投入6亿美金，是投入了一个商品宣传的方式，其效益是百倍，千倍的价值。这一宣传模式使全世界人们一下子就崇拜起深度学习，就一定要买GPU。。。在这一商务宣传的效果达到顶峰之后，现在又提可以抛弃人类经验，达到高于AlphaGo的水平的不用学习的模型。

如何看待这个问题，一定要从组合理论上来分析，AlphaGo的目标函数是什么？是解决一个NP完全的组合最佳化问题，解决这个问题从组合理论研究的角度一定要用到人类的经验，要进行人为的介入、否则计算机怎么知道围棋的规则？采用强化学习怎么比得上走每一步都要进行博弈的强对抗学习，进行双方的博弈是AlphaGo在后一阶段表现突出的一个最为重要的算法，其次就是每一步的胜算概率，解决组合最佳化问题一定要用到这三个方法缺一不可！

所以所谓的抛弃人的经验的AlphsGo Zero就是一个不符合最佳组合理论的论点，加之不用同人类学习的论点是否是机器学习模型的进步？在解决复杂系问题上可以通过人为介入的方法非常有效，这已被大量的应用所证实，机器学习通过向人类学习，形成“知识获得”这将是代表当今这一次人工智能的最新模型，很可能是产生人工智能的突破。

其实稍微注意一下今年初AlphaGo同柯洁的对战，好像AlphaGo很轻松，也不需要庞大的硬件了，如今又来一个不学自知的宣传，这是怎么回事呢？我认为AlphaGo的胜算概率的训练，一旦这些结果达到，人为介入使围棋的处理规则的完善，从此之后就是一个简单问题了，这是很容易理解的。当前的人工智能高潮的特征就是机器学习解决概率问题，除了小数据学习的无监督机器学习确实可以支撑本次人工智能高潮的结局，能够产生不负众望的大规模的应用成果！尚还没有看到其他的可以指望的算法！

4 刘兆鹏，无锡巴特智能科技有限公司总经理

这个让我想起了之前给一个保险客户做的验证码识别项目完成后，尝试运用了当时新出来的生成对抗网络（GAN）和ResNet 来实现自我训练，结合字母、数字的基本特征模型进行自动分类，当时使用脚本抓取到的100多万验证码数据进行自我训练，也取得了86% 以上正确率的成绩，识别性能超过了100次/秒。

今闻AlpgaGo Zero 通过自学习独立发现了游戏规则，并在完全没有人类知识限制的情况下走出了新策略，自学3天就打败了旧版的AlphaGo，也许将代表着人工智能自我学习，互相教育的时代即将来临，祝贺！