经济学人特写｜机器能“深度学习”，但还不能举一反三

曾经沧海的老鱼 2016-03-13

展开全文

人工智能vs.人类大战的比分现在是2：0，至少是在围棋场上。全球最顶尖的人脑连败给曾经被认为只是初段选手的“阿尔法狗”，令计算背后的技术与策略愈发引人注目。显然，机器掌握的“深度学习”能力让它能驾驭棋枰，但这跟人类举一反三的独立思考仍有不少距离。

围棋到底有多复杂？

在一项真正简单的游戏中，每一步可能导致的后果都能通过计算推导出来。这种蛮力算法意味着计算机总能推算出在某种局面中哪步棋是最佳选择。

但DeepMind的创始人之一杰米斯·哈萨比斯（Demis Hassabis）称围棋“无法被数学蛮力攻克”。围棋棋盘的规模（19x19）意味着棋手落子的方式极多——粗略估算数量约为10的170次方。已经找不到类比来描述如此大的体量。它大概要比已观测到宇宙中原子的数量多100个数量级，后者仅为10的80次方左右。在围棋的几百个回合中，每一步都有约250种可能的合规走法，这个数目被称作分支因数。而每下一步又会再导致250种可能的走法，如此继续直到游戏结束。在围棋比赛中推算哪方会胜出极为困难。因为一个棋子的价值只由它相对于棋盘上其他棋子的位置而定，而这种相对性又随着每一步而发生改变。

什么是“深度学习”？

AlphaGo使用“深度学习”技术自行发现人类棋手能理解却无法解释的规则。这一技术不断向计算机提供复杂的统计数字，让计算机想办法从大量的干扰数据中分离出一般法则。

深度学习需要两样东西：大量的处理能力和大量的可学习数据。DeepMind从汇聚业余和专家棋手的网站中摘选三千万个棋局样本来训练AlphaGo。他们对AlphaGo稍作改动，制造出它的一个分身，让两者互搏，从而更迅速地生成更多训练数据。

这些数据被灌入两种深度学习算法中，其一是“决策网络”（policy network），它接受训练来模仿人类下棋。在观看了数百万局比赛后，它已经学会提炼特征、原则和经验法则。在比赛过程中，它的任务是审视棋谱当前的局势，推荐出一些看起来不错的走法，让第二种算法来考虑。

这第二项算法叫“值网络”（value network），它评估一步棋的优劣。机器人会演绎由“决策网络”推荐的棋步，并对它们可能导致的成千上万种子棋局推演出双方棋手的应对。因为围棋如此复杂，要把所有可预见的棋局都通盘演算一遍并无可能。因而“值网络”所做的是审视几步棋之后可能出现的棋局，并将它们与那些它之前见过的例子做比对。其目标是找出那个就统计学而言与那些曾经导向胜利的棋局最为相像的棋局。“决策网络”和“值网络”共同运作，展现出人类棋手通过多年训练积累的智慧。

电脑仅仅依靠蛮力计算挑战人类的时代已近尾声，阿尔法狗的“深度学习”代表了计算的未来发展方向。点击图片阅读本周封面文章《“阿尔法狗”开启计算新纪元》并收听全文音频

机器还不能举一反三

随着AlphaGo的算法做出调整，收集更多的数据并从中学习，它会变得越来越强大。但哈萨比斯认为，目前来说，一般机器智能还有很长的路要走。

深度学习算法的模式识别能力已令人惊艳，但计算机仍然缺乏对人类而言理所当然的智力工具。其中一大工具是“转化学习”，这是人工智能研究人员对推理的类比称法。这种能力是把从一个领域里获得的经验教训应用到另一个领域。而像AlphaGo这样的机器并无目标或对自身存在的意识，和一个文字处理器或会计软件并无差别。从这个意义上，它的创造者——人类，还是要全面而强大得多。

欢迎登陆《经济学人·全球商业评论》App，阅读三月刊文章《一决胜负》了解更多