Yann LeCun 会成为下一个居里夫人吗？

乌拉盖tbg18ngc 2020-04-03

展开全文

作者 | Florian Douetteau

译者 | 香槟超新星

出品 | CSDN（ID：CSDNnews）

一段平行历史——历史上的先例

在过去的几年中，深度学习的热度持续升级，并且也取得了一些实质性的成功。但这是否真的能说明在未来几年内AI会呈指数级增长？

未来学家罗伊·阿玛拉（Roy Amara）提出的阿玛拉定律（Amara’s law）指出：

“人们总是会高估一项科技带来的短期效益，却低估它的长期影响。”

想要了解未来会发生什么，我们不仅需要弄清楚自己在深度学习之路上发展到什么程度了，更要看人工智能领域的整体情况。

Gartner炒作周期曲线

“Gartner炒作曲线”能在某种程度上预测未来五到十年内企业对于某种技术的采用率。但目前尚不清楚这个模型是否适用于AI行业——AI不仅是“另一种企业级技术而已”，而本身就是一个科学领域，所以它的周期更倾向于在50到100年的范围内。

看待AI的一种合适的眼光是，不再把AI看成一个能让我们无休止地发明新技术的领域，而更多地将其视为一项发现，而人类正在慢慢地（且非常经验主义地）逐步在其中发掘自我学习系统的行为模式。

在这一点上，我们可以将AI比作以前的科学发现，尤其是那些与复杂系统有关的发现：太阳系，进化论，电力的发现等……而且为什么不能比作原子的发现呢？

在这个寻找先例的历史小课堂中，我将尽力回答的首要问题是：人工智能会在哪里发展？它现在已经相当先进，接近成熟了吗？还是说仍处于婴儿时期？30年后，当我们的后代们回顾我们现在这个历史时期的时候，是否会觉得在我们有限的技术工具前提下，在AI方面做的实验已经很了不起了？或者也许会觉得有点天真，或者危险？又或者换种说法：Yann Le Cun会是新时代的理查德·费曼（Richard Feymann），或者居里夫人（Marie Curie）吗？又或者是两者兼而有之？

核物理简史

放射现象是贝克勒尔（Becquerel）于1897年发现的。这一发现本身有相当大的偶然性——贝克勒尔最初研究的是铀盐的磷光现象及其在光下发出X射线的能力。但他很快发现，铀不需要外部能源的参与即可发出X射线。

居里夫人（Marie Curie）接手了他的研究，并更加细致地对放射性进行研究，取得了一系列成果，其中就包括在铀之外还分离出了其他天然放射性化合物。

对放射现象的发现引发了公众的热情。我们发现了一种能神奇地发射出一种新光束的新物质：X射线。它能赋予你“超能力”！（请注意，这是漫画出现之前的时代，因此当时实际使用的词汇并不是“超能力”）。

同时，放射性是一种需要通过针对理论和原子本质的研究来解释的新现象。爱因斯坦在1905年提出了著名的质能方程，几年后，卢瑟福用电子轰击金属板（通常是金）并研究了碰撞轨迹，从而建立了原子的第一个模型（有一个原子核且电子绕轨道而行）。

我们应该注意到，科学界有整整十五年之久都缺乏一个好的模型来描述原子究竟是什么——而那时中子仍未被发现。

“自旋”模型目前仍然是我们对原子结构和强大核力量的现代观点，这两项假说也仅仅是分别在1929年和1935年才被提出而已。

在继续这一理论进步的同时，工程和化学的发展也使放射性化合物的精度提高，并促进了它们的实际（有益的）运用。1939年，使用同位素进行的第一例癌症疗法成功了。1942年第一座研究型核反应堆问世，促成了1956年第一座大型核电站的落成。

人工神经网络：起始

神经网络已经挺老的了……很老很老。它发源于那种，连伍德斯托克音乐节都还没出现的古老年代。它最初的目的是编写一种算法，用来模仿神经突触的行为（他们觉得可以模仿）。1957年第一个感知器（perceptron）产生，1965年第一个多层感知器产生。

在60年代神经网络的概念刚刚萌生时，计算机运行还非常缓慢，因此即使非常简单的网络可能也需要花费数天来训练。基本上来说，神经网络没有其他技术有效，因此在随后的几十年中，它们并没有被大量投入使用。

但这并没有阻挡人们测试和思考它的性能。Werbos于1974年发现了反向传播（back-propagation），这是神经网络领域的第一个突破。反向传播使用了神经网络操作具有差异性（differiable）和可投资性（investible）这一思想，因此当网络出错时，你就可以将错误本身回溯到网络的各个层，以帮助其自我纠正了。

反向传播标志着人工神经网络与生物神经元分道扬镳——因为对于生物神经元来说反向传播的存在是不合理的（Yoshua Bengio等人的论文对此进行了介绍）——而从某种意义上讲，这就标志着今天我们所谓的深度学习的开端。

几年后，Kunihiko Fukushima推出了Neocognitron。这项工作的灵感来自于对视觉皮层中感知细胞的研究。这引入了我们今天所说的卷积网络（CNN）。

由于缺失能实际应用此类技术的土壤，加之在（已训练好的）数据和算力方面的缺乏，深度学习（以及广义的AI）消失了好几年。深度学习一直在等待着现代GPU（以及Google）的出现。

Yann Le Cun＆Al：一束光

Yann Le Cun将反向传播和CNN应用于对信件上邮政编码的识别上，并进行邮件路由，这成为了AI寒冬里的第一束曙光。重要的是：它好用，并且可以应用于实际！但是，要使深度学习真正成为主流，还需要再等起码20年左右的时间。

CSDN 下载自

三个G：Google，GAN和GPU

2014年，在一个酒吧里，伊恩·古德费洛（Ian Goodfellow）与一些在蒙特利尔大学的同事进行了一场激烈的争论。他们讨论的是自动生成逼真图像的可能性，以及如何教会教神经网络这样做。伊恩一边喝啤酒一边产生的疯狂想法是，让两个神经网络相互“打架”，让其中一个神经网络负责生成图像，而另一个负责“训练”第一个神经网络。

他的朋友们（激烈而又有些生气地）驳回了他的观点。他们认为，这永远都不可能work的，因为这就像“不使用材料地去训练”一样——不管怎么说，你无法从“虚无”中生成一个神经网络。

（想象一下这个画面：一个世纪以前，一些物理学家可能也曾在某个巴黎的酒吧里有过类似关于放射现象的激烈争论，争辩说能量不能从“虚无”中产生。）

从某种意义上说，我们尚不清楚为何生成对抗网络（GAN）（Goodfellow的“打架”神经网络在现代的称呼）会work。让两个神经网络并行运行（与让一个大型神经网络同时执行两个任务相较而言）会是一个好主意的理论原因尚不明确，仍然有待辩论，研究和争议。

GAN是近几年出现的一种机器学习技术的例子，但还有很多其他技术：

善于探索和好奇心的机器学习（Learning with exploration and curiosity）。机器学习方面的问题是，从本质上讲，人工智能系统倾向于不去探索太多的可能性，因此不会去学习新的东西。诸如随机网络精馏（Random Network Distillation）之类的新技术通过激励网络探索（用另一个网络）“难以预测”的情况来弥补这一点。这挺厉害的，而且能work（但不清楚为什么）。
深度双Q学习（Deep Double Q-Learning ，DDQN），其中深度学习网络尝试学习一项策略（例如打Atari Pong）。在双重网络的前提下，每个网络分别评估特定步骤是否明智，然后两个网络互连结果。因为如果只有一个“大脑”，你往往会过于乐观（这是我更好的那一半头脑告诉我的）。
YOLO（You Look Only Once）对象检测算法，以一种奇怪的方式检测图像中的物体。这个算法不是检测对象的边界然后尽力识别每个对象，而是“只”尽力对给定的固定网格中的物体的部分进行分类。YOLO是第一个能以视频（> 40帧/秒）速度实现一般对象识别的算法。

当你回头看围绕着基本神经元产生的各种想法（例如反向传播，CNN，GAN，RNN，LTSM等）时，会产生很想将之与原子的发现进行类比的冲动。我们研究化学概念，尝试以不同的方式将它们组合、重组，然后将它们上传到我们的GPU上，等待着看它们是否会在夜里发光。

未来会变成什么样？

让我们想象一下20或30年后AI会是什么样子。也许我们那时已经建成了某种形式的通用AI，也许还没有。事实是，这个问题的广度远远不是这篇简单的博文能够涵盖的。

但是，让我们试着立足于过去的科学发现做一些假设，并搞明白要真正实现AI领域的重大进步都需要什么：

我们需要更多理论。当前我们的AI心理地图就类似于缺失了自旋和中子的原子核模型。也许将来的研究会建立一种适用的学习理论，其中将包含驱动因素（例如好奇心，泛化），并将这些概念整合到“什么是可以被学习的”的理论中。
我们需要更多的工程量，而工程领域则需要可重用的组件。如果没有零件和工具的广泛和重复使用，就不可能建立核工业，比如先从静电计这种简单的东西开始。在深度学习中，嵌入和可重用表示正在成为一种趋势，但距离超级容易使用的程度还差得远（值得注意的是，训练，共享，重用等仍然很困难）。就好像我们缺少管道和橡胶，缺少能让我们更自动地接入，重新接入神经网络的东西，这会是个难题。会很不容易。但是，请想象一下在未来的某个时刻，神经网络将学习如何理解语音，什么是“好”的概念，颜色情感联想，常见的审美观，以及对人体形状的喜好，颜色和谐度等。现在来想象一个实际的应用，在其中你可以把所有这些学到的知识都结合起来，建立一个服装购物助手。
我们需要一个能通向现实生活的连接。放射性的工程部分的挑战性在于如何使其以受控制的方式起作用，让人们不仅能获得X射线，而且能获得实用的，受控制的电力。而对于AI而言，对应的挑战是如何实现对现实生活元素的规范描述。人工智能主要在数字世界中运作，而非现实世界，而这对它在现实生活中的某些应用设置了障碍。当你建立特定领域的AI（例如汽车）时，传感器，相机和精心设计的人机界面能够搭建现实世界和虚拟世界之间的桥梁。但这会导致概念上复杂的系统受到一些限制，例如制造过程（无论该过程是什么，不管是制造汉堡包还是制造汽车都一样）。该制造过程本身无法以数字或逻辑形式呈现，因此在这个过程中简单地应用AI是不可能的。一些新概念出现了，例如“工厂数字孪生子”，为工厂创建一个虚拟孪生的孪生兄弟，AI可以在它上面运行，以提供有关优化的见解。将来，你可以想象到大多数业务流程（以及支持它们的软件）都将自带一些“ AI界面”，用来描述流程或软件的工作方式，以便AI可以理解这些流程，并运作其上。
我们需要硬件。放射现象的发现发生在一个做出静电计都能算得上重大科学进展的时代（其实这是玛丽居里夫人的丈夫，皮埃尔·居里所做的事情）。AI能够在当前的硬件（包括GPU和TPU）上发展吗，还是说，我们需要一种新型的硬件（基于量子或相关的硬件）才能实现AI的发展？

想象一下，如果上述的“预测”中有任意两条以上成为现实，30年后的AI专家们将如何看待我们？他们可能会想：“他们在不了解神经网络运行原理的前提下就将多个神经网络连接在一起了”，“他们每个项目都是从零开始的！可真烦！”，“因为他们在大多数事情上都没有数字形式主义，所以他们就像在一个虚假的世界中操作一样，并试图以一种奇怪的方式将结果输入真实世界”，“该死，他们没有真正的硬件。我搞不懂他们是怎么用这么少的算力完成工作的！而且我觉得这位著名的科学家甚至还搭建出了自己的计算机！”，或“这很有趣，他们那时候在尝试为学习图的不同变体申请专利！居然是直接写在纸上的，你能想象得到吗？”。

所以，是的，当他们回顾21世纪初的深度学习研究时，可能会觉得既钦佩又惊讶。而也许，Yann Le Cun真的会是新时代的居里夫人吧。

原文链接：

https:///ai-musings/is-yann-le-cun-the-new-marie-curie-52538f87237c

本文为 CSDN 翻译，转载请注明来源出处。