什么是深度学习？

黄昌易 2019-03-18

展开全文

2012年9月，来自多伦多大学的两位AI研究人员Alex Krizhevsky和Ilya Sutskever在ImageNet图像识别比赛上创造了历史。Krizhevsky和Sutskever，以及他们的导师(人工智能先驱Geoffrey Hinton)，他们提交了一种基于深度学习和神经网络的算法，这是一种人工智能技术，由于过去看来的有很多缺点，人工智能社区对此持怀疑态度。

由U of T研究人员开发的深度学习算法AlexNet能够以15.3％的错误率赢得比赛，比第二名高出10.8％。从某些方面来说，这一事件引发了深度学习革命，使许多学术和商业组织对该领域产生了兴趣。

如今，深度学习已经成为我们每天使用的许多应用程序的关键，例如内容推荐系统，翻译应用程序，数字助理，聊天机器人和面部识别系统。深度学习也有助于在医疗保健，教育和自动驾驶汽车等许多特殊领域取得进步。

深度学习的名声也导致了对它是什么以及它能做什么的混淆和模糊。以下是深度学习和神经网络的简要分析它们的优势和局限。

机器学习与经典软件的区别

深度学习是机器学习的一个子集，AI的其中一个领域，它是改变了开发软件的方式。开发软件的经典方式是程序员手动编码规定应用程序的行为，这些经典软件现在也被成为“老式AI”。

经典软件在规则明确的领域中运行良好，并且可以转换为程序流命令，例如if ... else命令。但是，基于规则的系统在诸如计算机视觉等领域中则不太适用，因为计算机视觉领域的软件必须理解从不同角度和不同光照条件下拍摄的照片和视频的内容。

机器学习算法使用不同的数学和统计模型来分析大量数据，并找到有用的模式和相关性。然后，机器学习使用获得的知识进行预测或定义应用程序的行为。

机器学习已经使用了几十年，但其功能在某些领域受到限制，仍然涉及大量劳动密集型手工设计。例如，当在计算机视觉中使用时，开发人员必须进行大量“特征工程”，来使得算法能够从图像中提取不同的特征，然后再应用统计模型(例如逻辑回归或支持向量机SVM)。这个过程非常耗时，需要多名AI工程师和领域专家参与。

什么是深度学习？

经典的机器学习方法涉及许多复杂的步骤，需要数十名领域专家，数学家和程序员的合作

神经网络和深度学习算法的原理

深度学习与其他机器学习和人工智能技术的不同之处在于它涉及的手工设计非常少。深度学习使用神经网络，可以解决大多数机器学习问题，而无需通过您之前的特定领域的特征工程。

当您为神经网络提供一组示例（例如人物图像）时，它可以找到这些图像之间的共同特征。当您将多个神经网络堆叠在一起时，它可以从找到简单的特征（如边缘和轮廓）到更复杂的特征（如眼睛，鼻子，耳朵，面部和身体）。

什么是深度学习？

分层神经网络可以以分层方式从图像中提取不同的特征（来源：www.deeplearningbook.o

在创建深度学习算法时，开发人员和工程师会配置层数和将每层输出连接到下一层输入的函数类型。接下来，他们通过提供大量带注释的示例来训练模型。例如，您给深度学习算法数千个图像，其中包含与每个图像的内容相对应的标签(即内容标注)。

深度学习算法将通过其分层神经网络运行这些示例数据，并调整神经网络的每个层中的变量（或神经元或激活）的权重以便能够检测到定义具有相似标签的图像的常见模式。有许多层也是其被称为“深度”学习的原因。通过足够的训练，神经网络可以自己进行微调，并且能够根据从示例中获得的知识对未标记的图像进行分类判断。

寻找高质量的训练数据是深度学习算法的主要挑战之一。幸运的是，深度学习工程师可以选择许多公开可用的数据集。其中一个例子是ImageNet数据库，它包含20万个标注类别，超过1400万张图片。ImageNet是培训和测试计算机视觉算法的事实标准之一。其他数据集包括CIFAR（另一种通用计算机视觉数据集）和MNIST（一种由数万个手写数字组成的专用数据库）。

有监督，无监督和强化学习

什么是深度学习？

上述过程称为“监督学习”，它是目前开发深度学习算法的主要方式。它被称为监督，因为AI模型被给予一整套问题（例如图像）及其解决方案（例如它们的相关标签或描述），并被指示在输入和输出之间找到正确的映射。监督学习用于诸如计算机视觉和语音识别之类的领域。

无监督学习是另一种深度学习模型，用于解决您拥有大量数据的问题，但是您没有相应的输出来映射它们。在这种情况下，深度学习算法必须仔细阅读训练数据并找到有用的模式，否则这些模式需要大量的人力。

例如，深度学习算法可以获得10年的销售数据，并为您提供有关如何调整商品价格以最大化销售额的销售预测或建议。这些被称为预测性和规范性分析，在许多领域都很有用，例如天气预报和内容推荐。

强化学习，另一种深度学习模式训练，被许多人视为“人工智能的圣杯”。在强化学习中，AI模型提供了问题域的基本规则，并且可以在没有人类监督或数据的情况下自行发展其行为。

强化学习是开发人工智能模型的主要方法之一，这些模型已经掌握了著名的游戏，如国际象棋，围棋，扑克，以及最近的星际争霸II。科学家们还利用强化学习来开发机器人手，教他们自己处理物体，这是人工智能行业面临的严峻挑战之一。尽管强化学习是AI的一个非常令人兴奋的领域，但它也具有非常明显的限制，并且在计算资源方面要求很高。强化学习在实验室中表现非常有趣，但它在现实世界的应用中表现还比较有限。

深度学习在现在成为可能的原因

虽然深度学习在近十年早些时候开始流行，但它并不新鲜。神经网络的概念可以追溯到20世纪50年代，当时第一个神经网络Mark I Perceptron被开发出来。

神经网络也在20世纪80年代和90年代被讨论过，但由于它们的性能有限以及它们的数据和计算能力的需求而最终放弃。当时，创建深度学习模型所需的数据和计算资源不够用，训练深度学习模型需要大量时，使用其他方法在资源需求和结果方面更为现实。

什么是深度学习？

Mark I Perceptron是1957年神经网络的第一个实现（来源：维基百科）

现在，数据和计算都已广泛可用且价格低廉。有大量的GPU和专用硬件可以帮助以非常快的速度训练深度学习模型。PaperSpace和Crestle等云计算服务专门用于深度学习。

深度学习的应用

深度学习目前已进入许多不同领域。以下是深度学习的一些热门应用：

自动驾驶汽车
：为了在没有驾驶员的情况下驾驶，自动驾驶汽车需要能够理解周围环境。深度学习算法从安装在汽车周围的摄像机摄取视频信号，并检测路牌，交通信号灯，其他汽车和行人。深度学习是无人驾驶汽车的主要组成部分之一（但不是唯一的）。
面部识别
：面部识别目前用于许多不同的领域，例如解锁iPhone，付款和查找罪犯。以前的技术迭代需要大量的手动工作，并且不太可靠。通过深度学习，面部识别系统仅需要查看一个人的几个图像，并且能够以实时和准确的方式实时检测该人的面部照片和视频。基于人工智能的面部识别目前处于道德辩论的中心，因为它具有潜在的险恶用途。
语音识别和转录
：训练有素的深度学习模型可以将音频流转换为书面文本，并且比以前的任何转录技术都更加准确。深度学习使智能扬声器能够解析用户提供的语音命令。除了抄写文本之外，深度学习还可以帮助区分不同人的声音并确定谁在说话。
机器翻译
：在深度学习之前，自动翻译系统的质量非常有限，并且很难开发，需要为每种语言对单独进行。近年来，谷歌等科技巨头一直在使用深度学习来提高机器翻译系统的质量。深度学习对人类语言的理解是有限的，但它在简单的翻译中表现得非常好。
医学成像
：深度学习模型可以帮助医生自动化分析X射线和MRI扫描，发现症状和诊断疾病的过程。深度学习不会取代放射科医师，但肯定会帮助他们在工作中变得更好。

深度学习的局限

什么是深度学习？

由引脚和线创建的神经网络

深度学习解决了许多以前被认为是计算机禁区的问题，但深度学习的成就也导致了许多错误的解释和对其能力的过高期望。虽然深度学习是一项非常令人兴奋的技术，但它也有明显的限制。

优步人工智能的前负责人、纽约大学教授加里·马库斯，在他的深度论文《深度学习：批判性评价》中，详细介绍了深度学习的局限性和挑战，总结为以下几点。：

深度学习需要大量数据
。与人类不同，他们可以根据有限和不完整的数据学习概念并做出可靠的决策，深度学习模型通常只能与他们接受培训的数据的质量和数量一样好。这在标注数据不可用的领域中构成限制。
深度学习模型很浅
：深度学习和神经网络在训练之外的领域应用知识的能力非常有限，并且当他们在训练过的狭窄领域之外使用时，他们可能以惊人和危险的方式失败。
深度学习是不透明的
：与其他机器学习模型不同，深度学习涉及非常少的自上而下的人类设计。它们也非常复杂，涉及数千和数百万个参数。这使得很难解释他们的输出和他们决定背后的原因。由于它们的不透明性，神经网络被描述为黑盒子。这个问题引发了一系列努力和研究，以创建可解释的人工智能。

深度学习和神经网络通常与人类智能进行比较。但是，虽然深度学习可以执行一些与人类相同或更好的复杂任务，但它的工作方式与人类思维有着根本不同。它在常识和抽象决策中特别受到限制。

深度学习的威胁

深度学习是一个非常强大的工具。但与其他所有有效技术一样，它也有自己的缺陷。

深度学习模型容易出现算法偏差，因为它从训练数据中得出其行为。这意味着嵌入在训练样例中的任何隐藏或明显的偏差也将进入深度学习算法所做的决策。

在过去几年中，有几个案例发现深度学习模式歧视特定人群。例如，去年10月，亚马逊不得不关闭AI招聘工具，因为它对女性申请人有偏见。

在错误的人手中，深度学习可以服务于非常邪恶的目的。随着深度学习在创建自然的图像和声音方面变得越来越有效，人们担心该技术可能会被用于创建一种新的基于AI的伪造犯罪。去年，关于FakeApp的争议很多，FakeApp是一个使用深度学习来交换视频中人物面孔的视频应用程序。有人用该应用程序将名人和政客的面孔置于色情视频中。

深度学习的另一个威胁是对抗性攻击。由于它们的创建方式，深度学习算法可以以意想不到的方式运行 - 或者至少以对我们人类来说似乎不合逻辑的方式运行。鉴于神经网络的不透明性，很难找到它们包含的所有逻辑错误。

专家和研究人员一再表明，这些失败可能会变成对抗性攻击－－恶意行为者强迫深层学习算法表现出危险的行为。例如，研究人员能够通过在停车标志上粘贴几个彩色贴纸来欺骗自动驾驶汽车的视觉算法。对于人类来说，它仍然看起来像一个停止标志，但无人驾驶汽车会完全错过并可能造成危险的情况。