麦肯锡报告：数据驱动世界中的竞争力之深度学习篇

快读书馆 2016-12-23

展开全文

　下一波浪潮：深度学习

　　为了对这场变革有一个深入的理解，我们通过两种方式调查机器学习带来的潜在影响。首先，我们调查了 12 个不同的行业，了解机器学习能解决这些行业里的那些问题。第二，我们调查了目前由人类来掌控的工作活动中，哪些可以利用机器学习实现自动化，以及各行业之间的自动化情况。

　　机器学习最适合解决什么问题？

　　机器学习包括许多在大量复杂的数据中识别模式和关联性的算法或技术。例如回归、支持向量机、k均值聚类等技术已经被使用了好几十年。其他一些技术是从前出现，但现在才开始变得可行的，这是由于现在能得到前所未有的巨大数据量以及强大的计算能力。后者被称为人工“神经网络”，启发自人脑神经元的连接。

　　强化学习是另一种机器学习技术，用于识别为了达到特定的目标，现在应该采取的最佳行动。这类型的问题在游戏中很常见，而且也可用于解决动态优化和控制理论问题。使用深度神经网络（“深度强化学习”）的强化学习算法在围棋、象棋等策略游戏中取得了突破。

　　为了学习，所有的机器学习算法都需要大量的训练数据（“经验”）。这些算法识别训练数据中的模式（pattern）以开发用数据描述的有关世界的“模型”（model）。强化学习与其他技术的不同之处在于，训练数据不是喂给算法，而是通过交互以及来自环境的反馈实时生成。但不管哪种情况，随着新的训练数据进入，算法能够改进，模型能得到调整。这个过程尤其适合解决以下三类问题：分类，预测/预估，以及生成问题。

　　图：机器学习能够解决分类、预测以及生成的问题

　　首先，分类问题涉及对世界的观察，例如识别图像和视频中的物体，识别语音或文本，等等。分类问题也跟在数据中寻找关联性，或根据关联性将数据分割成不同的聚类，例如客户细分问题。其次，机器学习也可用于预测事件，或预测出现某种结果的可能性。最后，机器学习可以用于生成内容，例如插入丢失的数据，生成视频序列中的下一帧，等等。

　　图：机器学习的最佳商业机遇在哪？

　　结合传统的优化和统计学方法，机器学习能在多种条件下应用。

　　在访问了近 50 名行业专家后，我们发现了 12 个行业的 300 多个特定使用案例。关于机遇的大小，我们将该列表删减到了每个行业的十大应用案例。然后，我们对来自不同行业的 600 多位专家进行了更广泛的调查，以确定他们在哪些领域看到了创造价值的最大潜力。这项调查的结果表明，机器学习中商业上的应用机会十分广泛。当我们要求专家对其行业中的个别用例进行排名时，有 120 个使用案例中的被至少一个行业专家命名为其行业中最有价值的三个之一。

　　然而，机会大小只是一部分。如上所述，机器学习算法需要大量的数据以进行训练、产生效果。例如，改善招聘匹配度对于创造更有效的劳动力市场将具有巨大的价值 - 机器学习技术非常适合进行更准确的匹配。但是，关于候选人的数据的数量和丰富性非常有限。典型的个人在劳动力市场上的互动比他们在社交媒体上或在网上购物的过程中的互动少得多。劳动力市场中机器学习的潜力可能受到这个因素的限制。

上图展示了 12 个行业中的前 120 名的使用案例。y 轴展现了可用数据的数量，x轴代表潜在的影响。圆圈的大小代表了可用数据资源的多样性。

　　深度学习具有大幅扩展自动化范围的潜力

　　我们调查了机器学习在各种工作任务中的表现水平，以及成功地自动化完成工作任务所需的 18 种能力。

　　图：在 18 种能力中，有 7 种是深度学习表现得非常好的。（橙色字）

　　社交：社交和情绪感知

　　认知：理解自然语言；生成自然语言；识别已知模式/类别（监督学习）；生成新的模式/类别；优化与规划。

　　物理：感官知觉

图：自然语言理解与生成，以及社交感知方面的进步将对扩大深度学习的自动化工作任务的范围产生最大的影响

　　如上图所示，这 7 种能力非常适合使用机器学习来实现。第一个显著的发现是，几乎所有活动都或多或少要求与机器学习相关的能力。例如，经济活动中的大多数工作任务都要求自然语言生成、自然语言理解，以及感官知觉能力（分别占所有详细工作任务的 79％，76％和 59％）。这并不是说这个比例的工作任务很快由自动化代替，但这确实强调了机器学习在各种工作场合的广泛适用性。

　　其中一些能力，当前的技术已经能使自动化工作有非常高的质量。例如，机器学习进行模式识别任务的能力已经超过了人类的平均水平。在媒体领域，人工智能机器人已经能生成简单的体育新闻。自然语言理解能力的进步将会在更多领域扩大 AI 的用途。

　　图通过提升深度学习能力可能会影响到薪资水平的工作分组前 20

　　蓝色：生成新的模型

　　墨绿色：自然语言处理

　　紫色：传感器感知

　　红色：社交和情感感知

　　图：通过提升深度学习水平能带来薪资水平增长的前 10 种工作

　　其中，自然语言处理的价值最被看好。

　　总结

　　虽然机器学习特别是深度学习的潜力，令人兴奋，具有广泛的影响性。但是关于它们的发展和潜在部署却引起了一些非常实际的担忧。其中一些甚至在大数据时代之前就存在，例如隐私，数据安全和数据所有权。另外，当下又出现了一系列新的挑战。

　　首先，深层学习有一个缺点，阻碍了在某些应用中的采纳。那就是，深度学习生成的模型是不透明的。到今天为止，要理解深度神经网络所做的洞察和结论是相对困难的，这仍然是一个“黑盒子”。然而，研究人员正在努力通过取证来创建透明的系统，帮助人们了解这些高度复杂的，经过训练的模型得出的结论。他们做的是基于数千或数百万的连接和“赋权”。例如，在 AlphaGo 战胜围棋世界冠军李世石之后，构建该系统的研究人员能够发现在做出某些动作时，AlphaGo 在什么“思考”。不过，这仍然是一个挑战，当一个模型背后的机制不被人理解时，在某些情况下可能会很难完成任务。

　　因为法律原因，一些决定（如雇用和发放贷款）需要透明。在深度神经网络中，试图运行实验或调整变量可能是一个难题。例如，谷歌一直到最近才在搜索中使用深度学习，正是这一原因。还有信任的问题：决策者和客户可能难以信任以不透明的方式得到的洞察，特别是当那些洞察是违反直觉的。医疗用例可以属于这一类。这不是说，模型不透明将永远是深层神经网络的问题，但现在，必须指出，它可能是在某些使用情况下采用这一技术的障碍。

　　第二，有关机器智能的伦理问题。由机器超级智能控制人类的反乌托邦情节长期以来一直是科学小说中的东西，但也有很多需要当下即刻解决的问题。

　　关于伦理问题，其中一个与现实世界的偏见有关。由于现实世界存在种族主义，性别歧视和许多其他方式的偏见，被喂给算法的现实世界数据也可能会具有这些特征，当机器学习算法从有偏差的训练数据学习时，它们就会学习到这些偏见，进而加剧这些问题。

　　一个关注点是，哪一种伦理准则应该被写入智能决策的代码中，谁对算法的结论负责。这些问题最近随着无人驾驶汽车进入公共视野。还有一些关于智能自动化如何改变人类交流的本质的问题。人工智能专家通过 OpenAI 等工作开始提出这些问题。商业领袖，决策者和思想领袖希望能塑造话语权。

　　第三，由深度学习引发的对劳动力的潜在风险现在成了争论中的一个关键话题，尤其考虑到现有工作岗位的数量和质量都令人焦虑。部门的大转变、工作性质的变化等并非没有历史先例。以美国为例，农业的就业人员在 1900 年的占总劳动人口的 40%，到 2000 年下降到2%；类似地，制造业的就业人口从 1950 年的 25% 降到 2010 年的不足 10%。两种情况都是，虽然一些工作岗位消失了，但同时也创造了一些工作类型。1950 年的时候，几乎没人会预测到接下来的几十年里会有数百万人从事信息技术工作。当然，处理失业、再培训这些问题需要政府、私营企业、教育和培训机构间的合作努力。