干货 | 揭开AI的神秘面纱：机器学习和深度学习

宋洋sy 2020-05-13

展开全文

深度学习、机器学习、人工智能 – 所有这些都代表了未来。在这篇文章中，我们将用一些真实的例子来解释什么是机器学习和深度学习。这样做的目的不是把你变成一个数据科学家，而是让你更好地了解你可以通过机器学习做什么。

开发人员越来越了解机器学习，数据科学家与域专家、架构师、开发人员和数据工程师合作，因此每个人都必须很好地了解这些可能性。企业生成的每条信息都有增加价值的潜力。这个职位和未来的帖子旨在促使您审查自己的数据，以确定新的机会。

什么是人工智能？

在整个 AI 历史发展中，一直在重新定义AI。AI 是一个总括术语（这个想法始于 50 年代）;机器学习是 AI 的子集，深度学习是机器学习的子集。

数据分析在过去 10 年中发生了怎样的变化？

数据分析技术在过去十年中发生了巨大变化，通过服务器、流分析和改进的机器学习技术，通过更强大、更便宜的分布式计算，使公司能够存储和分析更多的数据以及许多不同类型的数据。

传统上，数据存储在 RAID 系统上，发送到多核服务器进行处理，然后发回存储，这造成了数据传输的瓶颈，而且成本高昂。使用MapR-XD和 MapR-DB 等文件和表存储，数据分布在群集中，而 Hadoop 技术（如 MapReduce、Pig 和 Hive）将计算任务发送到数据所在的位置。

Apache Spark等技术通过跨迭代缓存内存中的数据并使用较轻的线程，通过迭代算法加快分布式数据的并行处理。

MapR （号称下一代Hadoop）是一种用于大规模流式传输事件数据的新型分布式消息传递系统，与 Apache Spark 流或 Apache Flink 等流处理相结合，加快了使用机器学习模型并行处理实时事件的速度。

图形处理单元（GPU）加快了多核服务器的并行处理速度。GPU 具有大量并行架构，由数千个更小、更高效的内核组成，专为同时处理多个任务而设计，而 CPU 由几个针对顺序串行处理优化的内核组成。就潜在性能而言，从Cray-1到今天的集群，拥有大量GPU的，大约是地球上速度最快的计算机的一百万倍，成本却很低。

什么是机器学习？

机器学习使用算法来查找数据中的模式，然后使用识别这些模式的模型对新数据进行预测。

通常，机器学习可以分为两种类型：监督学习、无监督学习。监督学习算法使用标记的数据，无监督学习算法在未标记的数据中查找特征。半监督学习使用标记和未标记数据的混合。强化学习训练算法，根据反馈最大化奖励。

监督学习

监督学习的算法使用标记的数据，其中输入结果和目标结果或标签都提供给算法。

监督学习也称为预测建模或预测分析，因为您构建了能够进行预测的模型。预测建模的一些示例是分类和回归。分类根据已知项目（例如已知交易或欺诈）的标签，确定项目属于哪个类别（例如，交易是否属于欺诈）。逻辑回归预测概率-例如，欺诈的可能性。

分类的一些示例包括：

信用卡欺诈检测
信用卡应用程序
电子邮件垃圾邮件检测
文本情绪分析
预测患者风险
将肿瘤分类为恶性肿瘤或不分类。

逻辑回归（或其他算法）的一些示例包括：

鉴于历史汽车保险欺诈性索赔和索赔的特征，如索赔年龄、索赔金额和事故的严重程度，可以预测欺诈的可能性。
给定患者特征，预测充血性心力衰竭的概率。

线性回归的一些示例包括：

鉴于历史汽车保险欺诈性索赔和索赔的特征，如索赔人的年龄、索赔金额和事故的严重程度，可以预测欺诈金额。
鉴于历史房地产销售价格和房屋的特点（即平方英尺，卧室数量，位置），预测一个房子的价格。
给定历史邻里犯罪统计数据，预测犯罪率。

下面还显示了其他受监督和无监督的学习算法，我们不会讨论这些算法，但我们会更详细地查看每个算法的一个示例。

分类示例：信用卡诈骗

分类模型采用一组已标记数据，并了解如何根据这些信息标记新记录。

我们要预测什么？

借记卡交易是否欺诈。
欺诈是标签（真或假）。

可用于进行预测的'如果'问题或属性是什么？

今天花费的金额是否为历史平均值？
今天有多个国家/地区有交易吗？
今天的交易数量是历史平均值吗？
与过去三个月相比，如今的新商户类型数量仍然很高吗？
如今，是否有具有类别风险代码的商家多次购买？
与使用 PIN 相比，如今是否有异常的签名活动？
与过去三个月相比，是否有新的州购买？
与过去三个月相比，今天是否有外国采购？

要生成分类器模型，可以提取对分类贡献最大的感兴趣功能。

决策树

决策树创建一个模型，该模型基于多个输入要素预测类或标签。决策树的工作方式是，评估每个节点包含要素的问题，并根据答案选择下一个节点的分支。预测信用卡欺诈的可能决策树如下所示。功能问题是节点，答案'是'或'否'是树中对子节点的分支。（请注意，真正的树将具有更多的节点。

问题 1：平均花费在 24 小时内是否为 24 小时？

是的

问题 2：今天是否有来自风险商户的多次购买？

是欺诈 = 90%
不欺诈 = 50%

决策树之所以受欢迎，是因为它们易于可视化和解释。通过将算法与组合方法相结合，可以提高模型的准确性。集合示例是一个随机林，它结合了决策树的多个随机子集。

无监督学习

无监督学习（有时也称为描述性分析）不提供已经标记过的标签数据。这些算法发现输入数据的相似性或规律性已提取特征值。无监督学习的一个应用场景是根据购买数据对类似的客户进行分组。

聚类

在聚类算法中，算法通过分析输入示例之间的相似性将输入分类为类别。某些群集用例包括：

搜索结果分组。
对类似的客户进行分组。
对类似的患者进行分组。
文本分类。
网络安全异常检测（查找不相似的内容，群集中的异常值）。

K-均值算法将观测值分组到 K 聚类中，其中每个观测值都属于具有与其聚类中心最近的平均值的群集。

K-均值算法的一个应用场景是希望细分其客户的公司，以便更好地定制产品和产品。客户可以分组在人口统计和购买历史记录等功能上。与无监督学习进行聚类通常与监督学习相结合，以获得更有价值的结果。例如，在此银行客户 360场景中，客户首先根据调查的答案进行细分。对客户组进行分析，并贴上客户角色标签。然后，这些标签由客户 ID 与帐户类型和购买等功能链接。最后，对受监管的机器学习进行了应用和测试，并针对贴标签的客户进行了测试，从而允许将调查客户角色与其银行行为联系起来并提供见解。

深度学习

深度学习是多层神经网络的名称，神经网络是由输入和输出之间的节点的多个'隐藏层'组成的网络。神经网络有许多变化，您可以在此神经网络备忘单上了解有关这些变体。改进的算法、GPU 和大规模并行处理（MPP）催生了具有数千个层的网络。每个节点获取输入数据和权重，并将置信度分数输出到下一层中的节点，直到达到计算分数误差的输出层。在称为梯度下降的过程内反向传播时，错误将再次通过网络发送回来，并调整权重以改进模型。此过程重复数千次，调整模型的权重以响应它产生的错误，直到错误无法再减少。

在此过程中，layers 了解模型的最佳特征，其优点是不需要预先确定要素。但是，这样做的缺点是模型的决策无法解释。因为解释这些决定可能很重要，研究人员正在开发新的方法来理解深度学习的黑匣子。

深度学习算法有不同的变体，可用于 MapR 的分布式深度学习快速入门解决方案，以构建数据驱动应用程序，如下所示：