分享

干货 | 揭开AI的神秘面纱:机器学习和深度学习

 宋洋sy 2020-05-13
深度学习、机器学习、人工智能 – 所有这些都代表了未来。在这篇文章中,我们将用一些真实的例子来解释什么是机器学习和深度学习。这样做的目的不是把你变成一个数据科学家,而是让你更好地了解你可以通过机器学习做什么。
开发人员越来越了解机器学习,数据科学家与域专家、架构师、开发人员和数据工程师合作,因此每个人都必须很好地了解这些可能性。企业生成的每条信息都有增加价值的潜力。这个职位和未来的帖子旨在促使您审查自己的数据,以确定新的机会。

什么是人工智能?

在整个 AI 历史发展中,一直在重新定义AI。AI 是一个总括术语(这个想法始于 50 年代);机器学习是 AI 的子集,深度学习是机器学习的子集。

数据分析在过去 10 年中发生了怎样的变化?

数据分析技术在过去十年中发生了巨大变化,通过服务器、流分析和改进的机器学习技术,通过更强大、更便宜的分布式计算,使公司能够存储和分析更多的数据以及许多不同类型的数据。
传统上,数据存储在 RAID 系统上,发送到多核服务器进行处理,然后发回存储,这造成了数据传输的瓶颈,而且成本高昂。使用MapR-XD和 MapR-DB 等文件和表存储,数据分布在群集中,而 Hadoop 技术(如 MapReduce、Pig 和 Hive)将计算任务发送到数据所在的位置。
Apache Spark等技术通过跨迭代缓存内存中的数据并使用较轻的线程,通过迭代算法加快分布式数据的并行处理。
MapR (号称下一代Hadoop)是一种用于大规模流式传输事件数据的新型分布式消息传递系统,与 Apache Spark 流或 Apache Flink 等流处理相结合,加快了使用机器学习模型并行处理实时事件的速度。
图形处理单元 (GPU) 加快了多核服务器的并行处理速度。GPU 具有大量并行架构,由数千个更小、更高效的内核组成,专为同时处理多个任务而设计,而 CPU 由几个针对顺序串行处理优化的内核组成。就潜在性能而言,从Cray-1到今天的集群,拥有大量GPU的,大约是地球上速度最快的计算机的一百万倍,成本却很低。

什么是机器学习?

机器学习使用算法来查找数据中的模式,然后使用识别这些模式的模型对新数据进行预测。
通常,机器学习可以分为两种类型:监督学习、无监督学习。监督学习算法使用标记的数据,无监督学习算法在未标记的数据中查找特征。半监督学习使用标记和未标记数据的混合。强化学习训练算法,根据反馈最大化奖励。

监督学习

监督学习的算法使用标记的数据,其中输入结果和目标结果或标签都提供给算法。
监督学习也称为预测建模或预测分析,因为您构建了能够进行预测的模型。预测建模的一些示例是分类和回归。分类根据已知项目(例如已知交易或欺诈)的标签,确定项目属于哪个类别(例如,交易是否属于欺诈)。逻辑回归预测概率-例如,欺诈的可能性。
分类的一些示例包括:
  • 信用卡欺诈检测
  • 信用卡应用程序
  • 电子邮件垃圾邮件检测
  • 文本情绪分析
  • 预测患者风险
  • 将肿瘤分类为恶性肿瘤或不分类。
逻辑回归(或其他算法)的一些示例包括:
  • 鉴于历史汽车保险欺诈性索赔和索赔的特征,如索赔年龄、索赔金额和事故的严重程度,可以预测欺诈的可能性。
  • 给定患者特征,预测充血性心力衰竭的概率。
线性回归的一些示例包括:
  • 鉴于历史汽车保险欺诈性索赔和索赔的特征,如索赔人的年龄、索赔金额和事故的严重程度,可以预测欺诈金额。
  • 鉴于历史房地产销售价格和房屋的特点(即平方英尺,卧室数量,位置),预测一个房子的价格。
  • 给定历史邻里犯罪统计数据,预测犯罪率。
下面还显示了其他受监督和无监督的学习算法,我们不会讨论这些算法,但我们会更详细地查看每个算法的一个示例。

分类示例:信用卡诈骗

分类模型采用一组已标记数据,并了解如何根据这些信息标记新记录。
  • 我们要预测什么?
    • 借记卡交易是否欺诈。
    • 欺诈是标签(真或假)。
  • 可用于进行预测的'如果'问题或属性是什么?
    • 今天花费的金额是否为历史平均值?
    • 今天有多个国家/地区有交易吗?
    • 今天的交易数量是历史平均值吗?
    • 与过去三个月相比,如今的新商户类型数量仍然很高吗?
    • 如今,是否有具有类别风险代码的商家多次购买?
    • 与使用 PIN 相比,如今是否有异常的签名活动?
    • 与过去三个月相比,是否有新的州购买?
    • 与过去三个月相比,今天是否有外国采购?
要生成分类器模型,可以提取对分类贡献最大的感兴趣功能。

决策树

决策树创建一个模型,该模型基于多个输入要素预测类或标签。决策树的工作方式是,评估每个节点包含要素的问题,并根据答案选择下一个节点的分支。预测信用卡欺诈的可能决策树如下所示。功能问题是节点,答案'是'或'否'是树中对子节点的分支。(请注意,真正的树将具有更多的节点。
  • 问题 1:平均花费在 24 小时内是否为 24 小时?
    • 是的
  • 问题 2:今天是否有来自风险商户的多次购买?
    • 是 欺诈 = 90%
    • 不欺诈 = 50%
决策树之所以受欢迎,是因为它们易于可视化和解释。通过将算法与组合方法相结合,可以提高模型的准确性。集合示例是一个随机林,它结合了决策树的多个随机子集。

无监督学习

无监督学习(有时也称为描述性分析)不提供已经标记过的标签数据。这些算法发现输入数据的相似性或规律性已提取特征值。无监督学习的一个应用场景是根据购买数据对类似的客户进行分组。

聚 类

在聚类算法中,算法通过分析输入示例之间的相似性将输入分类为类别。某些群集用例包括:
  • 搜索结果分组。
  • 对类似的客户进行分组。
  • 对类似的患者进行分组。
  • 文本分类。
  • 网络安全异常检测(查找不相似的内容,群集中的异常值)。
K-均值算法将观测值分组到 K 聚类中,其中每个观测值都属于具有与其聚类中心最近的平均值的群集。
K-均值算法的一个应用场景是希望细分其客户的公司,以便更好地定制产品和产品。客户可以分组在人口统计和购买历史记录等功能上。与无监督学习进行聚类通常与监督学习相结合,以获得更有价值的结果。例如,在此银行客户 360场景中,客户首先根据调查的答案进行细分。对客户组进行分析,并贴上客户角色标签。然后,这些标签由客户 ID 与帐户类型和购买等功能链接。最后,对受监管的机器学习进行了应用和测试,并针对贴标签的客户进行了测试,从而允许将调查客户角色与其银行行为联系起来并提供见解。

深度学习

深度学习是多层神经网络的名称,神经网络是由输入和输出之间的节点的多个'隐藏层'组成的网络。神经网络有许多变化,您可以在此神经网络备忘单上了解有关这些变体。改进的算法、GPU 和大规模并行处理 (MPP) 催生了具有数千个层的网络。每个节点获取输入数据和权重,并将置信度分数输出到下一层中的节点,直到达到计算分数误差的输出层。在称为梯度下降的过程内反向传播时,错误将再次通过网络发送回来,并调整权重以改进模型。此过程重复数千次,调整模型的权重以响应它产生的错误,直到错误无法再减少。
在此过程中,layers 了解模型的最佳特征,其优点是不需要预先确定要素。但是,这样做的缺点是模型的决策无法解释。因为解释这些决定可能很重要,研究人员正在开发新的方法来理解深度学习的黑匣子。
深度学习算法有不同的变体,可用于 MapR 的分布式深度学习快速入门解决方案,以构建数据驱动应用程序,如下所示:
  • 深度神经网络,用于改进传统算法。
    • 财务:通过识别更复杂的模式来加强欺诈检测。
    • 制造:基于更深的异常检测加强缺陷识别。
  • 图像的卷积神经网络。
    • 零售:店内活动分析视频以测量流量。
    • 卫星图像:标记地形和分类对象。
    • 汽车:识别道路和障碍。
    • 医疗保健:X光检查、扫描等诊断机会
    • 保险:根据照片估计索赔的严重程度。
  • 序列数据的循环神经网络。
    • 客户满意度:将语音数据转录到文本进行 NLP 分析。
    • 社交媒体:社交和产品论坛帖子的实时翻译。
    • 照片说明:搜索图像的存档以寻找新的见解。
    • 财务:通过时间序列分析(还增强的建议系统)预测行为。

来源:IOT新鲜事

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多