分享

人工智能及机器学习与深度学习揭秘

 快读书馆 2018-02-22

21CTO社区导读:本文向各位开发者全面揭示人工智能,关于机器学习、监督学习、无监督学习、分类、决策树、聚类、深度学习等相关算法。



深度学习、机器学习、人工智能,这些代表着未来技术的流行语。在本文中,我们将通过一些真实案例讨论机器学习和高阶的深度学习。在21世纪技术官社区未来的文章中,我们会持续探讨垂直行业人工智能的应用。


当然,本文的目的并不是让你成为数据科学家,而是让你更好的理解用机器学习都做什么。


机器学习越来越被开发者所接受,数据科学家与相关领域专家,架构师,开发者和数据工程师一起愉快的协同工作。所以,我们每个人都需要对未来有一个清晰的理解。


互联网产品所产生的每一条数据都会给业务增加价值。我们主要的目标就是自己要认真的进行数据审查,以确定未来的新机会他挑战。



什么是人工智能?


在整个人工智能(AI)的历史中,其概念也在一直不断重新定义。人工智能是一个整体的概念(AI 技术始于50年代);机器学习ML是AI的子集,而深度学习是机器学习ML的子集。


1985年,我在美国国家安全局当实习生,那时人工智能已是一个热门话题。在国家安全局,我甚至还参加了麻省理工学院专家系统中关于人工智能的视频课程。系统在规则引擎中用于捕捉专家的知识,里面的规则引擎后来被广泛用于金融和医疗保健等行业,最近也用于突发事件处理。但是当数据发生变化时,规则却比较难以更新维护。


机器学习可以从数据中学习,并且根据数据驱动的概率预测,这是它的优点。




根据 Ted Dunning 先生的建议,我们最好使用精确术语。如机器学习或深度学习,而不是用概念用语“人工智能”或“AI”。我们在将某些工作完成前,可以称为AI。之后就应该称为别的精确东西。


如何分析过去10年中的变化趋势?


根据 HBR 的 Thomas Davenport 的说法,分析技术在近十年来发生了大变化。包括商用服务器、流式分析以及增强机器学习技术、分布式计算等功能越来越强大,而且成本更低。


在存储层面能够存储和分析更多不同类型的数据。传统做法,数据存储在RAID系统里,然后发送到多核服务器进行处理,然后再传回存储器,这样会造成数据传输的瓶颈,并且代价昂贵。通过像MapR-XD和MapR-DB这样的文件与表格存储,数据分布在一个集群中,像MapReduce,Pig和Hive这样的Hadoop技术将计算任务发送到数据所处的位置。





比如 Apache Spark 这样的技术,它通过更新缓存内存中的数据,使用轻量级线程,通过迭代算法加速分布式数据进行并行处理。


MapR Event Streams是一种新的分布式消息通信系统,用于大规模流式事件数据,并结合流处理(如Apache Spark流或Apache Flink)加快使用机器学习模型并行处理实时事件的速度。



最重要的是,图形图像处理器(GPU)加速了多核服务器的并行处理。GPU具有大规模并行架构,由数千个更小,交率更高的内核组成,专为并行多任何而设计。而CPU是由几个顺序串行优化处理的内核组成。就潜在的性能而言,从Cray-1向拥有大量GPU集群的演变是全球最快计算机的一百万倍,而成本变成很小的一部分。



什么是机器学习


机器学习使用算法来查找数据中的模式,然后使用识别这些模式的模型来预测新数据。




机器学习可以分为3类:有监督、无监督以及两者之间的半监督机器学习。


监督学习算法使用标签化数据,无监督学习算法在无标签的数据中查找模式。

半监督学习使用标记和未标记的混合数据。强化学习训练算法根据反馈最大化奖励。





监督机器学习


监督机器学习使用标签型数据,其中输入和目标结果或标签都要提供给算法。




监督机器学习也称为预测建模或预测分析,我们可建立一个能够预测的模型,预测建模的一些例子有分类建模与回归建模。基于已知项目的标签示例(例如,已知的欺诈交易),分类标识项目属于哪个类别(例如交易是不是欺诈)。逻辑回归预测概率,例如欺诈概率。


线性回归预测一个数字值,例如欺诈的数量。



分类的一些实例,列举部分如下:


1 信用卡欺诈预测(是否是欺诈)

2 信用卡申请(信用是否良好)

3 垃圾电子邮件检测(是否是垃圾邮件)

4 预测患者疾病风险(高风险与低风险)

5 恶性肿瘤与良性肿瘤分类


逻辑回归预测的一些实例。比如:


1 基于汽车保险欺诈和索赔特点的历史记录,比如索赔人的年龄,索赔年龄和事故的严重程度,预测是否是欺诈的量。

2 鉴于房地产销售价格和房屋特征(面积,卧室数量,位置),预测房屋出售价格。

3 鉴于邻里犯罪统计数据,预测犯罪率。


另外,还有一些有监督和无监督的机器学习算法。再来看一些算法的的实例。



分类器示例:银行卡欺诈


分类器机器学习筛选具有已知标签和预先确定特征的一组数据,并且根据这些数据标记新记录。即特征是问题的“if”,标签就是这些问题的答案。



我们来看一下机器学习中借记卡欺诈的问题实例:


我们试图预测哪些?


  1)借记卡交易是否有欺诈行为

  2)欺诈的标签(真/假)


可用预测的“if”问题或属性有哪些?


  1)今天消费的金额 > 历史平均值

  2)今天在多个国家有交易吗?

  3)今天的交易数 > 历史平均水平

  4)今天新商户类型的数量是否比过去3个月高?

  5)今天是否有与多个采购风险的商家交易?

  6)与历史使用PIN相比,今天是否有不正常的签名活动?

  7)与过去 3 个月相比,是否有在新的地区购买行为?

  8)与过去 3 个月相比,今天是否有海外采购记录?


要构建分类器模型,需要提取最有助于分类的兴趣特征。


决策树


使用决策树创建模型,要根据多个输入要素来预测类或标签。决策树通过在每个节点上评估包含特征的问题,并根据答案选择到下一个节点的分支来继续工作。


下面展示了预测银行卡欺诈的可能型决策树。问题特征称为节点,答案“Yes”或“No”是树中子节点的分支。(真正的这棵树会有更多的节点)


问题1:24小时消费的金额 > 平均水平?

答案:是


问题2:今天是否从有风险的商家处购买多件商品?

答案:是欺诈 = 90%

     不是欺诈 = 50%




决策树学习模型很受欢迎,因为它们是可视化并容易解释。通过将算法与集成方法相结合,可以提高模型的准确性。一个集合的例子如随机森林,它将决策树的多个随机子集组合在一起。


无监督学习


无监督学习,也被称为描述性分析,即使用没有提前提供标签的数据。这些算法发现输入数据中的相似性或规律性。无监督学习的一个实例是根据购买数据对相似的用户进行分组。




聚类


在聚类学习算法中,算法通过分析装饰示例之间的相似性将输入分类聚合为一个分类。一些聚类用例包括如下场景:


 1)搜索结果分组

 2)分组类似的客户

 3)分组类似的病患者

 4)文本分类

 5)网络安全异常检测(找到与集群异常不相似的东西)



K均值算法将观测结果分成为K个群集,其中每个观测属于聚类中心最近平均值的集群。



我们来说聚类的一个例子。有一家公司要将客户分组以更好的为其定制产品。用户可以按照人口统计和购买历史等选项进行分组。


无监督学习的聚类常常与监督学习相结合,从而能得到更有价值的结果。


例如,在一个银行客户服务360的使用案例中,先根据客户的调查答案进行细分,然后根据客户群体进行分析并打上角色标签。这些标签随后通过客户Id与帐户类型、购买等选项相关联。


最后,有监督的机器学习算法开始应用,与有标签的客户开始学习测试,从而将参与调查的客户与他们在银行的行为联系起来,并开始提供推荐和建议。



深度学习


深度学习也是多层神经网络的别称。它是由输入和输出之间的多个“隐藏层”组成的网络。神经网络有很多个变种和改进的算法。GPU和大规模并行处理(MPP)已经产生了数千层网络。系每个节点获取输入的数据与权重,并向下一层的节点输出置信度分数,直至达到输出层,计算分数的误差。


通过在称为梯度下降的过程中进行反向传播,通过网络再把错误发回,并调整权重以改善模型。该过程重复数千次,调整模型的权重以响应其产生的错误,直到错误不再减少。



在此过程中,各层学习模型的选择最佳特征。深度学习的优点是特征不需要预先确定。但是,也就有模型的决定无解释的缺点。解释决定可能很重要,研究人员正在开发新的方法来理解深度学习的“黑匣子”。


深度学习算法有多种不同的变体,可以与MapR的分布式深度学习快速入门解决方案一起使用,构建数据驱动的应用。请看如下所示:




(1)用于改进传统算法的深度神经网络。

  

  1)金融:通过识别更复杂的模式来增强欺诈检测。

  2)制造:基于更深层的异常检测,增强对缺陷的识别。


(2)用户图像的人工神经网络。


  1)零售:用于衡量视频流量的店内活动分析

  2)卫星图像:标记地形与物体分类

  3)汽车:识别道路和障碍物

  4)医疗保健:从X射线,扫描等方面取得诊断来源

  5)保险:根据照片估算索赔严重性


(3)用于测序数据的递归神经网络


  1)客户满意度:将语音数据转换为文本进行NLP分析

  2)社交媒体:实时翻译社交平台和产品论坛上的帖子

  3)照片索引:搜索图片文件,取得新的隐藏信息

  4)金融:通过时间序列分析预测行为,也是增强的推荐系统


(完)


作者:Carol McDonald

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多