人工智能及机器学习与深度学习揭秘

快读书馆 2018-02-22

展开全文

21CTO社区导读：本文向各位开发者全面揭示人工智能，关于机器学习、监督学习、无监督学习、分类、决策树、聚类、深度学习等相关算法。

深度学习、机器学习、人工智能，这些代表着未来技术的流行语。在本文中，我们将通过一些真实案例讨论机器学习和高阶的深度学习。在21世纪技术官社区未来的文章中，我们会持续探讨垂直行业人工智能的应用。

当然，本文的目的并不是让你成为数据科学家，而是让你更好的理解用机器学习都做什么。

机器学习越来越被开发者所接受，数据科学家与相关领域专家，架构师，开发者和数据工程师一起愉快的协同工作。所以，我们每个人都需要对未来有一个清晰的理解。

互联网产品所产生的每一条数据都会给业务增加价值。我们主要的目标就是自己要认真的进行数据审查，以确定未来的新机会他挑战。

什么是人工智能？

在整个人工智能（AI）的历史中，其概念也在一直不断重新定义。人工智能是一个整体的概念（AI 技术始于50年代）；机器学习ML是AI的子集，而深度学习是机器学习ML的子集。

1985年，我在美国国家安全局当实习生，那时人工智能已是一个热门话题。在国家安全局，我甚至还参加了麻省理工学院专家系统中关于人工智能的视频课程。系统在规则引擎中用于捕捉专家的知识，里面的规则引擎后来被广泛用于金融和医疗保健等行业，最近也用于突发事件处理。但是当数据发生变化时，规则却比较难以更新维护。

机器学习可以从数据中学习，并且根据数据驱动的概率预测，这是它的优点。

根据 Ted Dunning 先生的建议，我们最好使用精确术语。如机器学习或深度学习，而不是用概念用语“人工智能”或“AI”。我们在将某些工作完成前，可以称为AI。之后就应该称为别的精确东西。

如何分析过去10年中的变化趋势？

根据 HBR 的 Thomas Davenport 的说法，分析技术在近十年来发生了大变化。包括商用服务器、流式分析以及增强机器学习技术、分布式计算等功能越来越强大，而且成本更低。

在存储层面能够存储和分析更多不同类型的数据。传统做法，数据存储在RAID系统里，然后发送到多核服务器进行处理，然后再传回存储器，这样会造成数据传输的瓶颈，并且代价昂贵。通过像MapR-XD和MapR-DB这样的文件与表格存储，数据分布在一个集群中，像MapReduce，Pig和Hive这样的Hadoop技术将计算任务发送到数据所处的位置。

比如 Apache Spark 这样的技术，它通过更新缓存内存中的数据，使用轻量级线程，通过迭代算法加速分布式数据进行并行处理。

MapR Event Streams是一种新的分布式消息通信系统，用于大规模流式事件数据，并结合流处理（如Apache Spark流或Apache Flink）加快使用机器学习模型并行处理实时事件的速度。

最重要的是，图形图像处理器（GPU）加速了多核服务器的并行处理。GPU具有大规模并行架构，由数千个更小，交率更高的内核组成，专为并行多任何而设计。而CPU是由几个顺序串行优化处理的内核组成。就潜在的性能而言，从Cray-1向拥有大量GPU集群的演变是全球最快计算机的一百万倍，而成本变成很小的一部分。

什么是机器学习

机器学习使用算法来查找数据中的模式，然后使用识别这些模式的模型来预测新数据。

机器学习可以分为3类：有监督、无监督以及两者之间的半监督机器学习。

监督学习算法使用标签化数据，无监督学习算法在无标签的数据中查找模式。

半监督学习使用标记和未标记的混合数据。强化学习训练算法根据反馈最大化奖励。

监督机器学习

监督机器学习使用标签型数据，其中输入和目标结果或标签都要提供给算法。

监督机器学习也称为预测建模或预测分析，我们可建立一个能够预测的模型，预测建模的一些例子有分类建模与回归建模。基于已知项目的标签示例（例如，已知的欺诈交易），分类标识项目属于哪个类别（例如交易是不是欺诈）。逻辑回归预测概率，例如欺诈概率。

线性回归预测一个数字值，例如欺诈的数量。

分类的一些实例，列举部分如下：

1 信用卡欺诈预测（是否是欺诈）

2 信用卡申请（信用是否良好）

3 垃圾电子邮件检测（是否是垃圾邮件）

4 预测患者疾病风险（高风险与低风险）

5 恶性肿瘤与良性肿瘤分类

逻辑回归预测的一些实例。比如：

1 基于汽车保险欺诈和索赔特点的历史记录，比如索赔人的年龄，索赔年龄和事故的严重程度，预测是否是欺诈的量。

2 鉴于房地产销售价格和房屋特征（面积，卧室数量，位置），预测房屋出售价格。

3 鉴于邻里犯罪统计数据，预测犯罪率。

另外，还有一些有监督和无监督的机器学习算法。再来看一些算法的的实例。

分类器示例：银行卡欺诈

分类器机器学习筛选具有已知标签和预先确定特征的一组数据，并且根据这些数据标记新记录。即特征是问题的“if”，标签就是这些问题的答案。

我们来看一下机器学习中借记卡欺诈的问题实例：

我们试图预测哪些？

1）借记卡交易是否有欺诈行为

2）欺诈的标签（真/假）

可用预测的“if”问题或属性有哪些？

1）今天消费的金额 > 历史平均值

2）今天在多个国家有交易吗？

3）今天的交易数 > 历史平均水平

4）今天新商户类型的数量是否比过去3个月高？

5）今天是否有与多个采购风险的商家交易？

6）与历史使用PIN相比，今天是否有不正常的签名活动？

7）与过去 3 个月相比，是否有在新的地区购买行为？

8）与过去 3 个月相比，今天是否有海外采购记录？

要构建分类器模型，需要提取最有助于分类的兴趣特征。

决策树

使用决策树创建模型，要根据多个输入要素来预测类或标签。决策树通过在每个节点上评估包含特征的问题，并根据答案选择到下一个节点的分支来继续工作。

下面展示了预测银行卡欺诈的可能型决策树。问题特征称为节点，答案“Yes”或“No”是树中子节点的分支。（真正的这棵树会有更多的节点）

问题1：24小时消费的金额 > 平均水平？

答案：是

问题2：今天是否从有风险的商家处购买多件商品？

答案：是欺诈 = 90%

不是欺诈 = 50%

决策树学习模型很受欢迎，因为它们是可视化并容易解释。通过将算法与集成方法相结合，可以提高模型的准确性。一个集合的例子如随机森林，它将决策树的多个随机子集组合在一起。

无监督学习

无监督学习，也被称为描述性分析，即使用没有提前提供标签的数据。这些算法发现输入数据中的相似性或规律性。无监督学习的一个实例是根据购买数据对相似的用户进行分组。

聚类

在聚类学习算法中，算法通过分析装饰示例之间的相似性将输入分类聚合为一个分类。一些聚类用例包括如下场景：

1）搜索结果分组

2）分组类似的客户

3）分组类似的病患者

4）文本分类

5）网络安全异常检测（找到与集群异常不相似的东西）

K均值算法将观测结果分成为K个群集，其中每个观测属于聚类中心最近平均值的集群。

我们来说聚类的一个例子。有一家公司要将客户分组以更好的为其定制产品。用户可以按照人口统计和购买历史等选项进行分组。

无监督学习的聚类常常与监督学习相结合，从而能得到更有价值的结果。

例如，在一个银行客户服务360的使用案例中，先根据客户的调查答案进行细分，然后根据客户群体进行分析并打上角色标签。这些标签随后通过客户Id与帐户类型、购买等选项相关联。

最后，有监督的机器学习算法开始应用，与有标签的客户开始学习测试，从而将参与调查的客户与他们在银行的行为联系起来，并开始提供推荐和建议。

深度学习

深度学习也是多层神经网络的别称。它是由输入和输出之间的多个“隐藏层”组成的网络。神经网络有很多个变种和改进的算法。GPU和大规模并行处理（MPP）已经产生了数千层网络。系每个节点获取输入的数据与权重，并向下一层的节点输出置信度分数，直至达到输出层，计算分数的误差。

通过在称为梯度下降的过程中进行反向传播，通过网络再把错误发回，并调整权重以改善模型。该过程重复数千次，调整模型的权重以响应其产生的错误，直到错误不再减少。

在此过程中，各层学习模型的选择最佳特征。深度学习的优点是特征不需要预先确定。但是，也就有模型的决定无解释的缺点。解释决定可能很重要，研究人员正在开发新的方法来理解深度学习的“黑匣子”。

深度学习算法有多种不同的变体，可以与MapR的分布式深度学习快速入门解决方案一起使用，构建数据驱动的应用。请看如下所示：

（1）用于改进传统算法的深度神经网络。

1）金融：通过识别更复杂的模式来增强欺诈检测。

2）制造：基于更深层的异常检测，增强对缺陷的识别。

（2）用户图像的人工神经网络。

1）零售：用于衡量视频流量的店内活动分析

2）卫星图像：标记地形与物体分类

3）汽车：识别道路和障碍物

4）医疗保健：从X射线，扫描等方面取得诊断来源

5）保险：根据照片估算索赔严重性

（3）用于测序数据的递归神经网络

1）客户满意度：将语音数据转换为文本进行NLP分析

2）社交媒体：实时翻译社交平台和产品论坛上的帖子

3）照片索引：搜索图片文件，取得新的隐藏信息

4）金融：通过时间序列分析预测行为，也是增强的推荐系统

（完）

作者：Carol McDonald

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：快读书馆 > 《信息技术》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

快读书馆

关注对话

TA的最新馆藏

华为文化究竟是不是狼文化？
德鲁克目标管理基本思想，层层分解，满满的干货知识！
战略解码：定完2020年计划了吗？从战略到行动计划的85张实战图
小米集团信息化中台思考
「报告」5G产业发展最新进展深度解析
3.5万字深度解析任正非的战略思维：活下去，永远是企业的硬道理

喜欢该文的人也喜欢更多

热门阅读换一换