分享

人工智能/机器学习/数据挖掘/神经网络/深度学习,谁是谁?

 ht87 2019-12-30


一切问题都从人工智能开始的。人工智能(AI)本质上是一种工具

人工智能(英语:Artificial Intelligence,缩写为AI),指由人制造出来的机器所表现出来的智能。人工智能的定义可以分为两部分,即“人工”和“智能”,也就是“人工”制造的“智能”。

关于什么是“智能”,较有争议性。这涉及到其它诸如意识、自我、心灵,包括无意识的精神等等问题。人唯一了解的智能是人本身的智能,这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限,对构成人的智能必要元素的了解也很有限

AI的核心问题包括建构能够跟人类似甚至超卓的推理、知识、规划、学习、交流、感知、移物、使用工具和操控机械的能力等。也就是和人一样!

机器学习是人工智能的一个分支。人工智能注重开发能像人类一样完成复杂任务的机器,甚至完成得比人类更好。这些任务通常涉及判断、策略和认知推理,这些技能最初被认为是机器的“禁区”。虽然听起来很简单,但这些技能的范围非常广泛,涉及到语言处理、图像识别和规划等等。机器学习使用特定的算法和编程方法来实现人工智能。如果没有机器学习,之前提到的国际象棋程序将需要数百万行代码,以及对手所有的落子可能性。通过机器学习,则只需要少量代码。

深度学习是机器学习的一个子集是当前AI最流行的技术,专注于模仿人类大脑的生物学和运行过程。

人工智能的研究方向被分成几个子领域:

1、演绎、推理和解决问题

这是直接模仿人类进行逐步的推理,就像是玩棋盘游戏或进行逻辑推理时人类的思考模式。象棋、围棋等就属于这一类。

神经网络研究试图以模拟人类和动物的大脑结构重现这种技能。

2、知识表示法

相关的概念:知识表示常识知识库

目标是让机器存储相应的知识,并且能够按照某种规则推理演绎得到新的知识。

知识表示法 是认知科学和人工智能两个领域共同存在的问题。在认知科学里,它关系到人类如何储存和处理资料。在人工智能里,其主要目标为储存知识,让程式能够处理,达到人类的智慧。目前这个领域仍然没有一个完美的答案。

3、学习

这就是机器学习,是人工智能的核心。

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

机器学习的主要目的是为了让机器从用户和输入数据等处获得知识,从而让机器自动地去判断和输出相应的结果。

实质就是本质:读数据、算法计算和最后预测结果。

数据挖掘(英语:data mining)总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

站在计算机的角度,上图是一个机器学习的过程(更注重学习的过程);站在数据的角度,这就是一个数据挖掘的过程(更注重最后的结果)。

机器学习为数据挖掘提供技术基础,是数据挖掘的工具之一。也就是为了发现数据中的珍宝,我们需要机器学习这个“钻机”,有了这个好工具,我们才能从数据中挖掘到可能的稀世珍宝。

那为什么数据挖掘不用别的工具,就看上机器学习了呢?

机器学习使得从数据样本中获取结构描述成为可能。人们对“学习”结果是一个可以用样本进行分类的真实结构描述更感兴趣。这种结构描述不仅支持预测,也支持解释和理解。这是比传统统计模型更有意思的地方。

那么核心就是这个算法了!

算法基于学习方式的分类

(1) 监督学习(有导师学习)

监督学习指事先给定机器一些训练样本并且告诉样本的类别,然后根据这些样本的类别进行训练,提取出这些样本的共同属性或者训练一个分类器,等新来一个样本,则通过训练得到的共同属性或者分类器进行判断该样本的类别。

也就是先给出答案,让计算机按照答案学习,确定模型。以后来新的数据,按模型返回结果。根据结果的情况,决定是否还要修改模型。最后直到结果满意为止。

监督学习根据输出结果的离散性和连续性,分为分类回归两类。

主要算法包括神经网络支持向量机最近邻居法朴素贝叶斯法决策树等。

(2) 无监督学习(无导师学习):输入数据中无导师信号,采用聚类方法,学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。

无监督学习算法没有特定的目标输出,算法将数据集分为不同的组。

  • 聚类(Clustering):对一组数据示例进行分组,使一个组(或一个聚类)中的示例与其他组中的示例更相似(根据某些标准)。这通常用于将整个数据集分成几个组。可以在每个组中进行分析以帮助用户找到固有模式。

  • 降维(Dimension reduction):减少需要考虑的变量数量。在许多应用中,原始数据具有非常高的维度特征,并且一些特征对于任务是多余的或不相关的。降维有助于找到数据内在真实的、潜在的关系。

半监督式学习: 输入数据是标记和非标记的混合案例,模型必须学习其中结构然后按照预期组织数据,其关键方法是分类和回归。

(3)强化学习(增强学习):以环境反馈(奖/惩信号)作为输人,以统计和动态规划技术为指导的一种学习方法。类似有机体在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。在运筹学和控制论的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。

基本的机器学习算法:(限于篇幅,只能图直观了解)

  • 线性回归算法 Linear Regression

  • 支持向量机算法 (Support Vector Machine,SVM)

  • 最近邻居/k-近邻算法 (K-Nearest Neighbors,KNN)

  • 逻辑回归算法 Logistic Regression

  • 决策树算法 Decision Tree

  • k-平均算法 K-Means(聚类)

  • 随机森林算法 Random Forest

  • 贝叶斯算法 Naive Bayes

这些算法基于贝叶斯定理的,最受欢迎的是朴素贝叶斯算法,它经常用于文本分析。例如,大多数垃圾邮件过滤器都使用贝叶斯算法。它们使用按类别标记的用户输入数据来比较新数据,并对其进行适当分类。

  • 降维算法 Dimensional Reduction

  • 梯度增强算法 Gradient Boosting

那么如何来选择这些算法呢?

如果要执行降维(dimension reduction),则使用主成分分析(principal component analysis)

如果需要快速进行数值预测(numeric prediction),请使用决策树(decision tree)或逻辑回归( logistic regression)

如果需要分层结果,则使用分层聚类(hierarchical clustering)

神经网络是机器学习的一种算法


神经网络在最基本的成分是神经元(M-P神经元模型),通过激活函数(activation function)处理产生神经元的输出。

人工神经网络算法基于生物神经网络的结构。深度学习采用神经网络模型并对其进行更新。


  深度学习方法是一个现代的人工神经网络方法升级版,利用丰富而又廉价的计算,建立更大和更复杂的神经网络,许多方法都是涉及半监督学习(大型数据中包含很少有标记的数据)。



4、自然语言处理

自然语言处理探讨如何处理及运用自然语言,自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

自然语言处理 是人工智慧和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。

5、运动和控制

机器人学

机器人学(英语:robotics)是一项涵盖了机器人的设计、建造、运作、以及应用的跨领域科技[1],就如同电脑系统之控制、感测回授、以及资讯处理。这些科技催生出能够取代人力的自动化机器,在危险境或制造工厂运作,或塑造成外表、行为、心智的仿人机器人。

6、知觉

机器感知、计算机视觉和语音识别

机器感知是指能够使用传感器所输入的数据(如照相机、麦克风、声纳以及其他的特殊传感器)然后推断世界的状态。计算机视觉能够分析影像输入。另外还有语音识别、人脸识别和物体识别。

    机器学习有潜力能够改变世界。通过Google Brain和斯坦福机器等研究团队的努力,我们正朝着真正的人工智能迈进。

机器学习即将影响的领域有哪些呢?

      汽车使用通过机器学习进行导航、维护和安全程序。比如交通标志传感器,它使用监督学习算法来识别交通标志,并与标注数据集进行比较。因此,汽车看到停车标志时,系统将进行确认并停车。

    物联网或IOT,指家庭和办公室中与网络连接的物理设备。其中一个流行的物联网设备是智能灯泡,其销售额在过去几年中飙升。随着机器学习的进步,物联网设备比以往更智能,更复杂。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多