人工智能/机器学习/数据挖掘/神经网络/深度学习，谁是谁？

ht87 2019-12-30

展开全文

一切问题都从人工智能开始的。人工智能（AI）本质上是一种工具。

人工智能（英语：Artificial Intelligence，缩写为AI），指由人制造出来的机器所表现出来的智能。人工智能的定义可以分为两部分，即“人工”和“智能”，也就是“人工”制造的“智能”。

关于什么是“智能”，较有争议性。这涉及到其它诸如意识、自我、心灵，包括无意识的精神等等问题。人唯一了解的智能是人本身的智能，这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限，对构成人的智能必要元素的了解也很有限

AI的核心问题包括建构能够跟人类似甚至超卓的推理、知识、规划、学习、交流、感知、移物、使用工具和操控机械的能力等。也就是和人一样！

机器学习是人工智能的一个分支。人工智能注重开发能像人类一样完成复杂任务的机器，甚至完成得比人类更好。这些任务通常涉及判断、策略和认知推理，这些技能最初被认为是机器的“禁区”。虽然听起来很简单，但这些技能的范围非常广泛，涉及到语言处理、图像识别和规划等等。机器学习使用特定的算法和编程方法来实现人工智能。如果没有机器学习，之前提到的国际象棋程序将需要数百万行代码，以及对手所有的落子可能性。通过机器学习，则只需要少量代码。

深度学习是机器学习的一个子集，是当前AI最流行的技术，专注于模仿人类大脑的生物学和运行过程。

人工智能的研究方向被分成几个子领域：

1、演绎、推理和解决问题

这是直接模仿人类进行逐步的推理，就像是玩棋盘游戏或进行逻辑推理时人类的思考模式。象棋、围棋等就属于这一类。

神经网络研究试图以模拟人类和动物的大脑结构重现这种技能。

2、知识表示法

相关的概念：知识表示和常识知识库

目标是让机器存储相应的知识，并且能够按照某种规则推理演绎得到新的知识。

知识表示法是认知科学和人工智能两个领域共同存在的问题。在认知科学里，它关系到人类如何储存和处理资料。在人工智能里，其主要目标为储存知识，让程式能够处理，达到人类的智慧。目前这个领域仍然没有一个完美的答案。

3、学习

这就是机器学习，是人工智能的核心。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

机器学习的主要目的是为了让机器从用户和输入数据等处获得知识，从而让机器自动地去判断和输出相应的结果。

实质就是本质：读数据、算法计算和最后预测结果。

数据挖掘（英语：data mining）总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。

站在计算机的角度，上图是一个机器学习的过程（更注重学习的过程）；站在数据的角度，这就是一个数据挖掘的过程（更注重最后的结果）。

机器学习为数据挖掘提供技术基础，是数据挖掘的工具之一。也就是为了发现数据中的珍宝，我们需要机器学习这个“钻机”，有了这个好工具，我们才能从数据中挖掘到可能的稀世珍宝。

那为什么数据挖掘不用别的工具，就看上机器学习了呢？

机器学习使得从数据样本中获取结构描述成为可能。人们对“学习”结果是一个可以用样本进行分类的真实结构描述更感兴趣。这种结构描述不仅支持预测，也支持解释和理解。这是比传统统计模型更有意思的地方。

那么核心就是这个算法了！

算法基于学习方式的分类

(1) 监督学习(有导师学习)

监督学习指事先给定机器一些训练样本并且告诉样本的类别，然后根据这些样本的类别进行训练，提取出这些样本的共同属性或者训练一个分类器，等新来一个样本，则通过训练得到的共同属性或者分类器进行判断该样本的类别。

也就是先给出答案，让计算机按照答案学习，确定模型。以后来新的数据，按模型返回结果。根据结果的情况，决定是否还要修改模型。最后直到结果满意为止。

监督学习根据输出结果的离散性和连续性，分为分类和回归两类。

主要算法包括神经网络、支持向量机、最近邻居法、朴素贝叶斯法、决策树等。

(2) 无监督学习(无导师学习)：输入数据中无导师信号，采用聚类方法，学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。

无监督学习算法没有特定的目标输出，算法将数据集分为不同的组。

聚类（Clustering）：对一组数据示例进行分组，使一个组（或一个聚类）中的示例与其他组中的示例更相似（根据某些标准）。这通常用于将整个数据集分成几个组。可以在每个组中进行分析以帮助用户找到固有模式。
降维（Dimension reduction）：减少需要考虑的变量数量。在许多应用中，原始数据具有非常高的维度特征，并且一些特征对于任务是多余的或不相关的。降维有助于找到数据内在真实的、潜在的关系。

半监督式学习: 输入数据是标记和非标记的混合案例，模型必须学习其中结构然后按照预期组织数据，其关键方法是分类和回归。

(3)强化学习(增强学习)：以环境反馈(奖/惩信号)作为输人，以统计和动态规划技术为指导的一种学习方法。类似有机体在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。在运筹学和控制论的语境下，强化学习被称作“近似动态规划”（approximate dynamic programming，ADP）。