分享

推送!10大主流AI模型适用盘点

 LZS2851 2018-12-31

人工智能和机器学习的出现,让各大企业瞬间走上捷径,不管是运营效率还是生产利润都得到了显著的提升。但世界上是没有“免费午餐”的,企业面临的问题数组庞大,用于解决这些问题的ML模型种类相当广泛,每一种算法擅长的领域都不同,选择一种合适的算法模型成为企业棘手难题。


10种流行AI算法:

1. 线性回归

2. Logistic回归

3. 线性判别分析

4. 决策树

5. 朴素贝叶斯

6. K-Nearest Neighbors

7. 学习矢量量化

8. 支持向量机

9. Bagging和随机森林

10. 深度神经网络

在详细介绍各大模型之前,我们先了解一下机器学习的基本原理。

机器学习的原理可以简单的理解为学习函数(f),它提供输入值(x)和输出值(y)之间最精确的相关性。Y=F(X)

当我们拥有了一些历史数据X、Y时,便可以套入AI模型,得出这些数据间最佳映射。机器学习不同于数学计算,它的结果不是100%的准确,只是一个最佳数值。但我们训练的F函数可以用于使用新X预测新Y,从而实现预测分析。不同种类的ML模型实现最佳结果的方式都是不一样的,但是基本原理都是一样的。

线性回归

截止今日,线性回归在数学统计中被使用了200多年。算法的要点是找到系数(B)的值, 这些值对训练函数精度的影响很大。

举一个简单的例子:y = B0 + B1 * x,其中B0 + B1就是需求。

推送!10大主流AI模型适用盘点


通过调整这些系数的权重,数据科学家可以获得不同的训练结果。该算法成功的核心要求是具有清晰的数据(不能有太多的“低值信息”),并除去具有相似值(相关输入值)的输出变量。

线性回归算法一般适用于金融、银行、保险、医疗保健、营销等行业,统计数据进行梯度下降优化。

Logistic回归

Logistic回归是另一种流行的AI算法,能够提供二进制结果。这意味着该模型既可以预测结果,也可以指定y值的两个类别。该函数可以改变算法的权重,但由于使用非线性逻辑函数来转换结果,所以是不同的。此函数可以表示为将真值与虚值分开的S形线。

推送!10大主流AI模型适用盘点


该函数成功的要求与线性回归相同——去除相同值的输入样本并减少低值数据的数量。Logistic回归是一个比较简单的函数,很好掌握,很适合二进制分类。

线性判别分析(LDA)

线性判别分析(LDA)是逻辑回归模型的一个分支,可以在输出中存在两个以上的类时使用。该模型可以计算数据的统计特性,如每个类别平均值和所有类别的总方差。预测允许计算每个类的值,并确定具有最高值的类。想要得到正确的结果,该模型需要根据高斯贝尔曲线分布数据,事先去除所有的异常值。

决策树

决策树是最古老,最常用,最简单和最有效的ML模型之一。它是一个经典的二叉树,在模型到达结果节点之前,都需要确定是否进行拆分。

推送!10大主流AI模型适用盘点


该模型易于学习,不需要数据规范化,可以帮助解决多种类型的问题。

朴素贝叶斯(NBM)

朴素贝叶斯算法是一个简单但非常强大的模型,用于解决各种复杂问题。它可以计算出两种类型的概率:

1. 每个类出现的概率

2. 给定一个独立类的条件概率,给出一个额外的x修饰符。

推送!10大主流AI模型适用盘点

这种模型会假设所有输入数据彼此无关,因此也被称为“幼稚模型”。虽然这些在现实生活中无法实现,但这种简单的算法可以应用于多种标准化数据流,高精度地预测结果。

K-Nearest Neighbors(KNN)

K-Nearest Neighbors同样也是一个非常简单且强大的ML模型,使用整个训练数据集作为表示字段。通过检查具有相似值的K数据节点的整个数据集并使用欧几里德数来计算结果值的预测,以确定结果值。

推送!10大主流AI模型适用盘点

这样的数据集需要大量的计算资源来存储和处理数据,但当存在多个属性且必须不断地策划时会遭受精度损失。但是它工作速度极快,能够非常准确且高效的在大型数据集中查找所需值。

学习矢量量化(LVQ)

KNN唯一的缺点是需要存储和更新大型数据集。学习矢量量化(LVQ)是KNN模型的进化版,它是使用码本矢量来定义训练数据集并编码所需结果的神经网络。因此,这些向量最初是随机的,在学习的过程中可以调整它们的值来最大化预测精度。

推送!10大主流AI模型适用盘点

因此,找到具有最相似值的向量可以预测结果值的最高准确度。

支持向量机(SVM)

支持向量机是数据科学家讨论最广泛的算法之一,因为它为数据分类提供了非常强大的功能。所谓的超平面是用不同的值分隔数据输入节点的线,当同一类的所有数据实例都在超平面的同一侧,即支持向量;当数据点在其类平面之外,即不支持向量。

推送!10大主流AI模型适用盘点

好的超平面具有最大正向量且能够分离大多数数据节点。它是一个非常强大的分类机器,可以应用于各种数据规范化问题。

Bagging和随机森林

随机决策森林由决策树组成,其中多个数据样本由决策树处理,将结果聚合(如收集袋中的许多样本)在一起来找到更准确的输出值。

推送!10大主流AI模型适用盘点

不是找到一条最佳路线,而是定义了多条次优路线,从而使整体结果更加精确。如果决策树能够解决您的需求,那么随机森林可以作为一种优化方式,使结果更加完善。

深度神经网络(DNN)

推送!10大主流AI模型适用盘点

深度神经网络是使用最广泛的AI和ML算法之一,其工作原理是模仿人脑思考方式,使软件的语音识别速度更快,识别准确率更高。它擅长改善深基于学习的文本和语音应用程序,机器感知深层神经网络和OCR等。

总结

AI模型和ML模型种类繁多,有的适合数据分类,有的适合数据规划。没有一款模型能够适合所有的问题,因此选择一种合适的AI模型至关重要。

那么如何判断哪个模式更匹配您的需求呢?以下是一些帮助判断的要点:

1. 您需要处理的3V大数据(输入的数量,种类和速度)

2. 您可以使用的计算资源数量

3. 您处理数据的时间限制

4. 数据处理的目标

综上所述,如果一个模型可以提供94%的预测精度,另一个模型可以提供86%的预测精度,但是高精度模型的处理时间是低精度模型处理时间的两倍,那么就需要您基于上述条件去做选择。

但是,目前还存在一个比较大的问题是很多企业普遍缺乏设计、实施数据分析以及机器解决方案所需的专业知识。这就是为什么有那么多的企业都去选择专门的托管服务提供商。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多