分享

Spark MLlib机器学习—四大类算法笔记

 东东Wr 2019-12-21
Spark MLlib机器学习—四大类算法笔记

spark 从2.0开始,基于RDD api实现的机器学习算法库,进入到维护模式

以后在使用spark 机器学习功能的时候,建议使用基于dataframe Api实现的算法库


基于rdd实现的算法库

所在的包:org.apache.spark.mllib

文档说明:http://spark./docs/latest/mllib-guide.html

基于dataFrame实现的算法库

所在的包:org.apache.spark.ml

文档说明:http://spark./docs/latest/ml-guide.html


spark 中机器学习算法,主要有四大类:分类算法(Classification)回归算法(regression)推荐算法(Collaborative filtering)聚类算法(Clustering)

一,分类算法(Classification)监督学习算法

预测所属类别(两个类别中的一个或多个类别中的一个)

1,二分类算法(Binary Classification)

a,支持向量机(linear SVMs)

b,逻辑回归( logistic regression)

c,决策树(decision trees)

d,随机森林(random forests)

e,梯度提升树算法(gradient-boosted trees)

f,朴素贝叶斯算法(naive Bayes)

2,多分类算法(Multiclass Classification)

a,逻辑回归( logistic regression)

b,决策树(decision trees)

c,随机森林(random forests)

d,朴素贝叶斯算法(naive Bayes)

应用场景:

a,垃圾邮件分类(是,不是)

b,性别预测(男,女)

c,广告是否点击预测(是,不是)

d,水果类别预测(西瓜,香蕉,苹果,梨)

二,回归算法(regression)

预测一个连续的值

1,决策树(decision trees)

2,线性回归(Linear Regression)

Linear Regression

L1正则化==>Lasso Regression

L2正则化==>ridge regression

3,随机森林(random forests)

4,梯度提升树算法(gradient-boosted trees)

应用场景:

a,某天天气气温预测(比如:4-25)

b,某天订单预测

c,股票涨跌幅度预测

三,推荐算法(Collaborative filtering)

看了又看,买了有买,买了这个商品的用户还买了别的

1,协同过滤算法

交替最小二乘法(ALS)

2,关联规则算法(购物篮算法)

频繁模式增长算法(FP-growth)

四,聚类算法(Clustering)

研究对象特征,进行分类的统计方法

聚类算法和分类算法有个最大的区别,缺乏历史可靠资料

预测人的性别

(短发,胡子,喉结)==>男

(长发,没胡子,皮肤白,没有喉结)==>女

以上是有历史可靠资料(经验),可以使用分类算法进行分类(监督学习)

外星人

需要去研究外星人(研究对象)的特性,将有相同特性的外星人,归为一类,来确定外星人应该分为哪些类别

有眼睛归为一类

皮肤白的归为一类

个子高的归为一类

有特异功能的归为一类

以上由于缺乏历史可靠资料(经验),那么就需要去研究对象的特性,将有相同特性的归为一类,来确定研究对象的类别

1,K-均值算法(k-means)

五,集成(Ensembles)学习算法(融合学习算法)

将多个机器学习算法合在一起进行预测,然后将预测的结果进行合并

1,随机森林(Random Forests)

底层N颗树构成

2,梯度提升树算法(Gradient-Boosted Trees )

底层是RF算法

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多