spark 从2.0开始,基于RDD api实现的机器学习算法库,进入到维护模式 以后在使用spark 机器学习功能的时候,建议使用基于dataframe Api实现的算法库 基于rdd实现的算法库所在的包:org.apache.spark.mllib 文档说明:http://spark./docs/latest/mllib-guide.html 基于dataFrame实现的算法库所在的包:org.apache.spark.ml 文档说明:http://spark./docs/latest/ml-guide.html spark 中机器学习算法,主要有四大类:分类算法(Classification),回归算法(regression),推荐算法(Collaborative filtering),聚类算法(Clustering) 一,分类算法(Classification)监督学习算法预测所属类别(两个类别中的一个或多个类别中的一个) 1,二分类算法(Binary Classification) a,支持向量机(linear SVMs) b,逻辑回归( logistic regression) c,决策树(decision trees) d,随机森林(random forests) e,梯度提升树算法(gradient-boosted trees) f,朴素贝叶斯算法(naive Bayes) 2,多分类算法(Multiclass Classification) a,逻辑回归( logistic regression) b,决策树(decision trees) c,随机森林(random forests) d,朴素贝叶斯算法(naive Bayes) 应用场景: a,垃圾邮件分类(是,不是) b,性别预测(男,女) c,广告是否点击预测(是,不是) d,水果类别预测(西瓜,香蕉,苹果,梨) 二,回归算法(regression)预测一个连续的值 1,决策树(decision trees) 2,线性回归(Linear Regression) Linear Regression L1正则化==>Lasso Regression L2正则化==>ridge regression 3,随机森林(random forests) 4,梯度提升树算法(gradient-boosted trees) 应用场景: a,某天天气气温预测(比如:4-25) b,某天订单预测 c,股票涨跌幅度预测 三,推荐算法(Collaborative filtering)看了又看,买了有买,买了这个商品的用户还买了别的 1,协同过滤算法 交替最小二乘法(ALS) 2,关联规则算法(购物篮算法) 频繁模式增长算法(FP-growth) 四,聚类算法(Clustering)研究对象特征,进行分类的统计方法 聚类算法和分类算法有个最大的区别,缺乏历史可靠资料 预测人的性别 (短发,胡子,喉结)==>男 (长发,没胡子,皮肤白,没有喉结)==>女 以上是有历史可靠资料(经验),可以使用分类算法进行分类(监督学习) 外星人 需要去研究外星人(研究对象)的特性,将有相同特性的外星人,归为一类,来确定外星人应该分为哪些类别 有眼睛归为一类 皮肤白的归为一类 个子高的归为一类 有特异功能的归为一类 以上由于缺乏历史可靠资料(经验),那么就需要去研究对象的特性,将有相同特性的归为一类,来确定研究对象的类别 1,K-均值算法(k-means) 五,集成(Ensembles)学习算法(融合学习算法)将多个机器学习算法合在一起进行预测,然后将预测的结果进行合并 1,随机森林(Random Forests) 底层N颗树构成 2,梯度提升树算法(Gradient-Boosted Trees ) 底层是RF算法 |
|